
OCR – Optical Character Recognition
OCR ist eine Abkürzung und steht für Optical Character Recognition. Auf Deutsch: optische Erkennung von Zeichen oder kurz: Texterkennung. Gemeint ist damit die automatische Erkennung von Text und Schrift innerhalb einer Grafik oder Fotos.
Texterkennung versucht Buchstaben, Zahlen und Sonderzeichen zu erkennen und wandelt diese in Texte um, die von Computern verarbeitet werden können. Oftmals wird in Deutschland dazu die Textcodierung ASCII oder Unicode verwendet.
Zu Beginn von OCR wurden spezielle Schriftarten entwickelt, die das Erkennen von Texten erleichtert haben. Dies ist bekannt von z.B. Personalausweisen oder Reisepässen. Auch Banken haben diese Schriftarten verwendet. Bekannte Schriftarten sind unter anderem OCR-A und OCR-B.
Mit steigender Rechenleistung konnten Computer und Software immer häufiger auch herkömmliche Schriftarten erkennen.
Die Verwendung von OCR hat in den letzten Jahren zugenommen. Viele Unternehmen erfassen Dokumente mittlerweile digital und entnehmen die Daten per OCR-Verfahren. Damit können die digitalen Dokumente schnell kategorisiert und mit Schlagworten versehen werden.
Im Bereich von automatischer Datenerfassung spielt OCR auch eine tragende Rolle, wenn es um die Erkennung von Etiketten geht. So sollen dann Empfängeradressen oder Produktdaten erkannt und in digitaler Form weiterverarbeitet werden.