Texterkennung

Der Begriff Texterkennung oder auch Optische Zeichenerkennung (OCR) kommt aus der Informationstechnologie und bezeichnet die automatisierte Texterkennung innerhalb von Bildern.

Optische Eingabegeräte wie Scanner oder Digitalkameras, aber auch Faxempfänger, können als Ergebnis ausschließlich Rastergrafiken liefern. Die Texterkennung übernimmt also die Aufgabe, die als Raster dargestellten Buchstaben auch als solche zu erkennen und ihnen den Zahlenwert nach der üblichen Textcodierung zuzuordnen.

Die Texterkennung findet in unterschiedlichen Bereichen Anwendung:

  • Textinformationen aus Bilddateien wiedergewinnen, damit sich diese mit Hilfe einer Textverarbeitung weiter bearbeiten oder elektronisch durchsuchbar machen lassen
  • Relevante Merkmale zur mechanischen oder elektronischen Einsortierung von Schriftstücken erkennen
  • Oder auch zur Layout-Erkennung, wobei ein formatiertes Dokument erstellt wird, welches der Vorlage bezüglich Bild-, Text- und Tabellenanordnung möglichst nahe kommt.