Papierdokumente, die mit einem Scanner digitalisiert wurden, bestehen nur aus einer Grafik. Der Text, den wir Menschen auf dem Bild sehen, muss für das Archivierungssystem zuerst erkannt werden. Hier kommen OCR-Texterkennungsprogramme zum Einsatz, welche die Bildmuster auswerten, Zeichen erkennen und diese zu einem Text zusammensetzen. Die erkannten Wörter stehen anschließend für die Volltextsuche in den Archiven und die Dokumentenerkennung zur Verfügung.
Um eine möglichst gute Texterkennung zu gewährleisten, nehmen Sie bitte folgende Einstellungen im Scan-Dialog und den Scanprofilen vor:
•Die Auflösung sollte mindestens 300dpi betragen. Bei kleinen Schriften, z. B. AGB auf Rechnungsrückseiten, können auch 400dpi erforderlich sein.
•Bei Textdokumenten können Sie in der Regel in Schwarzweiß scannen. Die Dateien sind deutlich kleiner als Graustufen- und Farbdokumente. Stellen Sie aber bitte sicher, dass dabei keine Information verloren geht: Beispielsweise müssen Sie in Farbe scannen, wenn auf einem Dokument die rote Schrift für negative Zahlen verwendet wurde.
Die OCR-Texterkennung wird im Office Manager ausgeführt, wenn eine entsprechende Software eingestellt und die Option Volltextsuche ermöglichen aktiviert ist.
Im Lieferumfang ist "Tesseract Open Source Engine" enthalten und ab Windows 10 kann die systemeigene OCR "Windows RT" genutzt werden. Wenn Sie viel scannen und die Volltextsuche verwenden möchten, kann die Installation einer kommerziellen Lösung, wie beispielsweise "Kofax/Nuance OmniPage" noch bessere Ergebnisse erzielen.
Siehe auch