Home > Handbuch > Dokumentenmanagement > Scannen > Texterkennung Texterkennung |
Papierdokumente liegen nach dem Scannen nur als Bilddaten vor. Eine OCR-Software kann den enthaltenen Text erkennen und eine Volltextsuche ermöglichen.
Wählen Sie bitte im Menü Datei | Optionen | Einstellungen die Seite Volltextindex | OCR und legen Sie die gewünschten Optionen fest:
Klicken Sie im Bild auf die Komponenten, zu der Sie weitere Hilfe wünschen.
Office Manager DMS bietet mehrere Schnittstellen zur OCR-Software, wählen Sie:
•keine: wenn Sie die Dokumente nicht indexieren möchten.
•Windows RT: ist ab Windows 10 im Betriebssystem integriert.
•Kofax/Nuance OmniPage kann vom Office Manager direkt gesteuert werden und bietet sehr gute Ergebnisse.
Siehe auch Option Nur OCR.
•Tesseract Open Source OCR Engine ist unter der Apache Lizenz verfügbar und wird zusammen mit dem Office Manager installiert. Tesseract wird zum Beispiel auch für OCROpus (Google Books) verwendet.
Siehe auch https://github.com/tesseract-ocr/tesseract.
•ABBYY FineReader for ScanSnap wird zusammen mit dem Dokumentenscanner ScanSnap von Ricoh bzw. Fujitsu installiert. Aktivieren Sie im ScanSnap Manager bzw. in ScanSnap Home bitte die Option "In durchsuchbare PDF konvertieren" oder realisieren Sie die nachträgliche OCR-Ausführung mit einem Makrobefehl.
Sie können den FineReader auch verwenden, wenn Sie Dokumente über ein anderes Gerät, beispielsweise einen Twain-Scanner einlesen. Die Datei "Scan2Pdf.exe" muss vorhanden sein. Passen Sie bitte wichtige Einstellungen an, siehe Hotline-Blog.
•ABBYY Hot Folder, OmniPage Agent, ReadIRIS u. ä.: OCR-Programme, die ein Verzeichnis überwachen und neue Dokumente automatisch verarbeiten. Beachten Sie bitte die Anleitung zum Einrichten dieser Funktion.
•Transym OCR (TOCR ab 2.0) ist eine preisgünstige Software, die Sie vorab auch kostenlos testen können (s. a. erweiterte Optionen). Eine Downloadmöglichkeit finden Sie unter https://transym.com.
•Azure Read Cloud-OCR/ICR (nur in Pro- und Enterprise-Editionen) nutzt die kostenpflichtigen Onlinedienste von Microsoft für maschinelles Lernen. Als ICR (Intelligent Character Recognition) kann diese Lösung auch handschriftliche Texte erkennen.
•Andere, Parametergesteuert: diese Option ist flexibel und arbeitet mit OCR-Programmen zusammen, die den Text in einer Grafikdatei erkennen und dieses selbständig in der Grafik- oder PDF-Datei hinterlegen können.
•Andere, Makrogesteuert: die flexibelste Möglichkeit OCR-Software programmiert anzusteuern.
Klicken Sie bitte, sofern möglich, auf den Schalter Testen, um die Funktion der gewählten OCR zu prüfen.
Mit der Option Ausführungszeit können Sie die OCR als Hintergrundfunktion definiert und während der Erkennung ungestört weiterarbeiten. Beim Fujitsu ScanSnap mit sofortiger Texterkennung wird diese von der Scannersoftware ausgeführt.
Wenn bei Ausführen auf der Name eines Computers angegeben ist, dann wird die Texterkennung nur auf diesem ausgeführt. Eine OCR-Software muss dann nur auf einem Computer im Netzwerk installiert sein - das spart Lizenzkosten.
Die Option Texterkennung auch für Dateianlagen ausführen ist sehr zeitaufwendig und nur sinnvoll, wenn Sie regelmäßig gescannte Dateianlagen per E-Mail erhalten.
Hinweise:
Die OCR-Software wird nur ausgeführt, wenn die Volltextindexierung auf "Index über alle Datenfelder und Dokumentinhalte" eingestellt ist.
Siehe auch
Texterkennung manuell ausführen
Hotline-Blog: OCR-Texterkennung