12. Menü OCR
Kapitel hinzufügen

12.1 OCR-Attribute
Abschnitt hinzufügen

Hier legen Sie in Abhängigkeit der genutzten OCR-Engine (ABBYY bzw. Tessseract) die OCR-Attribute fest, die BCS-2 zur Bearbeitung eines Images verwendet.

Globale OCR-Attribute einstellen: BCS-2 nutzt diese Konfiguration immer dann, wenn keine job- bzw. seitenspezifischen Einstellungen vorgenommen oder die OCR-Einstellungen durch den Job-Index gesteuert werden.

OCR-Attribute für aktuellen Job einstellen: BCS-2 nutzt die Konfiguration für die OCR-Verarbeitung des aktuellen Jobs.

OCR-Attribute für aktuelle Seite einstellen: BCS-2 nutzt die Konfiguration nur für die OCR-Verarbeitung der aktuellen Seite.

globale OCR-Attribute zurücksetzten…: BCS-2 setzt die OCR-Attribute auf die ursprünglichen Standardwerte der Anwendung zurück.

OCR-Attribute des Jobs zurücksetzen…: BCS-2 setzt die OCR-Attribute auf die globalen Einstellungen zurück.

OCR-Attribute des Images zurücksetzen…: Setzt die OCR-Attribute auf die jobspezifischen oder globalen Einstellungen zurück.

12.2 OCR-Attribute einstellen
Abschnitt hinzufügen

Da die OCR-Engines mannigfaltige Konfigurationsmöglichkeiten anbieten, wählen Sie über die Dropdownliste unterhalb der „OCR-Attribute“ eine Erfahrungsstufe aus (Anfänger, Fortgeschrittener, Experte). So grenzen Sie die Anzahl der Konfigurationsmöglichkeiten ein.

Die Attribute für die OCR-Engines sind vorkonfiguriert, sodass Sie meist nur noch die Sprache und im Fall von ABBYY die Schriftart bestimmen.

 Wählen Sie Schrift und Sprache nicht korrekt aus, fällt das Ergebnis der OCR entsprechend schlecht aus.

Tesseract

ABBYY

12.3 OCR durchführen
Abschnitt hinzufügen

OCR für markierten Bereich durchführen: BCS-2 führt die Texterkennung nur für den ausgewählten Bereich auf dem Image durch.

OCR für aktuelle Seite durchführen: BCS-2 führt die Texterkennung für die gesamte Seite durch.

OCR für aktuelle Seite durchführen und Segmente anzeigen: BCS-2 führt die Texterkennung für die gesamte Seite durch und zeigt anschließend die von der OCR-Engine erkannten Segmente (Bereiche) an.

OCR-Text der aktuellen Seite editieren (STRG+O): Ruft den Texteditor zur Korrektur oder zum Kopieren des OCR-Volltextes auf.

 Korrigiert wird nur der Fließtext, Fehler bleiben in den anderen Ausgabeformaten (z.B. PDF, Alto, IWCOCR-eL) bestehen.

12.4 Zonierte OCR
Abschnitt hinzufügen

Für die direkte Übernahme von Texten in die Zwischenablage steht im Kontext-Menü des Viewers die Funktion „zonierte OCR ins Clipboard“ zur Verfügung.

Mit dieser  Technik ist es einfach OCR-Daten zu erzeugen und entsprechenden Objekten (Knoten) oder Indizes zuzuweisen:

  • Im Strukturbaum: Rechtsklick auf den jeweiligen Knoten und Auswahl „Text aus ClipBoard einfügen“
  • Im Job-Index: Übernahme ins letzte aktive Feld
  • An beliebigen Stellen: Element auswählen und mittels CONTROL-V den Text-Inhalt des Clipboards einfügen

12.5 Sprachausgabe von OCR-Texten
Abschnitt hinzufügen

BCS-2 liest OCR-Texte auch vor.

An folgenden Stellen ist eine Sprachausgabe möglich:

  • Zonierte OCR ins Clipboard: Drücken Sie Beim Ziehen mit der Maus die STRG-Taste, anschließend liest BCS-2 den Text vor.
  • OCR-Editor (OCR-Ergebnis-Dialog): Hier ist ein entsprechender Button vorhanden, der den Text-To-Speech-Dialog öffnet.
  • OCR-Editor (eingeblendet): Hier ist ein entsprechender Button vorhanden, der den Text-To-Speech-Dialog öffnet

Im offenen Text-To-Speech-Dialog besteht die Möglichkeit die Sprache zu wechseln, sofern diese im jeweiligen Windows-System installiert wurde.

Ferner ist auch der Text selbst änderbar, d.h. Sie können testweise im offenen Text-To-Speech-Dialog beliebige Texte via Copy und Paste einfügen, um so z.B. anderssprachige Texte über die Sprachfunktion auszugeben .

Standardmäßig sind in Deutschland die Sprachen Englisch und Deutsch installiert.

12.6 OCR-Zusatzfunktionen
Abschnitt hinzufügen

Die OCR-Zusatzfunktionen stehen erst nach einem erfolgreichen OCR-Lauf zur Verfügung.

OCR-Blöcke hervorheben: Zeigt von der OCR erkannte Blöcke auf dem Image an.

OCR-Absätze hervorheben: Zeigt von der OCR erkannte Absätze auf dem Image an.

OCR-Textzeilen hervorheben: Zeigt von der OCR erkannte Textzeilen auf dem Image an.

OCR-Worte hervorheben: Zeigt von der OCR erkannte Wörter an.

Für alle o. a. OCR-Zusatzfunktionen gilt: Bei einem Mouseover über die markierten Bereiche zeigt BCS-2 die ermittelten OCR-Informationen an.

OCR-Symbole hervorheben: Hebt alle von der OCR erkannten Symbole und Buchstaben hervor.

 ABBYY 10/12: Achten Sie bei der Erstellung von PDFs aus OCRs darauf, dass in den OCR-Einstellungen im Abschnitt "PrepareImageMode" die Funktionen "Overwrite Image Resolution" und "Correct Skew" deaktiviert sind. Das verhindert, dass die OCR-Engine über BCS-2 konfigurierte Scans in der Größe ändert. Beachten Sie außerdem, dass Frakturklicks in BCS-2 nicht sichtbar sind. Zur Überprüfung der verbliebenen Anzahl an Frakturklicks öffnen Sie die "ABBYYLicenceManager.exe" im Verzeichnis "C:\Program Files (x86)\ImageWareComponents\Abbyy_12_Engine\fr12\Bin64" bzw. 
"C:\Program Files (x86)\ImageWareComponents\Abbyy_10_Engine\fr12\Bin64". Die OCR für Frakturschrift muss für ABBYY kostenpflichtig lizenziert werden. Die Frakturklicks werden gesondert vom Stick abgezogen. Sobald Fraktur als Schrift in den OCR-Attributen hinterlegt ist, werden bei jedem OCR-Lauf Fraktur-Klicks abgezogen! 

12.7 OCR-Bearbeitung mit ABBYY von großen oder vielen Jobs
Abschnitt hinzufügen

Bei Nutzung der ABBYY-OCR kommt es vor, dass bei der Verarbeitung von vielen Jobs oder Jobs mit sehr großen oder vielen Images der OCR-Lauf abbricht und BCS-2 beendet wird.

Das liegt daran, dass die OCR-Engine den Speicher nicht komplett freigibt.

Bei kleineren (bis zu 100 Seiten) und wenigen OCR-Jobs am Tag führt dies nicht zu Einschränkungen.

Werden jedoch

  • große und viele OCR-Jobs durchgeführt
  • große Images mit Fraktur OCR-nachbearbeitet
  • oder OCR für schlechte bzw. schwierige Vorlagen (z.B. vergilbtes Papier, verschmierter Druck, Flecken oder Mikrofilm-Scans)

durchgeführt, kann es zu Abstürzen kommen.

Zur Vermeidung empfehlen wir:

  1. Schließen Sie alle anderen Programme (Word, Excel, Outlook) bei der Verarbeitung von vielen Jobs.
  2. Lassen Sie immer nur eine gewisse Anzahl an OCR-Jobs von der Stapelverarbeitung bearbeiten, bzw. teilen Sie große OCR-Jobs in kleine Einheiten a 100 oder 250 Seiten auf, die während eines Batch-Laufes bearbeitet werden (s. Batch-Operation aufteilen).
  3. Stellen Sie sicher, dass auf ihrem PC „mindesten“ die doppelte Menge des größten Job an Speicherplatz frei ist, damit ABBYY das Zwischenergebnis auslagern kann.
  4. Starten, bzw. lassen Sie BCS-2 regelmäßig neu starten.

Führen Sie häufiger Joboperationen dieser Art durch sprechen Sie unsere Support an. Für die automatische operatoren-lose OCR über Nacht, gibt es Empfehlungen.

Generell gibt es keine Empfehlung von ABBYY zur maximalen Jobgröße. Die OCR-Engine wurde für Clients und typische Client-Anwendungen entwickelt, d.h. für Aufträge bis zu ca. 100 Seiten. Für umfangreiche Jobs gibt es von ABBYY eine Serverlösung.