12. Menü OCR
Kapitel hinzufügen

12.1 OCR-Attribute
Abschnitt hinzufügen

Hier legen Sie in Abhängigkeit der genutzten OCR-Engine (ABBYY bzw. Tessseract) die OCR-Attribute fest, die von der OCR Engine für die Bearbeitung eines Images verwendet werden sollen.

Globale OCR-Attribute einstellen: BCS-2 nutzt diese Konfiguration immer dann, wenn keine job- bzw. seitenspezifischen Einstellungen vorgenommen oder die OCR-Einstellungen durch den Job-Index gesteuert werden.

OCR-Attribute für aktuellen Job einstellen: BCS-2 nutzt die Konfiguration für die OCR-Verarbeitung des aktuellen Jobs.

OCR-Attribute für aktuelle Seite einstellen: BCS-2 nutzt die Konfiguration nur für die OCR-Verarbeitung der aktuellen Seite.

globale OCR-Attribute zurücksetzten…: BCS-2 setzt die OCR-Attribute auf die ursprünglichen Standardwerte der Anwendung zurück.

OCR-Attribute des Jobs zurücksetzen…: BCS-2 setzt die OCR-Attribute auf die globalen Einstellungen zurück.

OCR-Attribute des Images zurücksetzen…: Setzt die OCR-Attribute auf die jobspezifischen oder globalen Einstellungen zurück.

12.2 OCR-Attribute einstellen
Abschnitt hinzufügen

Da die OCR-Engines mannigfaltige Konfigurationsmöglichkeiten anbieten, wählen Sie über die Dropdownliste unterhalb der „OCR-Attribute“ eine Erfahrungsstufe aus (Anfänger, Fortgeschrittener, Experte). So grenzen Sie die Anzahl der Konfigurationsmöglichkeiten ein.

Die Attribute für die OCR-Engines sind vorkonfiguriert, sodass Sie meist nur noch die Sprache und im Fall von ABBYY die Schriftart bestimmen.

 Wählen Sie Schrift und Sprache nicht korrekt aus, fällt das Ergebnis der OCR entsprechend schlecht aus.

Tesseract

 Beachten Sie bei der Konfiguration von Tesseract, dass als "OcrEngineMode" "Run LSTM only." ausgewählt ist. Aktivieren Sie außerdem in den OCR-Einstellungen zum Workflow den Modus "wenn OCR für die gesamte Seite durchgeführt wird: Das interne OCR-Ergebnis aufheben und später für zonierte OCR verwenden".

ABBYY

12.3 OCR Profile
Abschnitt hinzufügen

OCR Attribute, die für einen Job gesetzt wurden können als OCR Profile gespeichert und somit auch in anderen Jobs genutzt werden. 

Hierfür wird nachdem die ”OCR Attribute für den aktuellen Job” gesetzt und mit OK gespeichert wurden, “Aktuelle OCR-Einstellungen als neues Profil speichern” ausgewählt.  

Es erscheint der Dialog in dem Name und Einstellungen für das Profil hinterlegt werden können.  

 Wird ein OCR Profil später ausgewählt, werden die im Profil gespeicherte Attribute für den Job gesetzt.  Ein Profil verändert nicht die globalen OCR Attribute. 

Aktuelle OCR-Einstellungen als neues Profil speichern: BCS-2 speichert die ”OCR Attribute für den aktuellen Job” gesetzt  und mit OK gespeichert wurden als neues Scan-Profil. Damit speichern Sie Scanner-Einstellungen für unterschiedliche Workflows und Lichtverhältnisse. 

Name: Name des Profils, der in der Dropdownliste angezeigt wird 

Beschreibung: Optionale Beschreibung des Profils 

  • Dieses Profil wird für jeden Scan verwendet ist diese Funktion aktiviert können die OCR Einstellungen für den Job nicht geändert werden, bzw. werden immer auf das OCR Profil zurückgesetzt. 
  • Dieses Profil ist gesperrt (kann nicht geschrieben und gelöscht werden) Das Profil kann nicht von einem Anwender angepasst werden. Es muss über den Reiter OCR Profile erst freigegeben werden. 

Bestätigen Sie Ihre Eingabe mit „OK“. Das neue OCR Profil steht Ihnen jetzt über die Dropdown-Liste in der Toolbar und in den Workflow Einstellungen zur Verfügung.   

aktuelles OCR-Profil überschreiben: Überschreibt das aktive OCR-Profil mit den aktuellen Einstellungen. 

 Nicht benötigte OCR Profile können über die Verwaltung im Reiter OCR-Profile gelöscht werden. 
OCR Profile können mit Workflows (Reiter Basis) verknüpft werden.

12.4 OCR durchführen
Abschnitt hinzufügen

OCR für markierten Bereich durchführen: BCS-2 führt die Texterkennung nur für den ausgewählten Bereich auf dem Image durch.

OCR für aktuelle Seite durchführen: BCS-2 führt die Texterkennung für die gesamte Seite durch.

OCR für aktuelle Seite durchführen und Segmente anzeigen: BCS-2 führt die Texterkennung für die gesamte Seite durch und zeigt anschließend die von der OCR-Engine erkannten Segmente (Bereiche) an.

OCR-Text der aktuellen Seite editieren (STRG+O): Ruft den Texteditor zur Korrektur oder zum Kopieren des OCR-Volltextes auf.

 Korrigiert wird nur der Fließtext, Fehler bleiben in den anderen Ausgabeformaten (z.B. PDF, Alto, IWCOCR-eL) bestehen.

12.5 Zonierte OCR
Abschnitt hinzufügen

Für die direkte Übernahme von Texten in die Zwischenablage steht im Kontext-Menü des Viewers die Funktion „zonierte OCR ins Clipboard“ zur Verfügung.

Mit dieser  Technik ist es einfach OCR-Daten zu erzeugen und entsprechenden Objekten (Knoten) oder Indizes zuzuweisen:

  • Im Strukturbaum: Rechtsklick auf den jeweiligen Knoten und Auswahl „Text aus ClipBoard einfügen“
  • Im Job-Index: Übernahme ins letzte aktive Feld
  • An beliebigen Stellen: Element auswählen und mittels CONTROL-V den Text-Inhalt des Clipboards einfügen

12.6 Sprachausgabe von OCR-Texten
Abschnitt hinzufügen

BCS-2 liest OCR-Texte auch vor.

An folgenden Stellen ist eine Sprachausgabe möglich:

  • Zonierte OCR ins Clipboard: Drücken Sie beim Ziehen mit der Maus die STRG-Taste, anschließend liest BCS-2 den Text vor.
  • OCR-Editor (OCR-Ergebnis-Dialog): Hier ist ein entsprechender Button vorhanden, der den Text-To-Speech-Dialog öffnet.
  • OCR-Editor (eingeblendet): Hier ist ein entsprechender Button vorhanden, der den Text-To-Speech-Dialog öffnet

Im offenen Text-To-Speech-Dialog besteht die Möglichkeit die Sprache zu wechseln, sofern diese im jeweiligen Windows-System installiert wurde.

Ferner ist auch der Text selbst änderbar, d.h. Sie können testweise im offenen Text-To-Speech-Dialog beliebige Texte via Copy und Paste einfügen, um so z.B. anderssprachige Texte über die Sprachfunktion auszugeben.

12.7 OCR-Zusatzfunktionen
Abschnitt hinzufügen

Die OCR-Zusatzfunktionen stehen erst nach einem erfolgreichen OCR-Lauf zur Verfügung.

OCR-Blöcke hervorheben: Zeigt von der OCR erkannte Blöcke auf dem Image an.

OCR-Absätze hervorheben: Zeigt von der OCR erkannte Absätze auf dem Image an.

OCR-Textzeilen hervorheben: Zeigt von der OCR erkannte Textzeilen auf dem Image an.

OCR-Worte hervorheben: Zeigt von der OCR erkannte Wörter an.

Für alle o. a. OCR-Zusatzfunktionen gilt: Bei einem Mouseover über die markierten Bereiche zeigt BCS-2 die ermittelten OCR-Informationen an.

OCR-Symbole hervorheben: Hebt alle von der OCR erkannten Symbole und Buchstaben hervor.

Suche in OCR-Texten: Voraussetzung ist, dass der OCR-Text im IWC-DOK-Format vorliegt. Bei OCR-Texten, die Sie über den Shortcut „O“ oder über das Menü „Job“ > „Operationen auf dem Job ausführen“ erzeugen, ist dies der Fall. Das Suchformular öffnen Sie über den Shortcut „strg + F“.

Die gefunden, passenden Einträge markiert BCS-2 in gelb:

 ABBYY 10/12: Achten Sie bei der Erstellung von PDFs aus OCRs darauf, dass in den OCR-Einstellungen im Abschnitt "PrepareImageMode" die Funktionen "Overwrite Image Resolution" und "Correct Skew" deaktiviert sind. Das verhindert, dass die OCR-Engine über BCS-2 konfigurierte Scans in der Größe ändert. Beachten Sie außerdem, dass Frakturklicks in BCS-2 nicht sichtbar sind. Zur Überprüfung der verbliebenen Anzahl an Frakturklicks öffnen Sie die "ABBYYLicenceManager.exe" im Verzeichnis "C:\Program Files (x86)\ImageWareComponents\Abbyy_12_Engine\fr12\Bin64" bzw. 
"C:\Program Files (x86)\ImageWareComponents\Abbyy_10_Engine\fr12\Bin64". Die OCR für Frakturschrift muss für ABBYY kostenpflichtig lizenziert werden. Die Frakturklicks werden gesondert vom Stick abgezogen. Sobald Fraktur als Schrift in den OCR-Attributen hinterlegt ist, werden bei jedem OCR-Lauf Frakturklicks abgezogen! 

12.8 OCR-Umbrüche entfernen
Abschnitt hinzufügen

Erkennt die OCR Umbrüche, dann sind diese im OCR-Text für gewöhnlich auch enthalten.

Dies gilt allerdings nicht, wenn der OCR-Text nachträglich aus dem intern vorliegenden IW-OcrDoc-Objekt geholt wird:
Hier wird nur die Wortliste durchsucht und alle zu einem Bereich gehörenden Wörter werden, durch Blanks getrennt, zurückgeliefert.

Es hängt von der Art und Weise ab, wie der konkrete OCR-Text in der Anwendung beschafft wird.

Wird er durch direkte OCR, also ohne das IW-OcrDoc, geholt (durch einen direkten ABBYY-Lauf), dann sind die Umbrüche vorhanden.

ANPASSUNG ab Release 6.4.6:

  • Wird ein OCR-Text aus einem Bereich mittels des Bereichs-Eigenschaften-Dialogs einem Index zugewiesen, werden Zeilenumbrüche durch Leerzeichen ersetzt.

Ein generelles Entfernen von Umbrüchen ist nicht sinnvoll.

Was kann noch getan werden:

Werden OCR-Ergebnisse in Scripts verwendet, können Sie im Script die entsprechenden Ersetzungen vornehmen:

Beispiel:

Enthält die Script-Variable „str“ eine Zeichenkette, in der auch Umbrüche sind, können diese mittels

  • str.replace(„\n“, “ „)

entfernt werden.

Verwenden Sie anstelle des Ausdrucks str, str.replace(„\n“, “ „).