5. OCR – Tesseract
Kapitel hinzufügen

5.1 Punktelinien
Abschnitt hinzufügen

Punktelinien werden je nach Spracheinstellung von Tesseract häufig als Buchstaben erkannt.

Ergebnis ohne HeavyNr

Um diesen Fehler zu vermeiden, kann in den OCR Attributen das Attribut HeavyNr angehakt werden.

Ergebnis mit HeavyNr.

5.2 OCR Spalten/Tabellenweise ausgeben
Abschnitt hinzufügen

In den Standard OCR Attributen ist für die Erkennung der Seite „als einziger einheitlicher Textblock erkennen“ ( Assume a single uniform block of text) hinterlegt.

Die OCR wird in diesem Fall von links nach rechts durchgeführt ohne Spalten oder Abstände zu berücksichtigen.

Wählen Sie für Vorlagen mit Spalten deshalb den Modus „Automatische Seitensegmentierung mit Orientierungs- und Segmentierungs-Erkennung“