5. OCR – TesseractKapitel hinzufügen
5.1 Punktelinien Abschnitt hinzufügen
Punktelinien werden je nach Spracheinstellung von Tesseract häufig als Buchstaben erkannt.

Um diesen Fehler zu vermeiden, kann in den OCR Attributen das Attribut HeavyNr angehakt werden.


5.2 OCR Spalten/Tabellenweise ausgebenAbschnitt hinzufügen
In den Standard OCR Attributen ist für die Erkennung der Seite „als einziger einheitlicher Textblock erkennen“ ( Assume a single uniform block of text) hinterlegt.

Die OCR wird in diesem Fall von links nach rechts durchgeführt ohne Spalten oder Abstände zu berücksichtigen.

Wählen Sie für Vorlagen mit Spalten deshalb den Modus „Automatische Seitensegmentierung mit Orientierungs- und Segmentierungs-Erkennung“

