2. TextsortierungKapitel hinzufügen
Für jede Regel wird eine bestimmte Textsortierung voreingestellt. Es gibt 3 Sortierungsmöglichkeiten:
- Keine Sortierung – Die Reihenfolge der Wörter wird von der OCR übernommen
- Sortierung in Lesereihenfolge – Die Wörter werden von links nach rechts und von oben nach unten durchlaufen
- Tabellarische Sortierung – Der Text wird spaltenweise durchlaufen
Anders als bei den ersten beiden Sortierungsvarianten, gilt bei der tabellarischen Sortierung ein etwas anderer Programmablauf: Da man sich hier nicht auf die Sortierungsreihenfolge der gefundenen Textblöcke seitens der OCR verlassen kann, müssen die zu untersuchenden Textbereiche etwas strenger spezifiziert werden.
Zuerst müssen die Spalten definiert werden. Das Programm versucht dazu senkrechte weiße Bereiche innerhalb des Textes zu finden, welche eine ausreichende Breite in mm haben. Der Standardwert hierfür ist 10mm, er ist allerdings frei wählbar. Diese Bereiche stellen die Spaltentrennung dar. Der Text links und rechts dieser Bereiche wird in der jeweiligen Spalte von links nach rechts und von oben nach unten durchlaufen.
Damit dem Programm mitgeteilt wird, ab wann es vom Text der einen Spalte auf den der nächsten Spalte zu wechseln hat, muss der Inhaltsverzeichniseintrag durch eine Kachel begrenzt sein, um die korrekte Erkennung der Tabellenzeile zu gewährleisten.
Leider ist es daher in diesem Modus nicht möglich, mehrere Aufsätze innerhalb einer Kachel zu erkennen.