1. OCR-Umbrüche entfernen
Kapitel hinzufügen

Erkennt die OCR Umbrüche, dann sind diese im OCR-Text für gewöhnlich auch enthalten.

Dies gilt allerdings nicht, wenn der OCR-Text nachträglich aus dem intern vorliegenden IW-OcrDoc-Objekt geholt wird:
Hier wird nur die Wortliste durchsucht und alle zu einem Bereich gehörenden Wörter werden, durch Blanks getrennt, zurückgeliefert.

Also: Es hängt von der Art und Weise ab, wie der konkrete OCR-Text in der Anwendung beschafft wird.

Wird er durch direkte OCR, also ohne das IW-OcrDoc, geholt (durch einen direkten Abbyy-Lauf), dann sind die Umbrüche vorhanden.

ANPASSUNG ab dem nächsten Release:

  • Wird ein OCR-Text aus einem Bereich mittels des Bereichs-Eigenschaften-Dialogs einem Index zugewiesen, werden Zeilenumbrüche durch Leerzeichen ersetzt.

Ein generelles Entfernen von Umbrüchen ist nicht sinnvoll.

Was kann noch getan werden:

Werden OCR-Ergebnisse in Scripts verwendet, können Sie im Script die entsprechenden Ersetzungen vornehmen:

Beispiel:

Enthält die Script-Variable „str“ eine Zeichenkette, in der auch Umbrüche sind, können diese mittels

  • str.replace(„\n“, “ „)

entfernt werden.

D.h., anstelle des Ausdrucks str, dann einfach str.replace(„\n“, “ „) verwenden…