10. OCR: Index steuert Schrifttyp und -Sprache
Kapitel hinzufügen

10.1 Index steuert Sprache
Abschnitt hinzufügen

Liste der momentan verfügbaren Sprachen in der Auswahl-Liste (englische Übersetzung):

  • deu | German
  • eng | English
  • fra | French
  • ita | Italian
  • spa | Spanish
  • ell | Greek
  • grc | Ancient Greek (to 1453)
  • tlh | Klingon
  • lat | Latin
  • heb | Hebrew
  • hbo | Ancient Hebrew
  • oar | Old Aramaic (up to 700 BCE)
  • tmr | Jewish Babylonian Aramaic (ca. 200-1200 CE)
  • arc | Official Aramaic (700-300 BCE)
  • jpa | Jewish Palestinian Aramaic
  • aii | Assyrian Neo-Aramaic
  • por | Portuguese
  • nld | Dutch
  • dan | Danish
  • nor | Norwegian
  • swe | Swedish
  • isl | Icelandic
  • fin | Finnish
  • pol | Polish
  • hun | Hungarian
  • ces | Czech
  • slk | Slovak
  • ron | Romanian
  • slv | Slovenian
  • hrv | Croatian
  • bos | Bosnian
  • sqi | Albanian
  • srp | Serbian
  • tur | Turkish
  • rus | Russian
  • est | Estonian
  • lit | Lithuanian
  • lav | Latvian
  • bel | Belarusian
  • ukr | Ukrainian
  • bul | Bulgarian
  • zho | Chinese
  • jpn | Japanese
  • kor | Korean
  • tha | Thai
  • vie | Vietnamese
  • hin | Hindi

Damit kann der Anwender mehr als eine Sprache selektieren.

Auch hier ist wieder die ISO-639-3-Liste zu verwenden. Analog zur Verwendung einer Optionsliste sollte auch hier immer als einzelne Sprache eine Kombination von ISO-Code und dem Namen der Sprache verwendet werden.

Damit stellt sich natürlich die Frage, wie man im Ergebnis an die komma-separierte Liste der ISO-Codes kommt, wenn die einzelnen Optionen die Form „deu | Deutsch“, „rus | Russisch“ oder „zho | Chinesisch“ haben…

Antwort: eine neue Script-Funktion im Utility-Objekt: ut.technicalValues();

Sei Job-Index 4 vom Typ „Sammlung“, bzw. „Kollektion“ und die Liste der Optionen ist wie oben beschrieben konfiguriert, dann liefert der Aufruf von job.index4 eine komma-separierte Liste der kompletten Optionen, also ISO-Code, Strich und Sprachenname…

Wir wollen aber nur die komma-separierte Liste mit den ISO-Codes haben…

das geht dann so: ut.technicalValues(job.index4)

10.2 Index steuert Schrift-Typ
Abschnitt hinzufügen

Wie im Fall der OCR-Sprachen sind auch hier mehrere Merkmale gleichzeitig setzbar, daher empfiehlt sich auch hier wieder die Verwendung eines Indizes vom Typ ‚Kollektion‘.

Da die eigentlichen Werte in diesem Falle Zahlen (konkret Zweier-Potenzen) sind, sollte man auch hier wieder die Notation <technischer Wert> | <Beschreibung> wählen und mittels ut.technicalValues(); die komma-separierte Liste der technischen Werte durch den Script-Ausdruck ermitteln lassen.

Folgende Werte und Beschreibungen sollten für den Einsatz der Abbyy-OCR-Engine gewählt werden:

  • 1 | Normal type
  • 2 | Typewriter type
  • 4 | Matrix printer type
  • 8 | Index type
  • 16 | Handprinted type
  • 32 | OCR A type
  • 64 | OCR B type
  • 128 | MICR E13B type
  • 256 | MICR CMC7 type
  • 512 | Gothic (Fraktur)