12. Menu OCR
Aggiunta di capitoli

12.1 Attributi dell’OCR
aggiungi sezione

A seconda del motore OCR utilizzato (ABBYY o Tessseract), si specificano gli attributi OCR che BCS-2 utilizza per elaborare un’immagine.

Imposta attributi OCR globali: BCS-2 utilizza sempre questa configurazione quando non vengono effettuate impostazioni specifiche per il lavoro o la pagina o quando le impostazioni OCR sono controllate dall’indice del lavoro.

Imposta attributi OCR per il lavoro corrente: BCS-2 utilizza la configurazione per l’elaborazione OCR del lavoro corrente.

Imposta attributi OCR per la pagina corrente: BCS-2 utilizza la configurazione solo per l’elaborazione OCR della pagina corrente.

Reimposta attributi OCR globali: BCS-2 reimposta gli attributi OCR sui valori predefiniti originali dell’applicazione.

Reimposta attributi OCR del lavoro corrente: BCS-2 reimposta gli attributi OCR sulle impostazioni globali.

Reimposta attributi OCR della pagina di lavoro corrente: reimposta gli attributi OCR sulle impostazioni globali o specifiche del lavoro.

12.2 Configurare gli attributi OCR
aggiungi sezione

Poiché i motori OCR offrono un’ampia gamma di opzioni di configurazione, utilizza l’elenco a discesa sotto gli “Attributi OCR” per selezionare un livello di esperienza (principiante, intermedio, esperto). In questo modo limiti il numero di opzioni di configurazione.

Gli attributi per i motori OCR sono preconfigurati, quindi di solito è sufficiente specificare solo la lingua e, nel caso di ABBYY, il carattere.

 Se non si selezionano il carattere e la lingua corretti, il risultato dell'OCR sarà corrispondentemente mediocre.

Tesseract

 Quando configuri Tesseract, tieni presente che "Esegui solo LSTM". è selezionato come "OcrEngineMode". Inoltre, nelle impostazioni OCR per il flusso di lavoro, attivare la modalità "quando si esegue l'OCR per l'intera pagina: conservare l'oggetto OCR-Doc risultante per un uso successivo (OCR suddiviso in zone...)".

ABBYY

12.3 Eseguire l’OCR
aggiungi sezione

Esegui OCR per l’area contrassegnata: BCS-2 esegue il riconoscimento del testo solo per l’area selezionata sull’immagine.

Esegui OCR per la pagina corrente: BCS-2 esegue il riconoscimento del testo per l’intera pagina.

Pagina di lavoro corrente OCR e mostra segmenti OCR: BCS-2 esegue il riconoscimento del testo per l’intera pagina e quindi visualizza i segmenti (aree) riconosciuti dal motore OCR.

Modifica testo OCR della pagina corrente: richiama l’editor di testo per correggere o copiare il testo completo OCR.

 Viene corretto solo il testo che scorre, gli errori rimangono negli altri formati di output (ad es. PDF, Alto, IWCOCR-eL).

12.4 OCR suddiviso in zone
aggiungi sezione

Nel menu contestuale del visualizzatore è disponibile la funzione “OCR suddiviso in zone negli appunti” per il trasferimento diretto dei testi negli appunti.

Con questa tecnica è facile generare dati OCR e assegnare oggetti (nodi) o indici corrispondenti:

  • Nell’albero della struttura: fare clic con il tasto destro sul rispettivo nodo e selezionare “Inserisci testo dagli Appunti”.
  • Nell’indice dei lavori: trasferimento all’ultimo campo attivo.
  • Ovunque: seleziona l’elemento e usa CONTROL-V per inserire il contenuto testuale degli appunti.

12.5 Output vocale di testi OCR
aggiungi sezione

BCS-2 legge ad alta voce i testi OCR.

L’emissione vocale è possibile nei seguenti punti:

  • OCR suddiviso in zone negli appunti: premi CTRL durante il trascinamento, quindi BCS-2 leggerà il testo.
  • Editor OCR (finestra di dialogo dei risultati OCR): è presente un pulsante corrispondente che apre la finestra di dialogo di sintesi vocale.
  • Editor OCR (visualizzato): è presente un pulsante corrispondente che apre la finestra di dialogo da testo a voce.

Nella finestra di dialogo di sintesi vocale aperta è possibile cambiare la lingua, a condizione che sia installata nel rispettivo sistema Windows.

Inoltre, è possibile modificare anche il testo stesso, ovvero è possibile inserire come test qualsiasi testo tramite copia e incolla nella finestra di sintesi vocale aperta, per poter emettere testi in altre lingue tramite la funzione vocale.

12.6 Funzioni aggiuntive dell’OCR
aggiungi sezione

Le funzioni OCR aggiuntive sono disponibili solo dopo un’esecuzione OCR riuscita.

Evidenzia blocchi OCR: visualizza i blocchi riconosciuti dall’OCR sull’immagine.

Evidenzia paragrafi OCR: visualizza i paragrafi riconosciuti dall’OCR sull’immagine.

Evidenzia linee OCR: visualizza le righe di testo riconosciute dall’OCR sull’immagine.

Evidenzia parole OCR: visualizza le parole riconosciute dall’OCR.

Per tutte le funzioni OCR aggiuntive vale quanto segue: passando il mouse sulle aree contrassegnate BCS-2 visualizza le informazioni OCR rilevate.

Evidenzia caratteri OCR: evidenzia tutti i simboli e le lettere riconosciute dall’OCR.

Ricerca nei testi OCR: il prerequisito è che il testo OCR sia disponibile nel formato IWC-DOK. Questo è il caso dei testi OCR generati tramite la scorciatoia “O” o tramite il menu “Lavoro” > “Esegui operazioni sul lavoro”. È possibile aprire il modulo di ricerca facendo clic sulla scorciatoia “ctrl + F”.

BCS-2 contrassegna in giallo le voci corrispondenti trovate:

 ABBYY 10/12: Quando si creano PDF da OCR, assicurarsi che le funzioni "Sovrascrivi risoluzione immagine" e "Correggi inclinazione" siano disabilitate nella sezione "PrepareImageMode" delle impostazioni OCR. Ciò impedisce al motore OCR di ridimensionare le scansioni configurate tramite BCS-2. Si noti inoltre che i clic di frattura non sono visibili in BCS-2. Per verificare il numero rimanente di clic di frattura, aprire "ABBYYLicenceManager.exe" nella directory "C:\Program Files (x86)\ImageWareComponents\Abbyy_12_Engine\fr12\Bin64" o
"C:\Programmi (x86)\ImageWareComponents\Abbyy_10_Engine\fr12\Bin64". L'OCR per la lettera nera deve essere concesso in licenza da ABBYY a pagamento. I clic delle lettere nere vengono detratti separatamente dal bastoncino. Non appena il carattere gotico viene memorizzato come carattere negli attributi OCR, i clic sulle lettere nere vengono detratti per ogni esecuzione dell'OCR!

12.7 Elaborazione OCR con ABBYY di lavori grandi o numerosi
aggiungi sezione

Quando si utilizza ABBYY-OCR, l’esecuzione dell’OCR viene interrotta e BCS-2 viene terminato se si stanno elaborando molti lavori o lavori con molte immagini molto grandi contemporaneamente. La causa è la memoria non completamente liberata dal motore OCR.

Con lavori OCR più piccoli (fino a 100 pagine) e pochi al giorno, ciò non comporta restrizioni.

Ma stai modificando?

  1. grandi e numerosi lavori OCR,
  2. immagini di grandi dimensioni con lettere nere OCR,
  3. o OCR per originali di cattiva qualità/difficili (ad esempio carta ingiallita, stampe macchiate, macchie o scansioni di microfilm)

occasionalmente si verificheranno arresti anomali.

Per evitare ciò, consigliamo:

  1. Chiudere tutti gli altri programmi durante l’elaborazione di tali lavori.
  2. Elabora in batch solo un numero limitato di lavori OCR alla volta. Suddividi lavori OCR di grandi dimensioni in piccoli blocchi da 100 o 250 pagine per l’elaborazione batch.
  3. Assicurati che il tuo PC abbia “almeno” il doppio dello spazio di archiviazione disponibile per il lavoro più grande in modo che ABBYY possa scambiare il risultato provvisorio.
  4. Avvia BCS-2 o riavvialo regolarmente.

Se svolgi frequentemente operazioni lavorative ad uso intensivo di dati, contatta il nostro supporto. Saremo lieti di consigliarvi sull’OCR automatico durante la notte senza operatori.

In generale, ABBYY non consiglia una dimensione massima del lavoro. Tuttavia, il motore OCR è stato progettato per i client e le tipiche applicazioni client. Come regola generale, i lavori fino a 100 pagine vengono eseguiti senza problemi. ABBYY offre una soluzione server per lavori ad uso intensivo di dati.

12.8 Rimuovere le interruzioni OC
aggiungi sezione

Se l’OCR riconosce le interruzioni, di solito queste sono contenute anche nel testo OCR.

Tuttavia, ciò non si applica se il testo OCR viene successivamente recuperato dall’oggetto IW OcrDoc disponibile internamente:

In questo caso viene ricercata solo la lista delle parole e vengono restituite tutte le parole appartenenti ad un’area, separate da spazi.

Dipende dal modo in cui viene ottenuto il testo OCR specifico nell’applicazione.

Se viene recuperato tramite OCR diretto, cioè senza IW-OcrDoc (tramite un’esecuzione diretta di ABBYY), le interruzioni sono presenti.

Aggiustamenti riguardanti la versione 6.4.6:

  • Se un testo OCR da un’area viene assegnato a un indice utilizzando la finestra di dialogo delle proprietà dell’area, le interruzioni di riga vengono sostituite da spazi.

Una rimozione generale delle interruzioni non ha senso.

Cos’altro può essere fatto:

Se i risultati OCR vengono utilizzati negli script, è possibile apportare le sostituzioni appropriate nello script.

Esempio:

Se la variabile script “str” contiene una stringa di caratteri che contiene anche interruzioni, queste possono essere rimosse utilizzando str.replace(„\n“, “ „).

Invece dell’espressione str, utilizzare str.replace(“\n”, ” “).