Scansione è OCR

Buona sera

Probabilmente ognunu di noi faccia cù u compitu quandu avete bisognu di traduce un documentu di carta in forma elettronica. Ciò hè necessariu soprattuttu per quiddi chì studianu, travaglianu cù documentazione, traducenu testi cù u dizionari elettronichi, etc.

In questu articulu mi piacerebbe spartite una parte di e basi di stu prucessu. In generale, a scansione è u ricunniscenza di u testu piglia u tempu, cume a maggior parte di l'operazioni duverà esse fatta manualmente. Provaremu à capisce chì, cum e perchè.

Ùn tutti ne capiscenu immediatamente una cosa. Dopu a scansione (adatta tutti i lugghiuli di u scanner) avete avè foto di u formatu BMP, JPG, PNG, GIF (ci puderà esse altri formati). Dunque da sta foto ci vole à ottene u testu - sta prucedura hè chjamata ricunniscenza. In questu ordine, è sarà presentatu qui sotto.

U cuntenutu

  • 1. Ciò chì ci vole per scansione è ricunniscenza?
  • 2. Opzioni di scansione di testu
  • 3. Ricunniscenza di u testu di u documentu
    • 3.1 Testo
    • 3.2 Pictures
    • 3.3 Tavole
    • 3.4 Elementi inutili
  • 4. Ricunniscenza di i file PDF / DJVU
  • 5. A verifica di l'errore è di salvà i risultati di u travagliu

1. Ciò chì ci vole per scansione è ricunniscenza?

1) Scanner

Per traduce i documenti stampati in forma testuale, primu avete bisognu di un scanner è, per quessa, di prugrammi "nativi" è driver chì andavanu cù questu. Cun duvete pudete scansà u documentu è salvarli per un ulteriore prucessu.

Pudete aduprà altri analoghi, ma u lugiziale chì vene cù u scanner in u kit hè di solitu funziona più veloce è hà più opzioni.

A seconda di chì scansione avete - a velocità di u travagliu pò variare significativamente. Ci sò scanners chì ponu avà una foto da un lenzuu in 10 secondi, ci sò quelli chì ne avianu in 30 secondi. Se scansionu un libru nantu à 200-300 spazii - pensu chì ùn hè micca difficiule di calculà quante volte ci sarà una differenza di tempu?

2) Programma di ricunniscenza

In u nostru articulu, vi mostreraghju u travagliu in unu di i migliori programmi per scansione è ricunnosce assolutamente tutti i documenti - ABBYY FineReader. Finutu da u prugramma hè pagatu, allora immediatamente vi darà un ligame à un altru - a so analoga gratuita da u Cunei. Hè vera, ùn mi parenu micca di e paragonarii, à causa di u fattu chì FineReader vince in tutti i rispetti, a raccomandu à pruvà tuttu u listessu.

ABBYY FineReader 11

U situ ufficiale: //www.abbyy.ru/

Unu di i migliori programmi di u so tippu. Hè prughjettu per ricunnosce u testu in a foto. Custruutu assai opzioni è funzioni. Si pò analizza un gruppu di fonti, ancu supporti versioni manoscritti (eppuru, ùn l'aghju micca provatu personalmente, pensu chì sia bè diffici à ricunnosce a versione manuscritta, menu chì ùn avete micca una grafia calligrafica perfetta). Più infurmazioni nantu à u travagliu cun ella serà discusuta in seguitu. Semu dinò quì chì l'artìculu cuntene a travagliu in e versioni di u 11 prugramma.

Di regula, e varie versioni di ABBYY FineReader ùn sò micca assai diversi da altri. Pudete fà simplamente u stissu in l'altru. E diffusioni principali ponenu esse in a praticità, a rapidità di u prugramma è e so capacità. Per esempiu, versioni precedenti rifiuta di aprite un documentu PDF è DJVU ...

3) Documenti da scansionà

Iè, allora quì, aghju pigliatu à pigliatu i documenti in una colonna separata. Nantu à a maggior parte di i casi, scansiona ogni libri, testi, articuli, riviste, ecc sti libri è a letteratura chì dumanda. Cosa mi portu? Da a spirienza personale, possu dì chì tantu chì vulete scansà - pò esse già in rete! Quante volte aghju riservatu personalmente di u tempu quandu aghju trovu un libru o un altru chì sò già scansu in rete. Ho ghjustu avutu di copià u testu in u documentu è cuntinuà à stà.

Da questu sì simplificativu - prima di scansà qualcosa, verificate chì quellu chì ha già scansu è chì ùn avete micca bisognu di sprezza u vostru tempu.

2. Opzioni di scansione di testu

Quì, ùn parlanu micca di i vostri piloti per u scansore, i prugrammi chì andavanu cù questu, perchè tutti i mudelli di scanner sò diversi, u software hè ancu diffe in ogni locu è ghjustu è spiccà è ancu di più chiaramente cumu fà operazione ùn hè micca realistale.

Ma tutti i scanners anu a listessa regolazione chì ponu assai impurtante a velocità è a qualità di u vostru travagliu. Eccu quì, mi parleraghju quì. I listinu in ordine.

1) Qualità di scansione - DPI

Prima, stabilisci a qualità di scansione in opzioni micca inferiori a 300 DPI. Hè cunsigliatu di mette ancu un pocu più, cum'è pussibule. Più altru u indicatore DPI hè, più chjaru hè a vostra foto si rivisirà, è cusì, prucessu di più successu avvene più veloce. In più, maggiore hè a qualità di u scansione - u menu eranu più sbagliu chì dopu devi correggere.

A megliu opzione prevede, di solitu 300-400 DPI.

2) cromaticità

Stu parametru hà da influisce assai à u tempu di scansione (à propositu, DPI agisce ancu, ma sò tantu forti, è solu quandu l'utente mette i valori elevati).

Di solitu ci sò trè modi:

- Neri è bianchi (perfetti per testu pianu);

- grigiu (adatta per testu cù tavuli è quadri);

- culore (per riviste di culore, libri, in generale, documenti, induve u culore hè impurtante).

Di solitu, u tempu di scansione dipende da a scelta di u culore. Dopu tuttu, se avete un documentu grande, ancu i 5-10 secondi in più nantu à a pagina in tuttu si pò fà un tempu decentu ...

3) Foto

Pudete truvà u documentu micca solu cù a scansione, ma ancu cù una foto. In generale, in questo casu avete qualchi altri prublemi: distorsione di l'immagine, sfocatura. Hè cusì chì puderebbe richiede più editazione è l'elaborazione di u testu ricevutu. Per quessa, ùn vogliu cuncepisce aduprà telecamere per questu affari.

Hè impurtante fatti cunnosce chì micca tutti i tali documenti saranu ricunnisciuti, perchè scansione qualità pò esse estremamente bassu ...

3. Ricunniscenza di u testu di u documentu

Assumimimu chì e pagine apprezzate scansitevate avete ricevutu. Più spessu sò formati: tif, bmb, jpg, png. In generale, per ABBYY FineReader - questu ùn hè micca assai impurtante ...

Dopu avè l'apertura di a foto in ABBYY FineReader, u prugramma, di regula, in a macchina inizià a selezzione di aree è ricunnosce. Ma à qualchì volta ne faci male. Per quessa, cunsideremu a selezzione di e zone desiderate manualmente.

Hè impurtante! Ùn tutti ne capiscenu subitu chì dopu l'aprintu di un documentu in u prugramma, u documentu di sorgente hè affissatu à a sinistra in a finestra, in cui messu in evidenziu spazii diversi. Dopu cliccatu nantu à u pulsante "ricunniscenza", u prugramma in a finestra à a destra vi porterà u testu finitu. Dopu à a ricunniscenza, per cunnosce, si cunsultava u cuntrollu di u testu per l'errore in a stessa FineReader.

3.1 Testo

Questa area hè usata per evidenziare u testu. E imagini è e tabelle devanu esse esclusi da essa. Fonti rari è inusuali duveranu esse inseriti manualmente ...

Per sceglie una zona di testu, fate attenzione à u pannellu in cima di a FineReader. Ci hè un bottinu "T" (vede. A schermata sottu, u puntatore di a mouse hè appena nantu à stu bottinu). Fate un clic nantu à chjuca, allora in a foto in fondo à sceglite a zona perfettamente rettangulare in cui si trova u testu. À propositu, in certi casi si necessite di creà blocchi di testu di 2-3, è à volte 10-12 per pagina, perchè U formattu di testu pò esse differente è ùn selezziunate tutta a zona cun un rettangulu.

Hè impurtante fatti cunnosce chì l'immagini ùn vanu micca cusì in a zona di testu! In u futuru, vi sarà salvà assai tempu ...

3.2 Pictures

Utilisate per evidenziare e immagini è quelle zone chì sò difficiule à ricunnosci à causa di scarsa qualità o fontu inusuale.

In u screenshot sottu, u puntatore di u mouse hè situatu nantu à u bottinu usate per selezziunà a zona "foto". À propiu sì, assolutamente qualsiasi parte di a pagina pò esse selezionata in questu area, è FineReader hà allora inserisce u documentu in un documentu cum'è una maghjine normale. Hè solu "stupidu" hà da copià ...

Tipicamente, questu area hè usata per messu in evidenza e tabelle scansite scansite, per mettere in evidenza u testu è fonti non standard, e l'imagini stesse.

3.3 Tavole

A schermata sottu mostra u pulsante per evidenziare e tabelle. In generale, I personalmente u usanu molto raramente. U fattu hè chì avete abbastanza rutine trà (in realtà) ogni riga nantu à a tavula è mostra chì cosa è cumu u prugramma. Se a tavula hè chjucu è in una qualità assai bella, vi pruponi l'usu di a zona "foto" per questi scopi. Cusì salvà assai tempu, è poi pudete fà rapidamente una tavula in Word nantu à a basa di un ritrattu.

3.4 Elementi inutili

Hè impurtante notà. A volte ci sò elementi inutili nantu à a pagina chì ponenu difficiule di ricunnosce u testu, o ùn vi lasciate micca scegliete a zona desiderata. Pò rimette cù u "borragulu".

Per fà quessa, andate in u mudellu di edizione di immagini.

Selezziunu u guasere è selezziunate a zona indesiderata. Sarà cancellatu è in u so postu hè un fogliu biancu.

A propositu, vi pruponi l'usu da questa opzione per voi quandu più spessu pussibule. Pruvate tutte e zone di testu chì avete sceltu, induve ùn avete micca bisognu di un pezzu di testu, o ci sò i punti inutili, ughjettu, distorsioni - cancellà cù una gomma. Grazie à sta cunniscenza sarà più veloce!

4. Ricunniscenza di i file PDF / DJVU

In generale, questu furmatu ùn serà micca diversu da l'altri - so. Pudete travaglià cun essa cum'è cu imagini. L'unica cosa chì u prugramma ùn deve micca esse a versione antica, se ùn aprite micca i file PDF / DJVU - aggiornate a versione à 11.

Un pocu cunsigliu. Dopu avè l'apertura di u documentu in FineReader - cumincerà automaticamente à ricunnosce u documentu. Spessu in file PDF / DJVU, una zona specifica di a pagina ùn hè necessariu per tuttu u documentu! Per rimuovere una tale area in tutte e pagine, fate u seguitu:

1. Andà à a sezione di edizione di l'imagine.

2. Abilità a "rifugheria" opzione.

3. Selezziunate a zona chì avete bisognu in tutte e pagine.

4. Fate un clic per applicà à tutte e pagine è tagliate.

5. A verifica di l'errore è di salvà i risultati di u travagliu

Sembra chì ci pudessu esse altri prublemi, quandu tutte e zone sò state scelte, poi ricunnisciite - piglià è salvà ... ùn era micca lì!

Prima, ci vole à verificà u documentu!

Per esse attivatu, dopu a ricunniscenza, in a finestra à a destra, ci sarà un bottinu "verifica", vede a screenshot sottu. Dopu cliccatu, u prugramma FineReader vi mostrarà automaticamente quelle zone in cui u prugramma hà errori è ùn puderebbe micca determinà unu o un altru simbulu in modu affidabile. Avete unicamente à sceglie, o avete d'accordu cù u parè di u prugramma, o intrate u vostru carattere.

À propiu stettu, in a mità di i casi, circa, u prugramma ti offrirà una parola curretta finita - basta à aduprà u mouse à sceglie a opzione chì vulete.

Dopu, dopu a verificà chì bisognu à sceglie u formatu induve avete salvatu u risultatu di u vostru travagliu.

Quì FineReader dà una volta à u più pussibule: pudete semplicemente truvà l'infurmazioni in Word unu-à-unu, è pudete salvarli in una di decine di formati. Ma vogliu mette in evidenziu un altru aspettu di più. Cusì sì u formatu sceglite, hè più impurtante sceglie u tipu di copia! Considerà e opzioni più interessanti ...

Copia esatta

Tutte e zone chì avete sceltu in a pagina in u documentu ricunnisciutu, cascaranu esattamente in u documentu sorgente. Una opzione assai pratica quandu hè impurtante per voi di ùn perdite micca formattazione di testu. À propositu, i fonti saranu ancu assai simuli à l'originali. Aghju chjappu sta opzione per trasmette u documentu à Word, per cuntinuà ulteriormente u travagliu là.

Copia editabile

Questu opzione hè bonu perchè avete una versione già formattata di u testu. Hè Indentazione di u "chilometru", chì pò esse statu in u documentu originale - ùn puderete micca soddisfà. Opzione utile quandu vi permetterà di edità significativamente l'infurmazioni.

Hè vera, ùn avete micca sceglie se hè impurtante per voi di conservà u stile di u design, fonti, indentazioni. A volte, se a ricunniscenza ùn hè micca bè successu - u vostru documentu pò "curvà" a causa di a formattazione cambiata. In questu casu, si propone di sceglie una copia precisa.

Textu pianu

Una opzione per quelli chì necessitanu solu u testu da a pagina senza tuttu u restu. Adatta per documenti senza foto è tabelle.

Questu conclude l'articolo di scansione di u documentu è di ricunniscenza. Speru chì, cù l'aiutu di sti cunsiglii semplici, puderete risolve i vostri prublemi ...

Buona fortuna!