I-scan ug OCR

Maayo nga hapon

Tingali ang matag usa kanato nag-atubang sa buluhaton kung gikinahanglan nga maghubad sa usa ka papel nga dokumento ngadto sa electronic form. Kinahanglanon kini alang niadtong nagtuon, nagtrabaho sa dokumentasyon, nag-translate sa mga teksto gamit ang electronic dictionaries, ug uban pa.

Niini nga artikulo gusto nakong ipaambit ang pipila sa mga sukaranan sa niini nga proseso. Sa kinatibuk-an, ang pag-scan ug pag-ila sa teksto mao ang gikinahanglan sa panahon, tungod kay kadaghanan sa mga operasyon kinahanglan nga buhaton sa kamut. Atong sulayan nga mahibal-an unsa, unsaon ug kung ngano.

Dili tanan makasabot dayon sa usa ka butang. Human sa pag-scan (pagsubay sa tanan nga mga panid sa scanner) ikaw adunay mga hulagway sa format nga BMP, JPG, PNG, GIF (adunay uban pang mga format). Busa gikan niini nga hulagway kinahanglan nimo nga makuha ang teksto - kining pamaagi gitawag nga pagkilala. Niini nga han-ay, ug ipresentar sa ubos.

Ang sulod

  • 1. Unsa ang gikinahanglan alang sa pag-scan ug pagkilala?
  • 2. Mga kapilian sa pag-scan sa teksto
  • 3. Pag-ila sa teksto sa dokumento
    • 3.1 Teksto
    • 3.2 Mga hulagway
    • 3.3 Tables
    • 3.4 Wala'y Kinahanglan nga mga Butang
  • 4. Pag-ila sa mga file sa PDF / DJVU
  • 5. Pag-usisa sa kasayuran ug pagtipig sa resulta sa trabaho

1. Unsa ang gikinahanglan alang sa pag-scan ug pagkilala?

1) Scanner

Aron sa paghubad sa mga naimprinta nga mga dokumento ngadto sa porma sa teksto, kinahanglan una nimo ang usa ka scanner ug, sumala niana, mga "lumad" nga mga programa ug mga drayber nga nag-uban niini. Uban kanila mahimo nimo nga i-scan ang dokumento ug i-save kini alang sa dugang pagproseso.

Mahimo nimong gamiton ang lain pang mga analogue, apan ang software nga nag-abut sa scanner sa kit kasagarang molihok nga mas paspas ug dunay daghang kapilian.

Depende sa unsang matang sa scanner nga imong nabatonan - ang gikusgon sa trabaho mahimong nagkalainlain. Adunay mga scanners nga makakuha og litrato gikan sa usa ka sheet sa 10 segundos, adunay mga butang nga makakuha niini sulod sa 30 segundos. Kon imong i-scan ang usa ka libro sa 200-300 sheets - sa akong hunahuna dili lisud ang pagkalkulo kung pila ka beses adunay usa ka kalainan sa panahon?

2) Programa alang sa pag-ila

Sa among artikulo, ipakita ko kanimo ang trabaho sa usa sa labing maayo nga mga programa alang sa pag-scan ug pag-ila sa bisan unsa nga mga dokumento - ABBYY FineReader. Sukad ang programa gibayad, unya dayon ako mohatag ug usa ka sumpay ngadto sa lain - ang libre nga analogue sa Cunei Form. Tinuod, dili nako itandi kini, tungod kay ang kadaugan sa FineReader sa tanan nga bahin, girekomendar ko nga susihon ang tanan.

ABBYY FineReader 11

Opisyal nga site: //www.abbyy.ru/

Usa sa labing maayo nga mga programa sa iyang matang. Gidisenyo kini aron makaila sa teksto sa hulagway. Nagtukod sa daghang mga kapilian ug mga bahin. Mahimo kini mag-parse sa usa ka hugpong nga mga font, bisan pa nagsuporta sa mga sinulat sa kamot nga mga bersyon (bisan tuod wala ako personal nga nagsulay niini, sa akong hunahuna maayo nga dili kaayo makaila sa sinulat nga kamot nga bersyon, gawas kon ikaw adunay hingpit nga pagsulat sa pagsulat sa kamot). Ang dugang kasayuran mahitungod sa pagtrabaho uban kaniya pagahisgutan sa ubos. Namatikdan usab dinhi nga ang artikulo maglakip sa buhat sa programa nga 11 nga mga bersyon.

Ingon sa usa ka lagda, ang nagkalainlaing bersyon sa ABBYY FineReader dili lahi sa usag usa. Mahimo nimo kini sa ingon. Ang mga nag-unang panagkalahi mahimong anaa sa kasayon, kadali sa programa ug sa mga kapabilidad niini. Pananglitan, ang mga naunang mga bersyon nagdumili sa pag-abli sa usa ka PDF nga dokumento ug DJVU ...

3) Mga dokumento nga i-scan

Oo, mao nga dinhi, nakahukom ko nga kuhaon ang mga dokumento sa usa ka lain nga kolum. Sa kadaghanan nga mga kaso, i-scan ang bisan unsang mga libro, mga pamantalaan, mga artikulo, magasin, ug uban pa kadtong mga libro ug mga basahon nga gipangayo. Unsa ang akong gipangulohan? Gikan sa personal nga kasinatian, makasulti ako nga daghan nga gusto nimo nga ma-scan - tingali anaa na sa pukot! Pila ka mga higayon nga ako personal nga nagtigum sa panahon sa dihang nakakita ako og usa ka libro o lain nga na-scan na sa network. Kinahanglan lang nga kopyahon ang teksto sa dokumento ug ipadayon kini.

Gikan niining yano nga tambag - sa dili ka pa maka-scan sa usa ka butang, susiha kung adunay usa nga nakasusi na niini ug dili nimo kinahanglan nga usikan ang imong panahon.

2. Mga kapilian sa pag-scan sa teksto

Dinhi, dili ko maghisgot bahin sa imong mga drayber alang sa scanner, ang mga programa nga nagsunod niini, tungod kay ang tanan nga mga modelo sa scanner managlahi, ang software lain usab bisan asa ug ang pagtag-an ug mas tin-aw nga nagpakita kung unsaon paghimo ang operasyon dili realistiko.

Apan ang tanan nga scanners adunay sama nga mga kahimanan nga makaapekto sa dako nga kadali ug kalidad sa imong trabaho. Dinhi bahin kanila maghisgot lang ako dinhi. Ilista ko.

1) Pag-scan sa kalidad - DPI

Una, itakda ang kalidad sa pag-scan sa mga kapilian nga dili moubos sa 300 DPI. Maayo nga ibutang bisan gamay pa, kung mahimo. Kon mas taas ang indicator sa DPI, mas klaro ang imong hulagway, ug busa, ang dugang pagproseso mas paspas. Dugang pa, mas taas ang kalidad sa pag-scan - ang dili kaayo kasaypanan nga kinahanglan nimo nga husto.

Ang labing maayo nga kapilian naghatag, kasagaran 300-400 DPI.

2) chromaticity

Ang kini nga parameter dako nga makaapekto sa oras sa pag-scan (sa paagi, ang DPI makaapekto usab, apan kini lig-on kaayo, ug kung ang tiggamitan lamang ang nagtakda sa taas nga mga bili).

Kasagaran adunay tulo ka mga paagi:

- Itom ug puti (hingpit alang sa yano nga teksto);

- abohon (angay alang sa teksto nga adunay mga lamesa ug hulagway);

- kolor (alang sa mga magasin nga kolor, libro, sa kinatibuk-an, mga dokumento, diin ang kolor importante).

Kasagaran ang oras sa pag-scan depende sa pagpili sa kolor. Human sa tanan, kon ikaw adunay usa ka dako nga dokumento, bisan ang dugang nga 5-10 segundos sa panid ingon sa usa ka bug-os nga moresulta sa usa ka desente nga panahon ...

3) Mga litrato

Mahimo nimo makuha ang dokumento dili lamang pinaagi sa pag-scan, kondili pinaagi usab sa paghulagway niini. Ingon sa usa ka lagda, sa niini nga kaso ikaw adunay uban nga mga problema: ang pagtuis sa imahe, sa pagkapakyas. Tungod niini, kini nagkinahanglan og mas dugay nga pag-usab ug pagproseso sa nadawat nga teksto. Sa personal, wala ko girekomendar nga gamiton ang mga kamera alang niini nga negosyo.

Mahinungdanon nga hinumdoman nga dili matag usa nga dokumento ang ilhon, tungod kay scan nga kalidad nga mahimo nga siya hilabihan nga ubos ...

3. Pag-ila sa teksto sa dokumento

Kami nagtuo nga ang gimahal nga mga panid nga gitan-aw nga imong nadawat. Kasagaran sila mga format: tif, bmb, jpg, png. Sa kinatibuk-an, alang sa ABBYY FineReader - kini dili kaayo importante ...

Human sa pag-abli sa litrato sa ABBYY FineReader, ang programa, ingon nga usa ka lagda, sa makina magsugod sa pagpili sa mga lugar ug makaila niini. Apan usahay sayup niya kini. Tungod niini ginakonsiderar nato ang pagpili sa mga gitinguha nga mga lugar sa kamut.

Importante kini! Dili tanan nakasabot dayon nga human sa pag-abli sa usa ka dokumento sa programa, ang dokumento sa tinubdan makita sa wala sa bintana, diin imong gipakita ang lainlaing mga lugar. Human sa pag-klik sa "pagkilala" nga buton, ang programa sa bintana sa tuo magdala kanimo sa natapos nga teksto. Human sa pag-ila, sa ingon, maayo nga susihon ang teksto alang sa mga sayop sa sama nga FineReader.

3.1 Teksto

Kini nga dapit gigamit sa pagpasiugda sa teksto. Ang mga hulagway ug mga lamesa kinahanglan dili iapil gikan niini. Ang mga bihag ug talagsaon nga mga font kinahanglan nga ipasulod sa kamut ...

Aron makapili usa ka lugar sa teksto, hatagi'g pagtagad ang panel sa ibabaw sa FineReader. Adunay usa ka buton nga "T" (tan-awa. Ang screenshot sa ubos, ang mouse pointer anaa lamang sa niini nga butones). I-klik kini, dayon sa hulagway sa ubos pilia ang husto nga rectangular area diin nahimutang ang teksto. Pinaagi sa dalan, sa pipila ka mga kaso nga imong kinahanglan sa paghimo text blocks nga 2-3, ug usahay 10-12 matag pahina, tungod kay Ang pag-format sa text mahimong lahi ug dili pagpili sa tibuok nga lugar nga adunay usa ka rectangle.

Mahinungdanon nga hinumdoman nga ang mga hulagway dili angay mahulog sa teksto nga dapit! Sa umaabot, kini makaluwas kanimo sa daghang panahon ...

3.2 Mga hulagway

Gigamit sa pag-highlight sa mga hulagway ug mga dapit nga lisud mailhan tungod sa dili maayo nga kalidad o dili kasagaran nga font.

Sa screenshot sa ubos, ang mouse pointer nahimutang sa button nga gigamit aron mapili ang "litrato" nga lugar. Pinaagi sa dalan, hingpit nga bisan unsang bahin sa panid ang mapili niining dapita, ug ang FineReader unya ipasulod kini sa dokumento isip usa ka normal nga hulagway. Ie ang "hungog" nga kopya ...

Kasagaran, kining dapita gigamit sa pag-highlight sa mga dili maayo nga mga lamesa nga gi-scan, aron ipakita ang mga dili standard nga teksto ug font, ang mga larawan mismo.

3.3 Tables

Ang screenshot sa ubos nagpakita sa buton aron i-highlight ang mga lamesa. Sa kinatibuk-an, akong gigamit kini sa talagsa ra. Ang tinuod mao nga kinahanglan nga mag-drawing kanunay (tinuod) ang matag linya diha sa lamesa ug ipakita kung unsa ug unsa ang programa. Kung ang lamesa gamay ug dili kaayo maayo nga kalidad, girekomenda ko ang paggamit sa "litrato" nga lugar alang niining mga katuyoan. Sa ingon makaluwas og daghang panahon, ug dayon mahimo nimo dayon ang usa ka lamesa sa Pulong base sa usa ka hulagway.

3.4 Wala'y Kinahanglan nga mga Butang

Importante nga matikdan. Usahay adunay wala kinahanglana nga mga elemento sa panid nga nagpalisud sa pag-ila sa teksto, o ayaw tugoti nga pilion nimo ang gusto nga dapit. Mahimo kini nga makuha gamit ang "eraser" sa tanan.

Aron mahimo kini, adto sa mode sa pag-edit sa imahe.

Pilia ang tool sa eraser ug pilia ang dili gusto nga lugar. Kini mapapas ug sa dapit niini mahimong puti nga papel.

Pinaagi sa dalan, girekomendar nako ang paggamit niini nga kapilian kanimo kutob sa mahimo. Sulayi ang tanan nga mga teksto nga mga dapit nga imong napili, diin wala ka magkinahanglan og usa ka piraso nga teksto, o adunay bisan unsa nga wala kinahanglana nga mga punto, blurriness, pagtuis - pag-delete pinaagi sa usa ka pagpapas. Salamat sa pag-ila nga mas paspas!

4. Pag-ila sa mga file sa PDF / DJVU

Sa kinatibuk-an, kini nga format sa pag-ila dili magkalahi gikan sa uban - i.e. Mahimo nimo kini mahimo sama sa mga hulagway. Ang bugtong nga butang nga dili angay nga daan nga programa, kon dili mo bukas ang mga PDF / DJVU files - i-update ang bersyon sa 11.

Usa ka gamay nga tambag. Human sa pag-abli sa dokumento sa FineReader - awtomatiko kini nga makaila sa dokumento. Kasagaran sa mga file sa PDF / DJVU, ang usa ka piho nga bahin sa panid wala gikinahanglan sa tibuok nga dokumento! Aron makuha ang ingon nga lugar sa tanan nga mga pahina, buhata ang mosunod:

1. Lakaw ngadto sa seksyon sa pag-edit sa hulagway.

2. Pag-andam sa "trimming" nga kapilian.

3. Pagpili sa lugar nga imong gikinahanglan sa tanan nga mga pahina.

4. I-klik ang magamit sa tanan nga mga pahina ug putlon.

5. Pag-usisa sa kasayuran ug pagtipig sa resulta sa trabaho

Kini daw adunay mga suliran sa dihang ang tanang mga dapit gipili, dayon giila - kuhaa kini ug tipigi kini ... Wala didto!

Una, kinahanglan natong susihon ang dokumento!

Aron mahimo kini, human sa pagkilala, sa bintana sa tuo, adunay usa ka "check" button, tan-awa ang screenshot sa ubos. Human sa pag-klik niini, ang programa sa FineReader awtomatiko nga ipakita kanimo kadtong mga dapit diin ang programa adunay mga sayup ug dili kini masaligan nga matino ang usa o lain nga simbolo. Kinahanglan ka lamang nga mopili, o uyon ka sa opinyon sa programa, o mosulod sa imong kinaiya.

Pinaagi sa dalan, sa katunga sa mga kaso, gibana-bana, ang programa maghatag kanimo og usa ka andam nga hustong pulong - ikaw kinahanglan nga gamiton ang mouse sa pagpili sa imong gusto.

Ikaduha, human nga susihon kinahanglan nimo nga pilion ang format diin imong giluwas ang resulta sa imong trabaho.

Dinhi ang FineReader naghatag kanimo sa usa ka turno sa kinatibuk-an: mahimo nimo ibalhin ang kasayuran sa Pulong sa usa-usa, ug mahimo nimo kini i-save sa usa sa daghang mga format. Apan gusto nakong ipasiugda ang laing hinungdan nga aspeto. Bisan unsa nga format nga imong pilion, mas importante ang pagpili sa tipo sa kopya! Hunahunaa ang labing makapaikag nga mga kapilian ...

Eksaktong kopya

Ang tanan nga mga lugar nga imong napili sa panid sa giila nga dokumento ang katugbang gayud sa source document. Usa ka sayon ​​nga kapilian kon kini importante alang kanimo nga dili mawad-an og format sa text. Pinaagi sa dalan, ang mga font usab susama sa orihinal. Ginarekomendar ko kini nga kapilian sa pagbalhin sa dokumento ngadto sa Pulong, aron magpadayon ang dugang nga pagtrabaho didto.

Ma-edit nga kopya

Maayo kini nga kapilian tungod kay nakuha mo na ang na-format nga bersyon sa teksto. Ie Ang pagsulod sa "kilometro", nga tingali anaa sa orihinal nga dokumento - dili ka magkita. Mapuslanon nga kapilian kon mahibal-an nimo pag-ayo ang kasayuran.

Tinuod, kinahanglan nga dili nimo pilion kon importante alang kanimo ang pagpreserbar sa estilo sa disenyo, mga font, mga indent. Usahay, kung ang pag-ila dili kaayo malampuson - ang imong dokumento mahimong "hilig" tungod sa nausab nga formatting. Sa kini nga kaso, mas maayo nga mopili sa eksaktong kopya.

Plano nga teksto

Usa ka kapilian alang niadtong kinsa nagkinahanglan lamang sa teksto gikan sa panid nga wala ang tanan. Angayan sa mga dokumento nga walay mga hulagway ug mga lamesa.

Kini nagtapos sa dokumento sa pag-scan ug pagkilala sa artikulo. Nanghinaut ko nga uban sa tabang niining mga yano nga tip nga mahimo nimong sulbaron ang imong mga problema ...

Maayo nga swerte!