Scanning na OCR

Alus poé.

Meureun unggal urang geus Nyanghareupan masalah lamun Anjeun peryogi ngarobah dokumén kertas kana formulir éléktronik. Utamana éta mindeng perlu ngalakukeun pikeun maranéhanana anu diajar gawekeun dokuméntasi, narjamahkeun naskah ngagunakeun kamus éléktronik, jeung sajabana

Dina artikel ieu, Abdi hoyong bagikeun sababaraha dasar tina prosés. Sacara umum, scanning na OCR - cukup waktu-consuming, sakumaha lolobana operasi kudu dipigawé sacara manual. Urang coba ngartos léngkah nu kumaha jeung kunaon.

Henteu sadayana sakaligus ngartos hiji hal. Sanggeus scanning (prigonyat sadayana cadar dina scanner teh) anjeun bakal boga format gambar BMP, JPG, PNG, GIF (mungkin jadi format sejen). Ku kituna ti gambar ka meunang téks - prosedur kieu disebutna pangakuan. Dina urutan anu, tur bakal diatur handap.

eusi

  • 1. Naon nu peryogi pikeun nyeken sarta pangakuan?
  • 2. Scan Setélan téks
  • 3. dokumen OCR
    • 3.1 téks
    • 3.2 Gambar
    • 3.3 Tables
    • 3.4 elemen perlu
  • 4. Pangakuan PDF file / DJVU
  • 5. Kasalahan Mariksa tur nyimpen hasil

1. Naon nu peryogi pikeun nyeken sarta pangakuan?

1) scanner

Pikeun ngarobah dokumén dicitak nepi formulir téks, Anjeun mimitina kudu alat panyeken na, sasuai, "asli" software jeung drivers anu sumping kalawan eta. Kalayan bantuan aranjeunna bisa nyeken dokumen sarta simpen eta pikeun ngolah salajengna.

Anjeun tiasa make analogies sejenna, tapi software nu sumping jeung scanner ka ngalengkepan, ilaharna leuwih gancang sarta ngabogaan leuwih fitur.

Gumantung kana naha anjeun boga scanner a - speed bisa rupa-rupa nyata. Aya scanner nu bisa meunang gambar sareng lambar keur 10 detik., Aya nu baris meunang 30 detik. Mun anjeun scanning buku 200-300 cadar - Ku teu sangka hese ngitung sabaraha waktos bakal beda waktu?

2) Program Pangakuan

Dina artikel ieu kuring baris némbongkeun Anjeun karya dina salah sahiji program pangalusna pikeun scanning sarta pangakuan pancen naon dokumen - ABBYY FineReader. margi program fee basis, teras langsung masihan tumbu, sarta séjén - analog bébas na Cunei Bentuk. Najan kitu, abdi moal bakal dibandingkeun, sabab FineReader ngéléhkeun dina sakabéh ngahormat, mangka tetep dianjurkeun pikeun nyobaan eta up.

ABBYY FineReader 11

Situs web resmi: //www.abbyy.ru/

Salah sahiji program pangalusna nanaon na. Hal ieu dirarancang pikeun mikawanoh tulisan dina gambar. Loba diwangun-di fitur sarta fungsi. Tiasa parse kebat tina fon, éta ngarojong malah versi tulisan leungeun (sanajan henteu pribadi diusahakeun eta, pikir ogé masih aya kacangcayaan ngakuan versi tulisan leungeun, iwal anjeun teu boga kaligrafi sampurna). Kanggo inpo nu leuwih lengkep tentang gawé bareng deui bakal dibahas dihandap. Di dieu urang dicatet yén artikel nu bakal bébéja ngeunaan program versi 11.

Ilaharna, versi béda tina ABBYY FineReader henteu pisan béda ti unggal lianna. Anjeun tiasa sacara gampil lakonan hal nu sarua di sejen. Bedana utama nu di genah nu, laju program sarta kemungkinan na. Contona, versi samemehna ngeunaan nampik buka PDF jeung DJVU ...

3) pikeun dokumén scanning

Sumuhun, di dieu na jadi kuring mutuskeun nyieun dokumen sahiji kolom individu. Dina kalolobaan kasus, nyeken buku naon baé, tulak, artikel, jurnal, jeung saterusna. Hartina, éta buku jeung literatur nu aya dina paménta. Abdi naon? Ti pangalaman pribadi abdi tiasa disebutkeun yen loba nu hayang dicandak - geus mungkin ngabogaan dina jaringan! Sabaraha kali kuring pribadi ngaheéat waktu nalika manggihan hiji buku husus anu geus discan dina jaringan. Kuring ngan kapaksa nyalin téks dina dokumen jeung neruskeun gawé bareng eta.

Ti sapotong basajan ieu nasihat - saméméh hal nyeken cek mungkin gaduh batur nyeken jeung anjeun teu kedah runtah waktos Anjeun.

2. Scan Setélan téks

Di dieu kuring moal ngobrol ngeunaan drivers pikeun scanner anjeun, nu program nu éta ku anjeunna, pikeun sakabéh modél béda tina scanner, software, teuing, sadaya béda jeung guessing jeung leuwih jelas nunjukkeun cara ngalakukeun operasi - nyaeta unrealistic.

Tapi sadayana scanner boga konfigurasi sarua, nu greatly mangaruhan laju sarta kualitas gawé anjeun. Éta ngeunaan éta kénéh ngan ngobrol di dieu. Kuring baris daptar dina urutan.

1) Kualitas Scan - DPI

Firstly, kualitas scan diatur dina pilihan tina teu leuwih handap 300 DPI. Éta desirable nempatkeun hiji saeutik deui, lamun kamungkinan. Nu leuwih luhur ti DPI - nu jelas gambar anjeun meunang, ogé, sahingga, pamrosésan salajengna bakal gancang. Sajaba ti éta, nu leuwih kualitas scan éta - nu pangsaeutikna kasalahan anjeun engké kudu jadi dilereskeun.

variasi optimal nyadiakeun, umumna, 300-400 DPI.

2) Chromaticity

parameter ieu greatly mangaruhan waktos scan (ku jalan, DPI ieu ogé dipangaruhan, tapi maranéhanana jadi loba, sarta ngan lamun pamaké nyimpen ajén pangluhurna).

Ilaharna, aya tilu modus:

- hideung bodas (sampurna pikeun téks polos);

- Gray (cocog pikeun téks kalawan tabel sarta gambar);

- Warna (pikeun majalah warna, buku, sacara umum, dina dokumén dimana warna penting).

Ilaharna, pilihan warna gumantung kana scan éta. Barina ogé, lamun boga dokumen ageung, komo tambahan 5-10 detik dina sakabeh kaca bakal ngahurungkeun kana bari cukup ...

3) Photos

dokumen nu bisa meunang teu ukur scanning, tapi ogé photograph eta. Sakumaha aturan, dina hal ieu, anjeun bakal boga sababaraha masalah sejenna: di distorsi gambar, blur. Kusabab ieu, anjeun bisa kudu ngedit deui salajengna jeung ngolah téks anu dihasilkeun. Pribadi, abdi nyarankeun teu maké kaméra pikeun pakasaban.

Kadé dicatet yén teu sadaya jelema bakal ngakuan dokumen kusabab kualitas Scan eta tiasa pisan low ...

3. dokumen OCR

Urang nganggap yén kaca discan nu cherished anjeun ngagaduhan. Paling sering sipatna format: tif, bmb, jpg, PNG. Sacara umum, keur ABBYY FineReader - teu pohara penting ...

Sanggeus muka dina gambar FineReader ABBYY, program biasana dimimitian dina mesin pikeun milih wewengkon jeung ngakuan aranjeunna. Tapi kadang teu ngalakukeun hal eta bener. Pikeun ieu naon anggap we alokasi wewengkon perlu sacara manual.

Penting! Henteu sadayana sakaligus ngarti yén sanggeus muka dokumen dina program dina jandéla kénca mintonkeun dokumen aslina nu Anjeun tur nyorot wewengkon béda. Saatos ngaklik dina "pangakuan" program dina jandela katuhu bakal némbongkeun Anjeun téks rengse. Saatos pangakuan, ku jalan eta, sasaena mariksa téks pikeun kasalahan dina FineReader sarua.

3.1 téks

aréa ieu dipaké pikeun nyorot téks. Gambar na tabel kudu kaasup ti eta. fon langka tur luar biasa kudu jadi diasupkeun sacara manual ...

Nyorot widang teks, nengetan bar nu aya di luhureun éta FineReader. Aya nu "T" tombol (tingali. Handap screenshot, beurit pointer persis kana tombol). Klik dinya, lajeng gambar dihandap allocate aréa rectangular, nu téks ieu lokasina akurat. Ku jalan kitu, dina sababaraha kasus perlu nyieun blok tulisan 2-3, sakapeung 10-12 dina kaca kusabab nu pormat téks bisa jadi béda, sarta salah sahiji sagi opat sakabéh aréa teu disorot.

Kadé dicatet yén wewengkon téks teu kudu kakeunaan gambar! Dina mangsa nu bakal datang, bakal nyalametkeun anjeun loba waktu ...

3.2 Gambar

Dipaké pikeun nyorot Gambar jeung wewengkon anu hésé ngakuan kusabab kualitas kirang atawa fon mahiwal.

Dina screenshot sahandapeun pointer mouse nyaeta on tombol digunakeun pikeun milih wewengkon "gambar". Saliwatan, di wewengkon ieu bisa dicirikeun pancen naon bagian tina kaca, tur FineReader teras selapkeun kana dokumen salaku gambar normal. ie saukur "bodo" salinan ...

Biasana, ieu wewengkon ngandung hiji tabel kirang discan nyorot téks na font non-baku, hiji timer gambar.

3.3 Tables

screenshot di handap illustrates tombol pikeun tabel isolasi. Sabenerna, pribadi kuring make eta jarang. Kanyataan nu boga cukup rutin tarik (ampir) unggal garis dina méja tur némbongkeun kumaha jeung sabaraha program. Mun tabél téh leutik teu kualitas hadé pisan, abdi nyarankeun keur kaperluan ieu ngagunakeun daerah "gambar". Kituna ngahemat loba waktu, lajeng tabél bisa nyieun dina Word gancang ngaliwatan gambar.

3.4 elemen perlu

Kadé catetan. Kadang-kadang aya elemen perlu dina kaca, anu nyegah pikeun mikawanoh tulisan, atanapi teu masihan anjeun milih wewengkon éta. Éta bisa nganggo "pamupus" dihapus kabeh.

Jang ngalampahkeun lebet ieu ka modeu ngedit gambar.

Milih alat "pamupus" tur pilih wewengkon nu teu dihoyongkeun. Manehna erased na di tempatna bakal lambar bodas kertas.

Ku jalan kitu, kuring nyarankeun Anjeun nganggo pilihan ieu sakumaha mindeng jadi mungkin. Coba sakabéh widang teks nu Anjeun dicirikeun dimana anjeun teu butuh salembar téks, atawa nampilkeun naon titik perlu, blur, distorsi - ngahapus pamupus. Hatur nuhun kana pangakuan ieu bakal gancang!

4. Pangakuan PDF file / DJVU

Sacara umum, format deteksi ieu moal jadi béda ti nanaon sejenna sésana - nyaeta, digawekeun ku anjeunna ogé mungkin kalawan gambar. Hiji-hijina hal program nu teu kedah Vérsi teuing heubeul, lamun PDF file / DJVU anjeun teu muka - ningkatkeun ka 11.

Hiji kecap tina naséhat. Sanggeus muka dokumen dina FineReader - hal otomatis bakal mimiti mikawanoh dokumen teh. Mindeng, file PDF / DJVU sahiji wewengkon nu tangtu kaca teu kedah sakabéh dokumen! Pikeun miceun wewengkon dina sagala kaca, ngalakukeun di handap:

1. Pindah ka na rohangan ngédit gambar.

2. Hurungkeun pilihan "pruning".

3. Pilih wewengkon rék on sadaya kaca.

4. Klik dilarapkeun ka sadaya kaca, lajeng motong.

5. Kasalahan Mariksa tur nyimpen hasil

Ieu bakal sigana, naon sejenna tiasa masalah lamun sakabeh wewengkon geus disadiakeun, teras kauninga - nyandak da Simpen ... Teu aya!

Firstly, urang peryogi verifikasi dokumen teh!

Pikeun ngaktipkeun dinya, sanggeus recognizing, dina jandéla on katuhu bakal "pariksa" tombol. Tempo screenshot nu di handap. Saatos mencét program FineReader otomatis baris némbongkeun Anjeun wewengkon mana program nu boga kasalahan naon jeung eta teu bisa reliably ngaidentipikasi hiji simbol nu tangtu. Anjeun ngan bakal perlu milih, boh anjeun satuju sareng pendapat program, atanapi asupkeun karakter anjeun sorangan.

Ku jalan kitu, satengah waktu, ngeunaan program nu bakal siap nawiskeun anjeun kecap katuhu - anjeun bakal tolko mouse pikeun milih pilihan nu dipikahoyong.

Bréh, sanggeus mariksa anjeun kedah milih éta format nu Anjeun simpen hasil karya maranéhanana.

Di dieu, FineReader méré Anjeun péngkolan di speed pinuh: anjeun bisa kalayan gampang bisa mindahkeun informasi dina Word, salah hiji, atawa anjeun bisa nyimpen deui dina salah sahiji puluhan format. Tapi Abdi hoyong nyorot aspék penting séjén. format whichever dipilih, hal anu penting pikeun milih jinis salinan! Mertimbangkeun pilihan paling narik ...

replica

Sakabeh wewengkon nu pulih dina kaca dina dokumen dipikawanoh bakal cocog persis di persis dokumen aslina. pilihan pohara merenah mun anjeun teu kudu leungit di pormat téks. Ku jalan kitu, éta fon sarua bakal pisan sarupa aslina. Kuring nyarankeun versi ieu lamun ngalirkeun hiji dokumen dina Word, jadi éta geus aya neruskeun gawé salajengna.

diédit salinan

pilihan ieu téh alus nu geus narima versi formatna téks. ie padding kalawan "kilométer", nu mungkin geus di dokumen aslina - anjeun moal neangan. Hiji pilihan mangpaat lamun anjeun ngedit inpo nyata.

Sanajan kitu, teu perlu milih lamun perlu pikeun ngawétkeun gaya desain, fon, margins. Sakapeung, lamun pangakuan henteu buka kacida alusna - dokumen Anjeun tiasa "skew" alatan dina format robah. Dina hal ieu, éta sasaena milih hiji salinan pasti.

téks polos

Pilihan pikeun maranéhanana anu perlu kaca téks polos jeung euweuh sésana. Cocog jeung dokumén tanpa gambar na tabel.

Dina artikel ieu dina scanning na OCR leuwih. Kuring miharep éta kalayan ieu tips basajan anjeun bakal bisa ngajawab masalah maranéhna ...

Good tuah!