Autor |
Sõnum |
Sander
Vana Pingviin
Liitunud: 14.10.2007
Postitused: 615
|
|
Estobunto teemas tuli jutuks OCR. See tuletas mulle meelde, et kasutan skännimiseks ja tekstituvastuseks ikka veel Windowsi. Skännimisega ei ole midagi teha, aastaid tagasi ostetud CanoScanD1250U2 ei ole Linuxis toetatud ja sellel ma rohkem ei peatuks.
Panin foorumi otsingusse OCR ja sain 3 tulemust, vaatasin need teemad läbi ja leidsin, et asjast ei ole juttu olnud.
Nüüd pika sissejuhatuse peale küsimus.
Kas Linuxile on olemas ilma rahata saadavat OCR programmi, mis eesti keelt tunneb?
|
|
|
|
|
|
|
|
Qilaq
Vana Pingviin
Vanus: 55
Liitunud: 25.10.2006
Postitused: 1219
Asukoht: Linda Nisa
Distributsioon: Mageia, Mandriva Linux
|
|
Ilma rahata vist korralikku ei ole, vähemalt pole kuulnud...
|
|
|
|
_________________ Tõlkija (Mandriva Linux, KDE, Scribus, CUPS)
|
|
|
|
Sander
Vana Pingviin
Liitunud: 14.10.2007
Postitused: 615
|
|
|
|
urmas
Pingviini kasutaja
Vanus: 46
Liitunud: 25.07.2006
Postitused: 92
Asukoht: Tartu
Distributsioon: Gentoo
|
|
Vana teema jätkuks - huvitav, et täna pole olukord üldsegi mitte parem (rääkides ainult käsureautiliitdest).
Maadlen siin suure hulga pdf failidega millede puhul ainuke võimalus tekstiks muutmisel on OCR. Ja pikkade testide tulemusel on selge, et ...
* gocr, clara, tesseract ja ocrad annavad suht võrdväärselt kehva tulemuse.
* cuneiform on suhteliselt hea, omades eestikeele tuge, ent jääb aegajalt hätta üksikute (oluliste) märkidega ja omab samas müstilisi vigu (võib kokku joosta kui lehel on ainult paar tähte või servast-servani täis. ja mis kõige hullem - arendus on selle aasta kevadel lõpetatud...
tesseract omaks kõige rohkem tulevikuväljavaateid kui ainult Google oma kõikvõimsuses huvi selle vastu tunneks ja muidugi pisutki dokumentatsiooni, kasutajasõbralikuse ning sisenformaatide laiendamisega vaeva tahaks näha..
|
|
|
|
|
|
|
|
Qilaq
Vana Pingviin
Vanus: 55
Liitunud: 25.10.2006
Postitused: 1219
Asukoht: Linda Nisa
Distributsioon: Mageia, Mandriva Linux
|
|
Need ei ole siis "päris" PDF-id, vaid skannimisel saadud pildid, lihtsalt PDF-ina salvestatud, mitte JPG või mõne muu pildivorminguna? Üks koht, mida võib proovida ja mille kohta ma olen kuulnud suhteliselt häid sõnu (endal ei ole päris mitu aastat OCR-iga otsest kokkupuudet olnud), on http://free-online-ocr.com/ Iseasi, kui hästi ta eesti keelega toime tuleb, aga kui ta väidetavalt annab muidu häid, peaaegu 100% tulemusi, nagu ma olen kuulnud, siis ehk oskab ta ka selle maanurga keelega midagi peale hakata
|
|
|
|
_________________ Tõlkija (Mandriva Linux, KDE, Scribus, CUPS)
|
|
|
|
Sander
Vana Pingviin
Liitunud: 14.10.2007
Postitused: 615
|
|
Sain Epsoni skänneriga kaasa ABBYY FineReader 6.0 Sprint Plus nimelise programmi ja paigaldasin winega Fedora 15-s. Töötab ja eesti keel on väga hea, kuigi programm ise juba üsna vana, aga noh, kes see kingitud hobuse suhu vaatab.
|
|
|
|
|
|
|
|
urmas
Pingviini kasutaja
Vanus: 46
Liitunud: 25.07.2006
Postitused: 92
Asukoht: Tartu
Distributsioon: Gentoo
|
|
Qilaq kirjutas: | Need ei ole siis "päris" PDF-id, vaid skannimisel saadud pildid, lihtsalt PDF-ina salvestatud, mitte JPG või mõne muu pildivorminguna? ... |
täitsa õiged PDF'id on, ainult et embedded fontidega ja googlest otsitu põhjal on failist kaotsi lastud kogu encodingu info - näituseks sobib selline thread http://forums.adobe.com/message/1942024#1942024
Dokumendid pärit meie oma riigiaparatuurist ning wordist konverditud. Tekst on tekst, aga kopi-paste annab tulemuseks krõnksujada.
windoozes on jah pädevaid OCR'e mis teevad 100% head tööd, paraku on vaja linuxi käsurida.
|
|
|
|
|
|
|
|
muhv
Pingviini aktivist
Vanus: 50
Liitunud: 03.03.2009
Postitused: 248
Asukoht: Pärnu
Distributsioon: Debian+
|
|
abbey-l on ju ka linuxi versioon olemas
|
|
|
|
|
|
|
|
Qilaq
Vana Pingviin
Vanus: 55
Liitunud: 25.10.2006
Postitused: 1219
Asukoht: Linda Nisa
Distributsioon: Mageia, Mandriva Linux
|
|
hmm, käsurea kohta ei oska öelda, aga graafiliselt on PDF-ide puhul seni asjad ära ajanud Okular, mis laseb kenasti teksti valida ja kopeerida (on olnud ka üksikuid Eesti dokumente, kuigi valdavalt on mul mujalt pärit tekstidokumendid või raamatud).
|
|
|
|
_________________ Tõlkija (Mandriva Linux, KDE, Scribus, CUPS)
|
|
|
|
tramm
Vana Pingviin
Liitunud: 03.11.2008
Postitused: 900
Distributsioon: *buntu
|
|
muhv kirjutas: | abbey-l on ju ka linuxi versioon olemas |
Ja vastavalt teema pealkirjale on see ka "tasuta teatud tingimustel", kuigi mitte "vaba".
|
|
|
|
|
|
|
|
akbgf
Vana Pingviin
Liitunud: 07.10.2009
Postitused: 763
Asukoht: Tõravere
Distributsioon: OpenSUSE, Ubuntu
|
|
urmas kirjutas: | Dokumendid pärit meie oma riigiaparatuurist ning wordist konverditud. Tekst on tekst, aga kopi-paste annab tulemuseks krõnksujada. |
Võib veel proovida trükkida postscriptina faili ja failist tekstiredaktoriga vaadata, kas seal on tekst või heksa-raster.
|
|
|
|
|
|
|
|
|