Portaal Portaal Pingviini veeb foorumi pealeht
  Viki  |  IRC  |  Otsing  |  Küsimused ja vastused  |  Profiil  |  Privaatsõnumite vaatamiseks logi sisse  | Logi sisse või Registreeru
<empty>
Vaata järgmist teemat
Vaata eelmist teemat

Postita uus teemaVasta teemale
Autor Sõnum
Sander
Vana Pingviin
Vana Pingviin



Liitunud: 14.10.2007
Postitused: 615


estonia.gif
postituspostitatud: 16.04.2009, 20:48  postituse pealkiri:  Eesti keelt tundev tasuta OCR programm  

Estobunto teemas tuli jutuks OCR. See tuletas mulle meelde, et kasutan skännimiseks ja tekstituvastuseks ikka veel Windowsi. Skännimisega ei ole midagi teha, aastaid tagasi ostetud CanoScanD1250U2 ei ole Linuxis toetatud ja sellel ma rohkem ei peatuks.
Panin foorumi otsingusse OCR ja sain 3 tulemust, vaatasin need teemad läbi ja leidsin, et asjast ei ole juttu olnud.
Nüüd pika sissejuhatuse peale küsimus.
Kas Linuxile on olemas ilma rahata saadavat OCR programmi, mis eesti keelt tunneb?


Qilaq
Vana Pingviin
Vana Pingviin


Vanus: 55
Liitunud: 25.10.2006
Postitused: 1219
Asukoht: Linda Nisa
Distributsioon: Mageia, Mandriva Linux
estonia.gif
postituspostitatud: 16.04.2009, 21:59  postituse pealkiri:  (teema puudub)  

Ilma rahata vist korralikku ei ole, vähemalt pole kuulnud...

_________________
Tõlkija (Mandriva Linux, KDE, Scribus, CUPS)

Sander
Vana Pingviin
Vana Pingviin



Liitunud: 14.10.2007
Postitused: 615


estonia.gif
postituspostitatud: 16.04.2009, 23:45  postituse pealkiri:  (teema puudub)  

Kasutan windowsi all üht aastast 2000 pärinevat programmi nimega Cuneiform, mis tunneb eestikeelse teksti peaaegu 100%
Nüüd asja uurides avastasin, et nimetet programm on 2007 a detsembris saanud vabavaraks ja 2008 a aprillist avatud lähtekoodiga.
http://en.openocr.org/download/
Kõige olulisem uudis mulle - "Cuneiform is being ported to Linux, BSD and Mac OS X"
allikas: http://en.wikipedia.org/wiki/CuneiForm_(software)
Kui aega saan, proovin ära
https://launchpad.net/cuneiform-linux


urmas
Pingviini kasutaja
Pingviini kasutaja


Vanus: 46
Liitunud: 25.07.2006
Postitused: 92
Asukoht: Tartu
Distributsioon: Gentoo
estonia.gif
postituspostitatud: 04.10.2011, 14:46  postituse pealkiri:  (teema puudub)  

Vana teema jätkuks - huvitav, et täna pole olukord üldsegi mitte parem (rääkides ainult käsureautiliitdest).
Maadlen siin suure hulga pdf failidega millede puhul ainuke võimalus tekstiks muutmisel on OCR. Ja pikkade testide tulemusel on selge, et ...

* gocr, clara, tesseract ja ocrad annavad suht võrdväärselt kehva tulemuse.
* cuneiform on suhteliselt hea, omades eestikeele tuge, ent jääb aegajalt hätta üksikute (oluliste) märkidega ja omab samas müstilisi vigu (võib kokku joosta kui lehel on ainult paar tähte või servast-servani täis. ja mis kõige hullem - arendus on selle aasta kevadel lõpetatud...

tesseract omaks kõige rohkem tulevikuväljavaateid kui ainult Google oma kõikvõimsuses huvi selle vastu tunneks ja muidugi pisutki dokumentatsiooni, kasutajasõbralikuse ning sisenformaatide laiendamisega vaeva tahaks näha..


Qilaq
Vana Pingviin
Vana Pingviin


Vanus: 55
Liitunud: 25.10.2006
Postitused: 1219
Asukoht: Linda Nisa
Distributsioon: Mageia, Mandriva Linux
estonia.gif
postituspostitatud: 04.10.2011, 20:14  postituse pealkiri:  (teema puudub)  

Need ei ole siis "päris" PDF-id, vaid skannimisel saadud pildid, lihtsalt PDF-ina salvestatud, mitte JPG või mõne muu pildivorminguna? Üks koht, mida võib proovida ja mille kohta ma olen kuulnud suhteliselt häid sõnu (endal ei ole päris mitu aastat OCR-iga otsest kokkupuudet olnud), on http://free-online-ocr.com/ Iseasi, kui hästi ta eesti keelega toime tuleb, aga kui ta väidetavalt annab muidu häid, peaaegu 100% tulemusi, nagu ma olen kuulnud, siis ehk oskab ta ka selle maanurga keelega midagi peale hakata

_________________
Tõlkija (Mandriva Linux, KDE, Scribus, CUPS)

Sander
Vana Pingviin
Vana Pingviin



Liitunud: 14.10.2007
Postitused: 615


estonia.gif
postituspostitatud: 04.10.2011, 21:02  postituse pealkiri:  (teema puudub)  

Sain Epsoni skänneriga kaasa ABBYY FineReader 6.0 Sprint Plus nimelise programmi ja paigaldasin winega Fedora 15-s. Töötab ja eesti keel on väga hea, kuigi programm ise juba üsna vana, aga noh, kes see kingitud hobuse suhu vaatab.


urmas
Pingviini kasutaja
Pingviini kasutaja


Vanus: 46
Liitunud: 25.07.2006
Postitused: 92
Asukoht: Tartu
Distributsioon: Gentoo
estonia.gif
postituspostitatud: 04.10.2011, 22:48  postituse pealkiri:  (teema puudub)  

Qilaq kirjutas:
Need ei ole siis "päris" PDF-id, vaid skannimisel saadud pildid, lihtsalt PDF-ina salvestatud, mitte JPG või mõne muu pildivorminguna? ...


täitsa õiged PDF'id on, ainult et embedded fontidega ja googlest otsitu põhjal on failist kaotsi lastud kogu encodingu info - näituseks sobib selline thread http://forums.adobe.com/message/1942024#1942024
Dokumendid pärit meie oma riigiaparatuurist ning wordist konverditud. Tekst on tekst, aga kopi-paste annab tulemuseks krõnksujada.

windoozes on jah pädevaid OCR'e mis teevad 100% head tööd, paraku on vaja linuxi käsurida.


muhv
Pingviini aktivist
Pingviini aktivist


Vanus: 50
Liitunud: 03.03.2009
Postitused: 248
Asukoht: Pärnu
Distributsioon: Debian+
estonia.gif
postituspostitatud: 04.10.2011, 23:05  postituse pealkiri:  (teema puudub)  

abbey-l on ju ka linuxi versioon olemas


Qilaq
Vana Pingviin
Vana Pingviin


Vanus: 55
Liitunud: 25.10.2006
Postitused: 1219
Asukoht: Linda Nisa
Distributsioon: Mageia, Mandriva Linux
estonia.gif
postituspostitatud: 05.10.2011, 00:53  postituse pealkiri:  (teema puudub)  

hmm, käsurea kohta ei oska öelda, aga graafiliselt on PDF-ide puhul seni asjad ära ajanud Okular, mis laseb kenasti teksti valida ja kopeerida (on olnud ka üksikuid Eesti dokumente, kuigi valdavalt on mul mujalt pärit tekstidokumendid või raamatud).

_________________
Tõlkija (Mandriva Linux, KDE, Scribus, CUPS)

tramm
Vana Pingviin
Vana Pingviin



Liitunud: 03.11.2008
Postitused: 900

Distributsioon: *buntu
blank.gif
postituspostitatud: 05.10.2011, 01:07  postituse pealkiri:  (teema puudub)  

muhv kirjutas:
abbey-l on ju ka linuxi versioon olemas

Ja vastavalt teema pealkirjale on see ka "tasuta teatud tingimustel", kuigi mitte "vaba".


akbgf
Vana Pingviin
Vana Pingviin



Liitunud: 07.10.2009
Postitused: 763
Asukoht: Tõravere
Distributsioon: OpenSUSE, Ubuntu
estonia.gif
postituspostitatud: 05.10.2011, 07:35  postituse pealkiri:  (teema puudub)  

urmas kirjutas:
Dokumendid pärit meie oma riigiaparatuurist ning wordist konverditud. Tekst on tekst, aga kopi-paste annab tulemuseks krõnksujada.

Võib veel proovida trükkida postscriptina faili ja failist tekstiredaktoriga vaadata, kas seal on tekst või heksa-raster.


Näita (aja järgi):      
Postita uus teemaVasta teemale


Vaata järgmist teemat
Vaata eelmist teemat
Powered by phpBB2 Plus based on phpBB © 2001/7 phpBB Group