An Automated Pipeline for Robust Image Processing and Optical Character Recognition of Historical Documents

Gruber, Ivan; Ircing, Pavel; Neduchal, Petr; Hrúz, Marek; Hlaváč, Miroslav; Zajíc, Zbyněk; Švec, Jan; Bulín, Martin

Název:	An Automated Pipeline for Robust Image Processing and Optical Character Recognition of Historical Documents
Další názvy:	Automatizovaný proces pro robustní zpracování a optické rozpoznávání znaků historických dokumentů
Autoři:	Gruber, Ivan Ircing, Pavel Neduchal, Petr Hrúz, Marek Hlaváč, Miroslav Zajíc, Zbyněk Švec, Jan Bulín, Martin
Citace zdrojového dokumentu:	GRUBER, I., IRCING, P., NEDUCHAL, P., HRÚZ, M., HLAVÁČ, M., ZAJÍC, Z., ŠVEC, J., BULÍN, M. An Automated Pipeline for Robust Image Processing and Optical Character Recognition of Historical Documents. In: Speech and Computer, 22nd International Conference, SPECOM 2019, St. Petersburg, Russia, October 7-9,2020, Proceedings. Cham: Springer, 2020. s. 166-175. ISBN 978-3-030-60275-8, ISSN 0302-9743.
Datum vydání:	2020
Nakladatel:	Springer
Typ dokumentu:	konferenční příspěvek conferenceObject
URI:	2-s2.0-85092909562 http://hdl.handle.net/11025/42719
ISBN:	978-3-030-60275-8
ISSN:	0302-9743
Klíčová slova:	OCR, Klasifikace dokumentů, Digitalizace dokumentů
Klíčová slova v dalším jazyce:	OCR, Document classification, Document digitization
Abstrakt:	V tomto článku presentujeme proces předzpracování naskenovaných historických dokumentů do elektronické textové formy, která může poté být zindexována a uložena do databáze. Povaha dokumentů představuje velkou výzvu pro standardní automatizované techniky. Nejenže se jedná o kombinaci ručně psaných dokumentů a dokumentů psaných na stroji, ale dramaticky se liší i jejich kvalita a jednotlivé skeny často obsahují více než jen jednu stránku. Navíc, jazyk jednotlivých dokumentů se střídá převážně mezi ruštinou a ukrajinštinou, nicméně se v dokumentech vyskytují i úplně jiné jazyky. Tento článek se zaměřuje na segmentaci, klasifikaci typu dokumentu, a celkové předzpracování dokumentů. Nad výstupem těchto metod je pak otestován standardní OCR software a jeho úspěšnost je vyhodnocena na velmi jednoduché baseline úloze.
Abstrakt v dalším jazyce:	In this paper, we propose a pipeline for processing of scanned historical documents into the electronic text form that could then be indexed and stored in a database. The nature of the documents presents a substantial challenge for standard automated techniques — not only there is a mix of typewritten and handwritten documents of varying quality but the scanned pages often contain multiple documents at once. Moreover, the language of the texts alternates mostly between Russian and Ukrainian but other languages also occur. The paper focuses mainly on segmentation, document type classification, and image preprocessing of the scanned documents; the output of those methods is then passed to the off-the-shelf OCR software and a baseline performance is evaluated on a simplified OCR task.
Práva:	Plný text není přístupný. © Springer
Vyskytuje se v kolekcích:	Konferenční příspěvky / Conference papers (NTIS) Konferenční příspěvky / Conference Papers (KKY) OBD

Soubory připojené k záznamu:

Soubor	Velikost	Formát
Gruber2020_Chapter_AnAutomatedPipelineForRobustIm.pdf	2,67 MB	Adobe PDF	Zobrazit/otevřít Vyžádat kopii

Zobrazit celý záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/42719

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace