Technologie digitalizace dokumentů
Miroslav Pekárek ([email protected])
Technologie digitalizace dokumentů
1. Úvod2. Co je to vůbec digitalizace?3. Prostředky digitalizace4. Základní pojmy5. Výběr optimálního skeneru6. OCR - Optical Character Recognition7. ICR - Intelligent Character Recognition8. OMR - Optical Mark Recognition9. OBR – Optical Bradle Recognition10. Voiting – kombinace modulů11. Doporučení
Úvod do problematiky
• Stávající ERP systém• Digitalizace faktur,
objednávek, … pro příslušný ERP systém
• Vzhledem k potřebám naší firmy zaměření pouze na digitalizaci papírových dokumentů
Co je to digitalizace?
• Převedení dokumentů do digitální formy
• Digitální dokument není náhradou originálu
– je jenom novým dokumentem, vytvořeným za účelem zjednodušení správy a tím pádem snížením nákladů na ni vynaložených.
„Definice“ digitalizace
„ „Digitalizace je převod vybraných měřitelných Digitalizace je převod vybraných měřitelných fyzikálních veličin digitalizovaného objektu do fyzikálních veličin digitalizovaného objektu do numerických hodnot, jejich kódování a uložení numerických hodnot, jejich kódování a uložení za účelem pozdějšího vygenerování jiných za účelem pozdějšího vygenerování jiných fyzikálních veličin s cílem umožnit pozdějšímu fyzikálních veličin s cílem umožnit pozdějšímu uživateli fyziologické vjemy nahrazující přímé uživateli fyziologické vjemy nahrazující přímé vnímaní originálu.“vnímaní originálu.“
http://www.ikaros.cz/node/450http://www.ikaros.cz/node/450
Žádná přesná pochopitelně neexistujeTakže uvádím podle mého názoru nejvýstižnější :
Prostředky digitalizace
• Mezi hardware, který využijeme při digitalizaci dokumentů v naší firmě rozhodně patří skener. Ten se využije v metodě zvané skenování, které umožňuje převod textu a obrazu do digitální podoby.Tento výraz pochází z anglického slova scan, což se dá přeložit jako „pečlivě prohlížet“.
Skenery – základní přehled 1
• Ruční – podobný žehličce• Tužkový skener – snímání řádků, čárových kódů
• Plochý skener – často se nazývá taktéž jako stolní skener
• Stolní s podavačem (s ADF)
• Stolní bez podavače (bez ADF)
» Pozn.: ADF-Automatic Document Feeder
Skenery – základní přehled 2
• Rotační skener ,bubnový skener
– Finančně velice náročné, vhodné pro profesionální využití
• 3Dskener– V praxi pro digitalizaci
vzácných rukopisů, taktéž finančně náročné
• Digitální fotoaparát – Není sice klasický
skener, ale dá se tak použít
Skenování z hlediska pojmů 1
• Rozlišení - Určuje jak kvalitní bude nasnímaný obraz
– základní jednotkou je dpi (dots-per-inch, česky bod na palec) Skenery dnes běžně dokáží naskenovat předlohu od 100 do 9600 dpi. Pro běžnou kvalitu vystačíme s rozlišením do 600 dpi.
– S větší hustotou sítě pixelů roste kvalita nasnímaného obrazu v počítači
Skenování z hlediska pojmů 2
• Barevná hloubka – v minulosti se skenery dělily na černobílé a
barevné. Dnes se již ve většině případů setkáváme pouze s barevnými. To ale neznamená, že tato zařízení neumějí snímat černobíle. Každý skener má nastavitelnou barevnou hloubku, tedy počet barev, které dokáže rozlišit a převést do počítače.
Způsoby skenování*
• Black&White
• Binary
• Monochrome
• Single bit
• GrayscaleGrayscale
• 8-bit gray8-bit gray
• 256-level gray256-level gray
• Color
• 24-bit or 32-bit
• True color
*http://www.dicomgroup.com/
Skenování z hlediska pojmů 3
• Komprese – Uplatňuje se u ní metoda ztráty informací nebo
převodu na matematický algoritmus » bezztrátová komprese - po neskenování je digitální
obraz identický s předlohou (GIF, PNG)» ztrátová komprese - dochází u ní ke ztrátě informací,
přesto je výkonnější než bezztrátová, protože se vypouští barvy, které jsou tzv. podprahové (JPG, TIFF)
Velikost obrazu v závislosti na počtu barev
Pozn.: S počtem barev logicky roste počet bitů
Skenování z hlediska pojmů 4
• Prahování (Thresholding) – funkce, která upravuje jasové či barevné složky pixelů obrazu
podle určitého předpisu.
– Jednoduše určuje převod jednotlivých pixelů na bílou a černou barvu
• Dynamické prahování (VRS – VirtualReScan)
– slouží ke zlepšení kvality skenovaných dokumentů
– průběžně kontroluje a nastavuje správné vyrovnání, jas, kontrast a čirost zobrazení
Prahování (Thresholding)*
Úroveň prahování 15
Úroveň prahování 35
Úroveň prahování 55
Úroveň prahování 75
Úroveň prahování 95
Úroveň 15 Úroveň 35 Úroveň 55 Úroveň 75 Úroveň 95
*http://www.dicomgroup.com/
Dynamické prahování*
8-bit grayscale Black and white bez VRS
Black and white VRS
dynamické prahování*http://www.dicomgroup.com/
Skenování z hlediska pojmů 5
• Výstupní formáty – při skenování je možné zvolit výstupní formát
na výběr je celá paleta formátů, které dělíme: ○ grafické (např. BMP, TIFF, GIFF,
JPG,..) ○ textové (např. TXT, RTF,PDF,..)
Nutno rozhodnout, které z těchto, povětšinou jistě textových formátů využít v závislosti na dokumentu
Výběr vhodného skeneru
• Volba skeneru s optimálními vlastnostmi musí vycházet z objemů zpracovávané dokumentace, rozměrů, typu a kvality papíru.
• Kritéria– Objem dokumentace
– Rozměr předlohy
– Hmotnost papíru
– Simplexní/duplexní skenování
– Rozlišení
OCR - Optical Character Recognition
• Převod strojově psaného textu do elektronické podoby (databáze symbolů)
• Optické rozpoznávání znaků• Program je schopný se učit na
základě výsledků• Spellchecker – kontrola a
doplňování slov• V případě kvalitních
podkladů velká úspora času – v opačném případě velká chybovost
ICR - Intelligent Character Recognition
• „Rozšíření OCR“• Pro inteligentní rozpoznávání
ručně psaného písma –„handwriting recognition“
• Převádí ho na alfanumerické znaky
• Ke zdokonalování dochází v průběhu zpracování, schopen naučit se nový rukopis, což výrazně zjednodušuje práci
• Nevýhodou je vysoká chybovost
OMR - Optical Mark Recognition
•Technologie pro rozpoznávání zaškrtávacích značek na dokumentech •V předpřipravených šablonách zaškrtávací pole •Je nutné přesné rozložení daného dokumentu •Používá se v dotaznících, testech, sázenkách,…•Vhodné využití v souvislosti s OCR
- pomocí čárového kódu automaticky nastavit indexaci
OBR – Optical Braille Recognition
• Informace zapsaná Braillovým písmem z krátkého dopisu i kompletní knihy může být takto snadno přenesena do počítače, a to dokonce i když vůbec neznáte Braillovo písmo
Voiting – kombinace jednotlivých softwarových modulů
• Umožňuje kombinovat pro rozpoznávání textu více rozpoznávacích modulů, spolu s definováním různých pravidel a rozhodovacích algoritmů
• Výsledkem je výrazně vyšší kvalita rozpoznávání.
• Výrazně šetří čas při opravách dokumentů.
Doporučení
• Vzhledem ke složitosti tématu doporučuji nechat si udělat studii dokumentů autorizovanou firmou a dle výsledků interně implementovat jejich doporučení
• Z hlediska efektivity se toto jeví jako nejlepší řešení
Použité zdroje:
• Literatura:• PECINOVSKÝ, Josef. Skenery a skenování. 2. aktualiz. vyd. Praha: Grada, 2003. Snadno a rychle. ISBN 80-247-0544-3.• HÁLA, Tomáš - MATOUŠEK, Michal. Skenery: praktický průvodce uživatele. 1. vyd. Praha: Computer Press, 1999.
DTP&grafika. Rychle a jistě. ISBN 80-7226-217-3.
• Internet:• http://web.ff.cuni.cz/%7Ejedlickp/kurzy/multimedia1_2/multimedia5_2002/index.htm• http://www.lupa.cz/clanky/digitalizace-knihoven-je-beh-na-dlouhou-trat• http://www.inkam.cz/• http://www.efcon.cz/EFCON_WEB/efcon.nsf/czech/digitalizace.htm• http://digit.nkp.cz/knihcin/ookf/digit.htm• http://www.systemonline.cz/clanky/archivace-dat-iii-dil.htm• http://www.scanservice.cz/• http://www.oikt.czu.cz/?r=118• http://www.dicomgroup.com/ • http://medard.soc.cas.cz/digidat/obraz_OCR.htm• http://www.systemonline.cz/• www.businessworld.cz/
Top Related