Testing ppt

25
Technologie digitalizace dokumentů Miroslav Pekárek ([email protected])

description

my first test

Transcript of Testing ppt

Page 1: Testing ppt

Technologie digitalizace dokumentů

Miroslav Pekárek ([email protected])

Page 2: Testing ppt

Technologie digitalizace dokumentů

1. Úvod2. Co je to vůbec digitalizace?3. Prostředky digitalizace4. Základní pojmy5. Výběr optimálního skeneru6. OCR - Optical Character Recognition7. ICR - Intelligent Character Recognition8. OMR - Optical Mark Recognition9. OBR – Optical Bradle Recognition10. Voiting – kombinace modulů11. Doporučení

Page 3: Testing ppt

Úvod do problematiky

• Stávající ERP systém• Digitalizace faktur,

objednávek, … pro příslušný ERP systém

• Vzhledem k potřebám naší firmy zaměření pouze na digitalizaci papírových dokumentů

Page 4: Testing ppt

Co je to digitalizace?

• Převedení dokumentů do digitální formy

• Digitální dokument není náhradou originálu

– je jenom novým dokumentem, vytvořeným za účelem zjednodušení správy a tím pádem snížením nákladů na ni vynaložených.

Page 5: Testing ppt

„Definice“ digitalizace

„ „Digitalizace je převod vybraných měřitelných Digitalizace je převod vybraných měřitelných fyzikálních veličin digitalizovaného objektu do fyzikálních veličin digitalizovaného objektu do numerických hodnot, jejich kódování a uložení numerických hodnot, jejich kódování a uložení za účelem pozdějšího vygenerování jiných za účelem pozdějšího vygenerování jiných fyzikálních veličin s cílem umožnit pozdějšímu fyzikálních veličin s cílem umožnit pozdějšímu uživateli fyziologické vjemy nahrazující přímé uživateli fyziologické vjemy nahrazující přímé vnímaní originálu.“vnímaní originálu.“

http://www.ikaros.cz/node/450http://www.ikaros.cz/node/450

Žádná přesná pochopitelně neexistujeTakže uvádím podle mého názoru nejvýstižnější :

Page 6: Testing ppt

Prostředky digitalizace

• Mezi hardware, který využijeme při digitalizaci dokumentů v naší firmě rozhodně patří skener. Ten se využije v metodě zvané skenování, které umožňuje převod textu a obrazu do digitální podoby.Tento výraz pochází z anglického slova scan, což se dá přeložit jako „pečlivě prohlížet“.

Page 7: Testing ppt

Skenery – základní přehled 1

• Ruční – podobný žehličce• Tužkový skener – snímání řádků, čárových kódů

• Plochý skener – často se nazývá taktéž jako stolní skener

• Stolní s podavačem (s ADF)

• Stolní bez podavače (bez ADF)

» Pozn.: ADF-Automatic Document Feeder

Page 8: Testing ppt

Skenery – základní přehled 2

• Rotační skener ,bubnový skener

– Finančně velice náročné, vhodné pro profesionální využití

• 3Dskener– V praxi pro digitalizaci

vzácných rukopisů, taktéž finančně náročné

• Digitální fotoaparát – Není sice klasický

skener, ale dá se tak použít

Page 9: Testing ppt

Skenování z hlediska pojmů 1

• Rozlišení - Určuje jak kvalitní bude nasnímaný obraz

– základní jednotkou je dpi (dots-per-inch, česky bod na palec) Skenery dnes běžně dokáží naskenovat předlohu od 100 do 9600 dpi. Pro běžnou kvalitu vystačíme s rozlišením do 600 dpi.

– S větší hustotou sítě pixelů roste kvalita nasnímaného obrazu v počítači

Page 10: Testing ppt

Skenování z hlediska pojmů 2

• Barevná hloubka – v minulosti se skenery dělily na černobílé a

barevné. Dnes se již ve většině případů setkáváme pouze s barevnými. To ale neznamená, že tato zařízení neumějí snímat černobíle. Každý skener má nastavitelnou barevnou hloubku, tedy počet barev, které dokáže rozlišit a převést do počítače.

Page 11: Testing ppt

Způsoby skenování*

• Black&White

• Binary

• Monochrome

• Single bit

• GrayscaleGrayscale

• 8-bit gray8-bit gray

• 256-level gray256-level gray

• Color

• 24-bit or 32-bit

• True color

*http://www.dicomgroup.com/

Page 12: Testing ppt

Skenování z hlediska pojmů 3

• Komprese – Uplatňuje se u ní metoda ztráty informací nebo

převodu na matematický algoritmus » bezztrátová komprese - po neskenování je digitální

obraz identický s předlohou (GIF, PNG)» ztrátová komprese - dochází u ní ke ztrátě informací,

přesto je výkonnější než bezztrátová, protože se vypouští barvy, které jsou tzv. podprahové (JPG, TIFF)

Page 13: Testing ppt

Velikost obrazu v závislosti na počtu barev

Pozn.: S počtem barev logicky roste počet bitů

Page 14: Testing ppt

Skenování z hlediska pojmů 4

• Prahování (Thresholding) – funkce, která upravuje jasové či barevné složky pixelů obrazu

podle určitého předpisu.

– Jednoduše určuje převod jednotlivých pixelů na bílou a černou barvu

• Dynamické prahování (VRS – VirtualReScan)

– slouží ke zlepšení kvality skenovaných dokumentů

– průběžně kontroluje a nastavuje správné vyrovnání, jas, kontrast a čirost zobrazení

Page 15: Testing ppt

Prahování (Thresholding)*

Úroveň prahování 15

Úroveň prahování 35

Úroveň prahování 55

Úroveň prahování 75

Úroveň prahování 95

Úroveň 15 Úroveň 35 Úroveň 55 Úroveň 75 Úroveň 95

*http://www.dicomgroup.com/

Page 16: Testing ppt

Dynamické prahování*

8-bit grayscale Black and white bez VRS

Black and white VRS

dynamické prahování*http://www.dicomgroup.com/

Page 17: Testing ppt

Skenování z hlediska pojmů 5

• Výstupní formáty – při skenování je možné zvolit výstupní formát

na výběr je celá paleta formátů, které dělíme: ○ grafické (např. BMP, TIFF, GIFF,

JPG,..) ○ textové (např. TXT, RTF,PDF,..)

Nutno rozhodnout, které z těchto, povětšinou jistě textových formátů využít v závislosti na dokumentu

Page 18: Testing ppt

Výběr vhodného skeneru

• Volba skeneru s optimálními vlastnostmi musí vycházet z objemů zpracovávané dokumentace, rozměrů, typu a kvality papíru.

• Kritéria– Objem dokumentace

– Rozměr předlohy

– Hmotnost papíru

– Simplexní/duplexní skenování

– Rozlišení

Page 19: Testing ppt

OCR - Optical Character Recognition

• Převod strojově psaného textu do elektronické podoby (databáze symbolů)

• Optické rozpoznávání znaků• Program je schopný se učit na

základě výsledků• Spellchecker – kontrola a

doplňování slov• V případě kvalitních

podkladů velká úspora času – v opačném případě velká chybovost

Page 20: Testing ppt

ICR - Intelligent Character Recognition

• „Rozšíření OCR“• Pro inteligentní rozpoznávání

ručně psaného písma –„handwriting recognition“

• Převádí ho na alfanumerické znaky

• Ke zdokonalování dochází v průběhu zpracování, schopen naučit se nový rukopis, což výrazně zjednodušuje práci

• Nevýhodou je vysoká chybovost

Page 21: Testing ppt

OMR - Optical Mark Recognition

•Technologie pro rozpoznávání zaškrtávacích značek na dokumentech •V předpřipravených šablonách zaškrtávací pole •Je nutné přesné rozložení daného dokumentu •Používá se v dotaznících, testech, sázenkách,…•Vhodné využití v souvislosti s OCR

- pomocí čárového kódu automaticky nastavit indexaci

Page 22: Testing ppt

OBR – Optical Braille Recognition

• Informace zapsaná Braillovým písmem z krátkého dopisu i kompletní knihy může být takto snadno přenesena do počítače, a to dokonce i když vůbec neznáte Braillovo písmo

Page 23: Testing ppt

Voiting – kombinace jednotlivých softwarových modulů

• Umožňuje kombinovat pro rozpoznávání textu více rozpoznávacích modulů, spolu s definováním různých pravidel a rozhodovacích algoritmů

• Výsledkem je výrazně vyšší kvalita rozpoznávání.

• Výrazně šetří čas při opravách dokumentů.

Page 24: Testing ppt

Doporučení

• Vzhledem ke složitosti tématu doporučuji nechat si udělat studii dokumentů autorizovanou firmou a dle výsledků interně implementovat jejich doporučení

• Z hlediska efektivity se toto jeví jako nejlepší řešení

Page 25: Testing ppt

Použité zdroje:

• Literatura:• PECINOVSKÝ, Josef. Skenery a skenování. 2. aktualiz. vyd. Praha: Grada, 2003. Snadno a rychle. ISBN 80-247-0544-3.• HÁLA, Tomáš - MATOUŠEK, Michal. Skenery: praktický průvodce uživatele. 1. vyd. Praha: Computer Press, 1999.

DTP&grafika. Rychle a jistě. ISBN 80-7226-217-3.

• Internet:• http://web.ff.cuni.cz/%7Ejedlickp/kurzy/multimedia1_2/multimedia5_2002/index.htm• http://www.lupa.cz/clanky/digitalizace-knihoven-je-beh-na-dlouhou-trat• http://www.inkam.cz/• http://www.efcon.cz/EFCON_WEB/efcon.nsf/czech/digitalizace.htm• http://digit.nkp.cz/knihcin/ookf/digit.htm• http://www.systemonline.cz/clanky/archivace-dat-iii-dil.htm• http://www.scanservice.cz/• http://www.oikt.czu.cz/?r=118• http://www.dicomgroup.com/ • http://medard.soc.cas.cz/digidat/obraz_OCR.htm• http://www.systemonline.cz/• www.businessworld.cz/