Cum Sa Structuram Cartile Scanate Despre DjVu
-
Upload
anthony-brewer -
Category
Documents
-
view
71 -
download
11
description
Transcript of Cum Sa Structuram Cartile Scanate Despre DjVu
-
Lecia 3Formatul DjVu
i structurarea funcional a crilor digitalePremiz:
O carte digital, ntruct e digital, trebuie s se bucure de toate facilitile informatizrii.
Introducere:
rin structurarea crilor digitale nelegem adugarea posibilitilor de navigare intern, pe vertical - arborele de coninut sau indicele, pe orizontal - motorul de cutare dup text (cu textualizarea prealabil a crii scanate), general sau dup cuvintele-cheie prestabilite. Un
alt element de considerat mpreun cu acestea, ns cu semnificaie prevalent estetic este copertarea. PCteva cuvinte despre vehicolul acestori faciliti:
rile scanate se deosebesc de cele tiprite (bazate pe texte culese din start la computer) prin faptul c sunt de tip grafic (imagini), exact ca i pozele foto digitale. Dei
conin informaie textual, textul lor nu este accesibil ca atare (spre exemplu, pentru copy-paste sau pentru search). Pe lng acest disconfort funcional, crile scanate att timp ct rmn ca imagini (sau ca PDF) au i un dezavantaj fizic foarte mare, fiind incomode pentru lectur (rsfoirea lent) i pentru depozitare (greutate enorm). O metod eficient pentru depsirea acestor neajunsuri const n utilizarea formatului de compresie DjVu.
C Anexa 1 despre secretul formatului DjVu i analiza lui comparativ cu PDF
Compresia DjVu :
n rezultatul prelucrrii scanatelor n Scan Kromsator 5.91 am obinut mapa out n acelai sediu ca i fiierul surs TIF G4Fax. Pentru compresia DjVu folosim programul deja amintit
DjVu Small 0.3.3 dup metoda descris (vezi Lecia 1), schimbnd doar profilul n user b/w 300
Anexa 2, n care gsii i un truc pentru reducerea dimensiunii finale a fiierului DjVu cu pn la 25%
NOT: Toate etapele ulerioare se pot face ntr-un timp secund.
Copertarea
n moment cu valoare preponderent estetic l constituie adugarea copertei originale color la cartea comprimat DjVu. Dincolo de frumusee, copertarea ofer i avantajul
de a putea lesne repera cartea digital n regimul thumbnails din Explorer graie unicitii copertelor n lumea livresc (vezi schema de mai jos).
U Anexa 3, despre pregtirea copertei i unirea ei la DjVu principal
-
Schem: Fiierele DjVu n Windows Explorer
NOT: Pentru a putea previzualiza fiierele DjVu n regim thumbnails instalai programul gratuit DjVu Shell Extension.
Indexarea i textualizarea:
dugarea stratului de text cules la imaginea DjVu corespunztoare (textualizare), ca i a arborelui de coninut (indexare) sunt etape ultime, textualizarea de
regul, precednd indexarea. Vor fi tratate n leciile urmtoare. A Anexa 4, pentru descoperirea rezultatului finaln loc de ncheiere:
n lecia precedent am promis s tratm mai ndeaproape subiectul restaurrii crilor scanate de proast calitate - nelegnd prin ultima att neoformarea estetic a coninutului, ct i defectele de lizibilitate. nrudit cu restaurarea este aa-zisa optimizare grafic, la care vom face apel ns n
situaiile normale. n exemplul ce urmeaz vom trata un caz comun de compresie a imaginilor de tip gri, care la bitonalizarea normal rezult aproape ntotdeauna defectuoase:
(a) original (b) bitonalizare normal (c) bitonalizare optimizat
-
Procedeu: bitonalizarea optimizatDjVu Small 0.3.3 profilul photo 300 DjVu Ocr 2.4 (+ bitonal) BMP negru-alb
1. Comprimai repetent imaginile originale ale paginilor defectuoase n DjVu cu profilul photo 300 (DjVu Small 0.3.3)
NOT: Dac fiierul surs este PDF, putei salta etapa decomprimnd deodat imaginile individuate n format bmp, cu ajutorul STDU Viewer, versiunea 1.5.330. Pentru o calitate mai bun, putei contrasta noile imagini cu ajutorul lui FastStone Photo Resizer, avnd grij ca la ieire s le salvai tot n format bmp. Necesit timp (350 pagini = 1-2 ore) i spaiu (1 pagin = 10 Mb)!
2. Decomprimai DjVu n format bmp cu ajutorul lui DjVu Decoder din cadrul lui DjVu Ocr 2.4, selectnd i opiunea pentru bitonalizare: To bitonal (pe desen vezi e)
3. Recompresia final dup modalitatea obinuit pentru crile negru-alb (profil b/w 300)
NOT: Acest algoritm poate fi angajat i ca procedeu de baz pentru bitonalizare dac se face abstracie de timpul i de spaiul necesar.
-
ANEXA
1*secretul
DJVU
Anexa 1: Secretul formatului DjVu (napoi la text):
PDF vs DjVu
ata foarte mic de compresie a scanatelor atunci cnd sunt salvate ca PDF, se explic prin principiul pe care se bazeaz i anume, pe identificarea repetiiei caracterelor digitale litere, cifre etc mecanism, care n faa informaiei textuale non-textuale
a imaginilor scanate se adeverete cu totul neputincios. n aceste condiii compresia devine liniar i dezavantajoas din punct de vedere economic.
R Pe de alt parte, mecanismul pe care se bizuie codificarea DjVu este descompunerea imaginilor pe straturi cu aplicarea consecutiv a diverselor metode de compresie pentru fiecare din ele.
Principiul formatului DjVu:
onst n separarea figurii de fond: elementele grafice cu contururi nete (text i desene) formeaz stratul mask/stencil, care mpreun cu informaia despre culori alctuiete aa-zisul strat superficial foreground. Toate celelalte elemente,
mai mult sau mai puin estompate, formeaz aa-zisul strat profund background (vezi schemele urmtoare).
CIat i secretul. Stratul superficial, ca purttor de baz al informaiei utile lizibile, este comprimat cu rezoluie 100%, iar cel profund dup caz, n funcie de profilul ales (de la 0 - n bitonal, la 100% n photo). n toate cazurile informaia util trebuie s rmn clar i distinct (stratul superficial = text; stratul profund = foto, vezi schema de mai jos).
Schem: DjVu, strat cu strat
(a) imaginea deplin (color) (b) stratul masc (stencil)
-
ANEXA
1*secretul
DJVU
(c) stratul profund (background) (d) stratul superficial (foreground)
Un truc util:
u este greu s v dai seama cum stratul superficial (foreground) conine n sine toat informaia util. Vestea bun e c acesta poate fi separat de celelalte i salvat de sinestttor. n afar de ctigul evident n calitate, acest truc ofer i un
semnificativ avantaj economic ntr-adevr, nlturarea stratului profund background poate reduce cu cca 15-20% greutatea fiierului!
NProcedeu: separarea DjVu n straturi
Prima metod DjView 4.3 TIF multipaginat (= 1 fiier) A doua metod DjVu Ocr 2.4 TIF unu-per-pagin (= multe fiiere)
PRIMA METOD:
zolarea straturilor este posibil n cadrul programului deja cunoscut nou, DjView, care are i avantajul de a putea vizualiza n timp real fiecare
strat n parte. Izolarea unui strat se face simplu:I
1. Bifai stratul dorit, accesnd meniul: View-->Display, n timp ce vizualizai cartea DjVu
2. Efectuai decodificarea n TIF dup procedeul cunoscut (indicat n Lecia 1, la capitolul despre bitonalizare).
-
ANEXA
1*secretul
DJVU
Atenie: la salvarea color avei grij s debifai n prealabil csua Force G4Fax Compress, altfel informaia despre culori va fi automat omis!
A DOUA METOD:
celai efect poate fi obinut cu ajutorul unui alt program gratuit la care vom apela la etapa de textualizare a DjVu DjVu OCR 2.4:A
1. Pe pagina principal selectai DjVu Decoder:
2. Pe noua pagin deschis:
2 - adugai fiierul DjVu n lista de alturi3 - selectai mapa pentru salvarea rezultatului4 - alegei formatul grafic la ieire 5 - indicai diapazonul de pagini spre decodificare6 - alegei stratul care dorii s-l izolai7 - n cazul imaginilor negru-alb, bifai pentru bitonalizare automat8 - dai la execuie
NOT: Spre deosebire de programul DjView, DjVu Ocr salveaz fiierele TIF unu per pagin, deci la ieire vei avea tot attea fiiere ct i pagini n carte. Dac planificai convertarea n PDF recomand folosirea primei metode (pentru c produce un fiier TIF unic, multipaginat).
Atenie! Exist un risc de a pierde din informaia util dac ea este omis n stratul salvat! Aceast eroare poate fi evitat previzualiznd stratul de nlturat nainte de tergerea lui definitiv, pentru excluderea oricror elemente utile (litere, linii etc) precipitate din greeal n cursul codificrii. Spre ex., la salvarea stratului foreground se va previzualiza stratul profund background i viceversa.
-
ANEXA
2
*compresia
DJVU
Anexa 2: Compresia DjVu (napoi la text)
Procedeu: compresia DjVu negru-alb
DjVu Small 0.3.3 profil user b/w 300 ( +/- trucuri) fiier DjVu negru-alb
1. Deschidei fiierele sau mapa cu imagini2. Indicai mapa pentru salvarea rezultatului
3. Bifai operaiunea
4. Alegei profilul
*5. Trecei la opiunile avansate
6. Alegei tabla: Document->DjVu (2)
7. Bifai csua: Text quality, alegei din lista regimul lossy
8. Bifai csua: Pages per dict, indicai un numr
9. Trecei la fereastra principal
10. Dai la execuie tastnd butonul Convert
NOT: Opiunile 5-8 (trucuri facultative) asigur un ctig n greutate de pn la 25% (cu un efect neglijabil asupra calitii imaginilor, dar cu o posibil ncetinire a procesului de lecturare a crii astfel comprimate)
-
ANEXA
3
*copertarea
Anexa 3: Copertarea color a crilor DjVu (napoi la text)
Procedeu: copertarea crilor DjVu
Scanare n regim color (true color) Fast Stone Photo Resizer 2.8 DjVu Small 0.3.3 (Photo 300) DjVu Merger
1. Scanarea repetat n culori:
canarea obinuit a crilor nu se face n culori (ci n grayscale), pe de alt parte, coperta este aproape ntotdeauna colorat. Prin urmare, se vor scana n prealabil, i separat de restul crii, cele dou coperte (fronte i retro) n regim color (true color
sau milions of colors). Se va avea grij de a poziiona perfect cartea pe geamul scanner-ului i de a o decupa imediat, n timpul scanrii (se va salva n JPEG).
S2. Redimensionarea:
maginile copertelor se vor adapta dimensional dup valorile nlime-lime din cartea DjVu gata comprimat (valorile pot fi citite n STDU Viewer, intrnd n meniul File--> Properties-->panoul List pages). Recomandabil este programul gratuit Fast Stone
Photo Resizer 2.8, pe care l vom folosi nu rareori n continuare. I
-
ANEXA
3
*copertarea
1 - deschidei mapa cu imaginile pentru modificare2 - adugai-le n lista de lucru3 - indicai formatul la ieire i mapa pentru salvarea rezultatului4 - bifai csua Use Advanced Options i tastai butonul corespunztor
5 - activai tabla Resize bifnd csua6 - bifai n dreptul unitilor de msur In Pixels7 - indicai valorile exacte pentru nlime (Height) i lime (Width), identice cu cele din imaginile gata din cartea comprimat8 - alegei metoda de compresie Bicubic9 - dezactivai opiunea pentru pstrarea proporiilor la redimensionare10 - salvai modificrile i trecei la fereastra principal.
Dai la execuie tastnd butonul Convert.
3. Compresia DjVu:
entru compresie folosim DjVu Small 0.3.3 n regim Photo 300. Putei apela la un truc (descris n continuare) pentru a controla greutatea fiierului rezultat (n mod normal n regim Photo - comprimat la o rat joas). P
-
ANEXA
3
*copertarea
Schem: Un truc pentru reducerea greutii unui fiier tip foto
1. Accesnd opiunile avansate, intrai n tabla Document->DjVu (2) i activai csua Sizes.
2. n drept cu ea indicai, n ordine cresctoare, valorile n bytes ale imaginii DjVu aa cum dorii s rezulte dup compresie.
n exemplul din schem: 20000+40000+150000 = 210000 bytes = 205 Kb, adic fiierul DjVu va avea o greutate de cca 205 Kb). Aceste valori sunt arbitrare i se vor selecta n funcie de calitatea final dorit.
Atenie: Nu uitai s dezactivai manual csua Sizes dup utilizare, mai ales dac planificai o compresie DjVu n regim Photo ntr-un moment secund.
4. Anexarea copertei la cartea DjVu:
operta astfel comprimat poate fi anexat la fiierul principal folosind programul DjVu merger. Lucreaz fr interfa, dup procedeul ce urmeaz:C
1. Plasai cele dou fiiere DjVu (coperta i cartea) n mapa cu programul.2. Redenumii fiierele: pentru copert schimbai n 0000.djvu, pentru cartea de baz
n 0001.djvu
NOT: La unirea mai multor pri cu ajutorul programului DjVu merger, redenumii fiecare fiier n ordine succesiv, dup cum urmeaz: coperta = 0000.djvu; blocul de pagini 1-200 = 0001.djvu; blocul 201-400 = 0002.djvu etc.
3. Indicai diapazonul exact de pagini n fiierul list.txt din aceiai map4. Dai la execuie programul merger5. Fiierul Book.djvu din aceiai map este cel rezultat dup unire.
Atenie: Programul prezint un defect de funcionare n cazul fiierelor mai mari de 2-3 megabaii n acest caz, putei scinda n prealabil fiierul de baz n buci convenabile (folosind programul DjView vezi n continuare).
-
ANEXA
3
*copertarea
Schem: Scindarea n blocuri a fiierelor DjVu cu ajutorul programului DjView 4.3
1. Accesai meniul: File--> Save as... Indicai diapazonul de pagini Pages pentru fiecare bloc de scindat: de ex. 1-200, 201-400 etc.
2. Alegei formatul: Bundled DjVu Document.
3. Indicai mapa pentru salvarea rezultatului.
4. Dai la execuie (Ok).
NOT: Pentru a nu face confuzie n privina diapazonului, recomand s numii fiecare bloc salvat cu numrul de la...pn la corespunztor: de ex., 1-200.djvu, 201-400.djvu etc.
-
ANEXA
4*finalizarea
Anexa 4: Indexarea i textualizarea, DjView 4.3 (napoi la text)
1 - arborele crii (outline - n DjView 4.3, content - n STDU Viewer)2 - motorul de cutare (find - n DjView 4.3, search - n STDU Viewer)