Henk Gianotten - Untitled

26
INTELLIGENT SEPARATION COMPOSITION MODEL Henk Gianotten BiTe Congres Groningen, 19-02-2009

description

Uitstekende presentatie van Henk Gianotten over de gebrekkige toepassing van metadata in de zakelijke communicatie. Je ziet in de presentatie voorbeelden van grote organisaties die veel 'untitled.doc' document-titels op hun website hebben staan. Probeer dan maar eens iets te vinden.

Transcript of Henk Gianotten - Untitled

Page 1: Henk Gianotten - Untitled

INTELLIGENTSEPARATIONCOMPOSITIONMODEL

Henk GianottenBiTe CongresGroningen, 19-02-2009

Page 2: Henk Gianotten - Untitled

Untitled en documentaanmaak

• De inleider en het onderwerp• Digitalisering en de effecten• Documentproductie in stappen• Kleur en profilering• Tekst en encoding• PDF-standaards in gebruik• Zoekmachineoptimalisatie

Page 3: Henk Gianotten - Untitled

Opmerking: 27800 untitled RUG-bestanden!

Page 4: Henk Gianotten - Untitled

Digitalisering en E-volutie

• Alle processen worden gedigitaliseerd• Extreme groei browsertoepassingen• Data applicatie-overschreidend• Tekst- en beeldtransformatie• Vector- en kleurtransformatie• Dwingende en gecontroleerde transfer • Universele zoekstandaards essentieel

Page 5: Henk Gianotten - Untitled

De documentstappen

copy MS-WordExcel e.d.

ODF-of

OXML-document

PDF-of

XPS-bestand

PDF/XDruk-

ofprint

PDF/EEngineer.

+ 3-D

PDF/AArchival

Input

OCR

Quark,InDesign,of TEX-

document

Certifiedof

OptimizedPDF

o.a.:PrintSchermMobileDrukE-mailInternetBrowserIntranetCMSE-bookE-archief

CAD-of

GIS-document

BeeldVector

ofRGB

BeeldVector

ofRGB

KaartOf

Foto

Cameraof

Tablet

Scanner

Page 6: Henk Gianotten - Untitled

Bestanden en tekst

• Tekst als afbeelding • Tekst als outline• 4 soorten letterfonts

• PS of PostScript Type 1 Mac-versie• PS of PostScript Type 1 PC-versie• TT of TrueType• OT of OpenType

• Encoding bepaalt zoekmogelijkheden

Page 7: Henk Gianotten - Untitled

Elk teken kent een ‘encoding’

• Heel vroeger Morse code• Digitaal in PC volgens ASCII (128 tekens)• Daarna ASCII extended (8-bit)• Maximaal 256 codes (pagecodes)• Verschillende indelingen van Mac en PC• Verschil talen en toepassingen bv Central Europe• Vele slechte ‘huisvlijtfonts’ zijn in omloop• Unicode is nu ISO 10646 wereldwijde standaard

Page 8: Henk Gianotten - Untitled

1982: IBM Personal Computer

∎=ISO 646 US

∎=ISO 646 US

Page 9: Henk Gianotten - Untitled
Page 10: Henk Gianotten - Untitled
Page 11: Henk Gianotten - Untitled
Page 12: Henk Gianotten - Untitled

Letter en glyphs

• Letter kent meerdere varianten of glyphs• Gewicht (light/bold) en cursivering als E, E, E en E• Cijfers als tabelcijfer, tekstcijfer e.d. als 1,₁ ① en ¹• Ligaturen met combinaties als æ, ij, fi, fl, ffi en ffl• Zoekmachine ziet de code niet; wij de afdruk wel• Foutieve encoding is niet zichtbaar• Zelfs goedgekeurde PDF’s kunnen foute fonts

bevatten; fout wordt niet vooraf geconstateerd

Page 13: Henk Gianotten - Untitled

Meerdere varianten zelfde letter

Page 14: Henk Gianotten - Untitled

Unicode is basis OpenType

• Codering glyphs U+0001 – U+FFFF (Hex)• We hanteren nu Unicode versie 5.0• Elk teken heeft eigen positie; ook Dingbats• Vrijwel onbeperkt aantal glyphs• Zoekmachine selecteert op charactercode• Font moet juiste tabellen bezitten• HTML, XML en webtoepassingen in Unicode• Browsers in UTF-8, UTF-16, UTF-32 en Unicode

Page 15: Henk Gianotten - Untitled

Typografische mogelijkheden OT

• Kleinkapitalen• Ligaturen• Add. ligaturen• Echte breuken• Kapitaalafhankelijk

• Tabelcijfers• Old Style cijfers

Page 16: Henk Gianotten - Untitled

Unicode/OT zoekroutine

• Unicode codering is belangijk• Foutief encoded fonts hebben verkeerde code• Teken wel zichtbaar in document en op scherm• Ook indien het bewuste font embedded is• Juiste code is soms niet in bestand• Bewuste teken is dan niet te traceren• Zoeksystemen kunnen het ook niet vinden• Vooral oude PS-fonts geven die problemen

Page 17: Henk Gianotten - Untitled
Page 18: Henk Gianotten - Untitled

Euroleed en encoding

De foute eurotekens van Océ zijn zichtbaar maar niet ‘searchable’!

Page 19: Henk Gianotten - Untitled

Kleur en profielen

• Kleurobjecten beschrijft men in RGB• Kleurtemperatuur (lichtkleur) belangrijk• 2 kleuren D50 en D65 (5000° resp. 6500° Kelvin)

zijn als standaard vastgelegd• Kleurtransformatie met behulp van ICC-profielen• Profielinformatie geeft bron of doel weer• Profielen werken 2 kanten uit; daardoor blijft bron-

informatie behouden voor andere output

Page 20: Henk Gianotten - Untitled

Intelligent Separation Model

Additief RGB versus Subtractief CMY

Page 21: Henk Gianotten - Untitled

Kleurruimtetransformatie

Kleurruimtes zijn sterk verschillend; transformatiesmoeten gecontroleerd worden uitgevoerd ⇆ ISM

Page 22: Henk Gianotten - Untitled

Color Management System

Page 23: Henk Gianotten - Untitled

Bestanden ook voor later

• PDF, PDF/X (grafisch) en PDF/E zijn voor productie• X is inclusief procesdata JDF (Job Definition Format)

• PDF/E (Engineering) is ook ISO-standaard• PDF/UA (Universal Access) voor o.a. blinden (iv) • PDF/H (Healthcare) is in voorbereiding (EPD?)• PDF/A is ISO-standaard voor archivering

• Viewers en printers kunnen PDF/A altijd weergeven• PDF/A wordt verplicht bij overheid en bedrijven

• Versie voor tekst en beeld inclusief tagged tekst A-1a• Versie voor beeld zonder zoekdata A-1b

Page 24: Henk Gianotten - Untitled

Untitled en metadata

• Zorg voor de juiste OT-fonts in PDF-bestand• Zoeken op juiste encoding is dan verzekerd

• Zorg dat profielen bij het beeld blijven• Juiste kleur kan dan bij elke uitvoer worden gerealiseerd

• Optimaliseer voor webweergave• Bestandsreductie door juiste resolutie, data en tags

• Vul altijd relevante metadata in de juiste velden in• Zoekmachine zoekt op titel, metadata en inhoud

• ‘Untitled’ verlaagt de ranking en dus het resultaat!

Page 25: Henk Gianotten - Untitled

Opmerking: 287.000 files untitled!

Page 26: Henk Gianotten - Untitled