Henk Gianotten - Untitled

Post on 29-Aug-2014

2.264 views 0 download

Tags:

description

Uitstekende presentatie van Henk Gianotten over de gebrekkige toepassing van metadata in de zakelijke communicatie. Je ziet in de presentatie voorbeelden van grote organisaties die veel 'untitled.doc' document-titels op hun website hebben staan. Probeer dan maar eens iets te vinden.

Transcript of Henk Gianotten - Untitled

INTELLIGENTSEPARATIONCOMPOSITIONMODEL

Henk GianottenBiTe CongresGroningen, 19-02-2009

Untitled en documentaanmaak

• De inleider en het onderwerp• Digitalisering en de effecten• Documentproductie in stappen• Kleur en profilering• Tekst en encoding• PDF-standaards in gebruik• Zoekmachineoptimalisatie

Opmerking: 27800 untitled RUG-bestanden!

Digitalisering en E-volutie

• Alle processen worden gedigitaliseerd• Extreme groei browsertoepassingen• Data applicatie-overschreidend• Tekst- en beeldtransformatie• Vector- en kleurtransformatie• Dwingende en gecontroleerde transfer • Universele zoekstandaards essentieel

De documentstappen

copy MS-WordExcel e.d.

ODF-of

OXML-document

PDF-of

XPS-bestand

PDF/XDruk-

ofprint

PDF/EEngineer.

+ 3-D

PDF/AArchival

Input

OCR

Quark,InDesign,of TEX-

document

Certifiedof

OptimizedPDF

o.a.:PrintSchermMobileDrukE-mailInternetBrowserIntranetCMSE-bookE-archief

CAD-of

GIS-document

BeeldVector

ofRGB

BeeldVector

ofRGB

KaartOf

Foto

Cameraof

Tablet

Scanner

Bestanden en tekst

• Tekst als afbeelding • Tekst als outline• 4 soorten letterfonts

• PS of PostScript Type 1 Mac-versie• PS of PostScript Type 1 PC-versie• TT of TrueType• OT of OpenType

• Encoding bepaalt zoekmogelijkheden

Elk teken kent een ‘encoding’

• Heel vroeger Morse code• Digitaal in PC volgens ASCII (128 tekens)• Daarna ASCII extended (8-bit)• Maximaal 256 codes (pagecodes)• Verschillende indelingen van Mac en PC• Verschil talen en toepassingen bv Central Europe• Vele slechte ‘huisvlijtfonts’ zijn in omloop• Unicode is nu ISO 10646 wereldwijde standaard

1982: IBM Personal Computer

∎=ISO 646 US

∎=ISO 646 US

Letter en glyphs

• Letter kent meerdere varianten of glyphs• Gewicht (light/bold) en cursivering als E, E, E en E• Cijfers als tabelcijfer, tekstcijfer e.d. als 1,₁ ① en ¹• Ligaturen met combinaties als æ, ij, fi, fl, ffi en ffl• Zoekmachine ziet de code niet; wij de afdruk wel• Foutieve encoding is niet zichtbaar• Zelfs goedgekeurde PDF’s kunnen foute fonts

bevatten; fout wordt niet vooraf geconstateerd

Meerdere varianten zelfde letter

Unicode is basis OpenType

• Codering glyphs U+0001 – U+FFFF (Hex)• We hanteren nu Unicode versie 5.0• Elk teken heeft eigen positie; ook Dingbats• Vrijwel onbeperkt aantal glyphs• Zoekmachine selecteert op charactercode• Font moet juiste tabellen bezitten• HTML, XML en webtoepassingen in Unicode• Browsers in UTF-8, UTF-16, UTF-32 en Unicode

Typografische mogelijkheden OT

• Kleinkapitalen• Ligaturen• Add. ligaturen• Echte breuken• Kapitaalafhankelijk

• Tabelcijfers• Old Style cijfers

Unicode/OT zoekroutine

• Unicode codering is belangijk• Foutief encoded fonts hebben verkeerde code• Teken wel zichtbaar in document en op scherm• Ook indien het bewuste font embedded is• Juiste code is soms niet in bestand• Bewuste teken is dan niet te traceren• Zoeksystemen kunnen het ook niet vinden• Vooral oude PS-fonts geven die problemen

Euroleed en encoding

De foute eurotekens van Océ zijn zichtbaar maar niet ‘searchable’!

Kleur en profielen

• Kleurobjecten beschrijft men in RGB• Kleurtemperatuur (lichtkleur) belangrijk• 2 kleuren D50 en D65 (5000° resp. 6500° Kelvin)

zijn als standaard vastgelegd• Kleurtransformatie met behulp van ICC-profielen• Profielinformatie geeft bron of doel weer• Profielen werken 2 kanten uit; daardoor blijft bron-

informatie behouden voor andere output

Intelligent Separation Model

Additief RGB versus Subtractief CMY

Kleurruimtetransformatie

Kleurruimtes zijn sterk verschillend; transformatiesmoeten gecontroleerd worden uitgevoerd ⇆ ISM

Color Management System

Bestanden ook voor later

• PDF, PDF/X (grafisch) en PDF/E zijn voor productie• X is inclusief procesdata JDF (Job Definition Format)

• PDF/E (Engineering) is ook ISO-standaard• PDF/UA (Universal Access) voor o.a. blinden (iv) • PDF/H (Healthcare) is in voorbereiding (EPD?)• PDF/A is ISO-standaard voor archivering

• Viewers en printers kunnen PDF/A altijd weergeven• PDF/A wordt verplicht bij overheid en bedrijven

• Versie voor tekst en beeld inclusief tagged tekst A-1a• Versie voor beeld zonder zoekdata A-1b

Untitled en metadata

• Zorg voor de juiste OT-fonts in PDF-bestand• Zoeken op juiste encoding is dan verzekerd

• Zorg dat profielen bij het beeld blijven• Juiste kleur kan dan bij elke uitvoer worden gerealiseerd

• Optimaliseer voor webweergave• Bestandsreductie door juiste resolutie, data en tags

• Vul altijd relevante metadata in de juiste velden in• Zoekmachine zoekt op titel, metadata en inhoud

• ‘Untitled’ verlaagt de ranking en dus het resultaat!

Opmerking: 287.000 files untitled!