Post on 05-Apr-2015
Detlef ReinekeUniversidad de Las Palmas
de Gran Canaria
MARTIF und TBX Austauschformate für
Terminologie
2. Kölner Tagung “Softwarelokalisierung”
IIM der FH Köln, 11.-12.03.2005
Detlef Reineke 2/27
Übersicht
Vorteile standardisierter Terminologieaustauschformate
Kurzer Rückblick
MARTIF (Machine-readable terminology interchange
format)
TBX (TermBase eXchange Format)
Datenmodellierung und –austausch in Trados MultiTerm
Ausblick
Detlef Reineke 3/27
Vorteile von Austauschstandards Minimierung kostspieliger Redundanzen
Systemunabhängige Erarbeitung und Vertrieb
(Anbieter)
Angebotserweiterung (Kunde)
Konzentration auf Werkzeugoptimierung
10 Formate = 180 Konvertierungen
100 Formate = 19.800 Konvertierungen
1 Update 10 Formate = 540 Konvertierungen
1 Update 100 Formate = 59.400 Konvertierungen
1 Standardaustauschformat = 20 bzw. 200 Konvertierungen
Detlef Reineke 4/27
Kurzer Rückblick
MATER (Magnetic Tape Exchange Format for Terminological/Lexicographical Records = ISO 6156:1986) Standard für Datenaustausch zwischen Großrechnern 9-Spur Magnetband Feste Datenstruktur Integration terminologischer UND lexikographischer
Daten
MicroMATER flexibles Format für den Datenaustausch zwischen
Großrechnern, Rechnern der mittleren Datentechnik und Microcomputern (Datenkategorien und –länge flexible)
Detlef Reineke 5/27
Kurzer Rückblick
TEI (Text Encoding Initiative) Format für Auszeichnung und den Austausch von
Texten Zunächst SGML-basiert (Standard Generalized
Markup Language) inzwischen XML-basiert (eXtensible Markup
Language) TEI.terminology TEI ISO
Detlef Reineke 6/27
MARTIF (ISO 12200:1999)
Machine-readable terminology interchange format
ISO Technical Committee 37 (Terminology - principles and coordination), Sub-Committee 3 (Computer applications for terminology), Working Group 3 (Data interchange)
Text Encoding Initiative (TEI) und LISA (Localisation Industry Standards Association)
SGML (Standard Generalized Markup Language = ISO 8879)
ISO 649 (7-Bit Zeichensatz = 126 Zeichen) ISO 12620 (1999): “Computer applications in
terminology – Data categories”
Detlef Reineke 7/27
MARTIF
Grundstruktur
I. PrologII. Document instance (<martif lang=en>)
A. header (<martifHeader>)B. text
1. front (optional)2. body
a. 1st terminological entry <termEntry>
(minimum of one)b. 2nd terminological entry
<termEntry>c. etc. (additional terminological
entries)3. back (optional) (ISO
12200:25)
Detlef Reineke 8/27
DTD (Document Type Definition)
Definition der Dokumentstruktur (Elemente, Attribute und Beziehungen)
Instrument zur Validierung des MARTIF-Dokuments
I. Prolog
<!DOCTYPE martif PUBLIC “ISO 12200:1999//DTD for MARTIF (framework/ //EN” [
(Definition der Gesamtstruktur: martifHeader, text, front, body, back, …)
<!ENTITY % mtf-body “ISO 12200:1999//DTD for MARTIF (body //EN” >
(Definition der Eintragsstruktur: termEntry, langSet, ntig, termGrp, …)
<!ENTITY % mtf-ents “ISO 12200:1999//ENTITIES for MARTIF (sets //EN” > ] >
(Zeichendefinition)
II. Document instance
…
MARTIF
Detlef Reineke 9/27
DTD (Document Type Definition)
<!ELEMENT text - - (front?, body, back?) >
<!ENTITY % AuxInfo ‘descrip │ descripGrp │
admin │ adminGrp │ ptr
│ ref │ date │ note’ > <!ELEMENT body - -
(termEntry+) >
<!ELEMENT termEntry - - ((%AuxInfo;) *, (langSet │
tig │ ntig) +) >
<!ATTLIST target IDREF #IMPLIED >
MARTIF
Detlef Reineke 10/27
MARTIF
Dokumentinstanz
<martif lang=en><martifHeader>… (Angaben zum gesamten
Datenbestand)</martifHeader><text>
<body>… (terminologische Einträge)</body><back>… (bibliographische Daten)
… (Verweise auf externes Referenzmaterial <xref>)
</back></text>
</martif>(ISO 12200:25)
Detlef Reineke 11/27
MARTIF
Darstellung der Datenkategorien
Obergruppen von Datenkategorien
<termEntry>, <langSet>, <tig> bzw. <ntig>, <termGrp>
<descrip>, <admin>, <termNote>, etc.
tig = term information group, ntig = nested term information group
Instantiierung der Datenkategorien mittels type-Attribut
<descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip>
<termNote type=‘termType’>synonym</termNote>
Detlef Reineke 12/27
Datenkategorien und Datenelemente
subject field: Materialbeschaffenheit
term: Opazität
part of speech: Substantiv
grammatical gender: f
definition: Maß für
Lichtundurchlässigkeit
source: DIN 6370:1996-05, S. 383
MARTIF
Detlef Reineke 13/27
Terminologischer Eintrag
<martif lang=en><martifHeader>… </martifHeader><text><body>
<termEntry id=‘ID0000073578’<descrip type=’subjectField’>Materialbeschaffenheit</descrip><langSet lang=de><ntig><termGrp>
<term>Opazität</term> <termNote type=‘partOfSpeech’>Substantiv</termNote>
<termNote type=‘grammaticalGender’>f</termNote> <descripGrp>
<descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN-6370.1996-
05>S. 383</ref> </descripGrp></ntig></termEntry>
</body></text></martif>
MARTIF
Detlef Reineke 14/27
Terminologischer Eintrag - Querverweis
…<ntig><termGrp><term>Opazität</term> … <descripGrp> <descrip type=‘definition’>Maß für die Lichtundurchlässigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN-6370.1996-05>S. 383</ref> </descripGrp></ntig></termEntry></body><back><refObjectList type=‘bibl’><refObject><item id=‘DIN-6370.1996-05’><xref target=‘c:\bibl\normen\DIN-6370\DIN-6370-1996-05.doc</xref></item></refObject></refObjectList></text></martif>
MARTIF
Detlef Reineke 15/27
MARTIF
“Blind interchange” (Teil 2)
Verlustfreier Austausch terminologischer Daten ohne Absprache
Umstellung auf XML (Unicode, Darstellung in HTML-Umgebung)
Eindeutige Untermenge an Datenkategorien und Inhalten (ISO 12620)
XML-Parser und Validierungswerkzeug für Überprüfung der Datenkategorie-Inhalte
negotiated interchange blind interchange
noun, n., sub, Substantiv n
Detlef Reineke 16/27
TBX
TermBase eXchange Format
OSCAR-Gruppe (Open Standards for Container/Content Allowing Re-user group) der LISA (Localisation Industry Standards Assocation)
SALT-Projekt (Standards-based Access Service to Multilingual Lexicons and Terminologies)
ISO 16642 (2003): “Computer applications in terminology – Terminological markup framework (TMF)” - Regeln für die Spezifikation terminologischer Markup-Sprachen (TML)
MSC (MARTIF with Specified Constraints) = Blind MARTIF
Detlef Reineke 17/27
TBX
Metamodell (ISO 16642:18)
Terminological Data Collection (TDC)
Global Information (GI) Complementary Information (CI)
Terminological Entry (TE)
Language Section (LS)
Term Section (TS)
Term Component Section (TCS)
*
*
*
*
Detlef Reineke 18/27
TBX
Angaben zum Gesamtbestand der terminologischen Datenbank
<?xml version='1.0'?>
<!DOCTYPE martif SYSTEM "./TBXcoreStructureDTD-v-1-0.DTD">
<martif type='TBX' xml:lang='en' >
<martifHeader>…
</martifHeader>
<text> <body> ...
? = kann max. einmal vorkommen
+ = kommt min. einmal vor
(LISA 2002:11)
Detlef Reineke 19/27
TBX
Eintragsebene
? = kann max. einmal vorkommen
+ = kommt min. einmal vor
(LISA 2002:12)
Detlef Reineke 20/27
TBX
Terminologischer Eintrag
<?xml version='1.0'?><!DOCTYPE martif SYSTEM "./TBXcoreStructureDTD-v-1-0.DTD"><martif type='TBX' xml:lang='en' >
<martifHeader>…</martifHeader><text><body><termEntry id=‘ID0000073578’<descrip type=’subjectField’>Materialbeschaffenheit</descrip><langSet lang=de><ntig><termGrp> <term>Opazität</term> <termNote type=‘partOfSpeech’>Substantiv</termNote> <termNote type=‘grammaticalGender’>f</termNote> <descripGrp> <descrip type=‘definition’>Maß für die
Lichtundurchlässigkeit</descrip> <ref type=‘sourceIdentifier’ target=‘DIN-6370.1996-05>S. 383</ref> </descripGrp></ntig></termEntry></body></text></martif>
Detlef Reineke 21/27
TBX
DTD
Rudimentäre Typendefinition
Keine XML-Auszeichnung
Keine Definition von Namensräumen möglich
Keine Definition fester Wertemengen von Datenkategorien möglich
Empfehlung: XML Schema
Detlef Reineke 22/27
Trados MultiTerm
≦ MultiTerm 5.5
**<Subject field>Materialbeschaffenheit<de>Opazität<Part of speech>Substantiv<Grammatical gender>f<Definition>Maß für die Lichtundurchlässigkeit<Source> ^DIN 6370:1996-05^, S. 383
…<en> Opacity
Detlef Reineke 23/27
Trados MultiTerm
≦ MultiTerm 5.5
Flach strukturiertes Exportformat
Keine Zuordnung zu Metamodell bzw. Metadatenkategorien
Beziehungen zwischen den Datenkategorien nicht explizit
Sprach- (langSet) und Termkomponentenebene (termCompList) nicht adäquat darstellbar
Eingeschränkte Zuordnungsmöglichkeit von Attributfeldern
Umständliche Konvertierung über Exportschnittstelle bzw. Zwischenformat
Detlef Reineke 24/27
Trados MultiTerm
MultiTerm iX
<?xml version="1.0" encoding="UTF-16" ?>- <mtf>- <conceptGrp>… - <descripGrp> <descrip type=“subject
field”>Materialbeschaffenheit</descrip> <descripGrp> - <languageGrp> <language type=“Deutsch”/> - <termGrp> <term>Opazität</term>- <descripGrp> <descrip type=“part of speech”>Substantiv</descrip> <descripGrp>- <descripGrp> <descrip type=“grammatical gender”>f</descrip> <descripGrp>…
Detlef Reineke 25/27
Trados MultiTerm
MultiTerm iX
Detlef Reineke 26/27
Metadatenkategorien
TBX vs. MultiTerm iX
MultiTerm iX TBX
<language>
<conceptGrp>
<mtf> <martif>
<termEntry>
<langSet>
<descrip>*
<languageGrp> nicht vorhanden
<termNote>*
* Bezeichnungsebene
nicht vorhanden <ntig>, <tig>
Detlef Reineke 27/27
Fazit
Geringe Implementierung TBX vs. Akzeptanz XLIFF/TMX
TBX-ähnliches Format bisher nur in Trados MultiTerm iX,
SGML-basiertes Format in STAR Termbase
Schnittstellen zu OLIF2, TMX, XLIFF
Offene Detaills (z.B. Standardzeichenkodierung,
Binärdateien)
Feinere Datenkategorien (ISO 12620)
Umstellung auf Standardformate erfordert Zeit, Geld
und Fachwissen
Anpassung der Hochschulstudiengänge (Bologna-
Erklärung)
Dr. Detlef ReinekeUniversidad de Las Palmas de Gran CanariaFacultad de Traducción e InterpretaciónC/ Pérez del Toro, 135003 Las Palmas de Gran Canariawww.personales.ulpgc.es/dreineke/dfm
dreineke@dfm.ulpgc.es
Vielen Dank für Ihre Aufmerksamkeit.