Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A...
-
Upload
johanne-gobert -
Category
Documents
-
view
103 -
download
0
Transcript of Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A...
![Page 1: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/1.jpg)
Comment vous servir de la force de vos balisages XML-TEI
http://xaira.sf.net
XMLAwareIndexing &RetrievalArchitecture
![Page 2: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/2.jpg)
Pourquoi numériser un texte?
Pour enrichir un texte ou pour le remplacer?
Pour aider la recherche, la formation, ou l'enseignement?
Pour quel public? Pour faire
quelque chose de nouveau?
des choses anciennes d'une manière plus
efficace?
![Page 3: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/3.jpg)
Du point de vue académique, la numérisation offre…
L'intégration des ressources diverses textes, commentaires, sources, variations… multimédia, manuscrits, transcriptions, metadata…
La préservation des ressources les média s'envolent, les données restent "multiplication beyond the reach of accident"
Un vaste élargissement d'accessibilité des ressources Quantitative et qualitatitive
![Page 4: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/4.jpg)
Du point de vue informatique, la numérisation offre…
toute une gamme de problèmes techniques
une raison d’ être: la conservation du patrimoine et de la culture contemporaine
des outils bien compris et pratiques la semiotique le linguistique l'encodage
![Page 5: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/5.jpg)
Xaira: motivation recherches intelligentes dans les textes
XML
axées sur la linguistique
fondées sur des technologies puissantes telles unicode web object oriented
![Page 6: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/6.jpg)
“intelligentes”?
appui sur l'encodage XML recherches delimitées création des sous-corpus présentation user-defined
![Page 7: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/7.jpg)
et la linguistique?
chaines de caractères signifiantes
concordance KWIC classique
collocations statistiques
on s'interesse plus à l'exploration des patterns d'usage qu'aux sujets traités
on s'interesse aux metadonnées associées
![Page 8: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/8.jpg)
concordance classique Defamiliarizes and decontextualizes the
components of a text Facilitates analysis of
Lexis, syntax, and lexical patterns Co-occurrence, collocation, colligation
Informed by metadata categorization and acculated interpretation
A way of reading a text in its context as a means of discovering its primings
![Page 9: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/9.jpg)
for example, “getting over”...
![Page 10: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/10.jpg)
de SARA a XAIRA… SARA (SGML-Aware Retrieval Application) etait
un outil specifique au British National Corpus XAIRA (XML-Aware Indexing and Retrieval
Architecture) est une boite a outils Open Source server, indexer, protocol Logiciels clients Windows/PHP A telecharger http://www. xaira.org ou
http://xaira.sf.net
Tout corpus XML: n'importe la taille, n'importe la langue
![Page 11: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/11.jpg)
D'abord, il faut un corpus…
un ensemble de documents XML bien-formés schéma facultatif – mais si présent enforce TEI encodage facultatif – mais fortement conseillé!
capabilites liés au balisage mais n'impose pas de système
![Page 12: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/12.jpg)
Ensuite, on construit des indexes
indexer: plateforme independent utilité rassemble et valide les fichiers du corpus construit les indexes informations stockées dans un corpus
Header utilisation de balises où trouver les clés comment construire les références descriptions balises, polices, etc...
xairatools: Windows utilité avec un “wizard”
![Page 13: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/13.jpg)
comment baliser des propriétés linguistiques?
... little fishes ....
.. <w pos=”NPL” lemma=”fish”>fishes</w>
<w> <pos>NPL</pos> <lemma>fish</lemma> <form>fishes</form></w>
.. <w pos=”NPL” lemma=”fish” form=”fishes”/>
![Page 14: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/14.jpg)
What goes in the index?
tokenization implicit, following Unicode rules (locale-sensitive) explicit, following mark up supports lexical features (eg collocation)
lemmatization and POS tags special case of "additional key" mechanism generalized to provide fast context-specific
searches
tag indexes attribute values and codebooks
![Page 15: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/15.jpg)
viva Unicode!
tout est stocké en Unicode ce qui evite un tas d'ennuis (pe, la tokenization,
case-folding, line-breaking, character normalization, glyph composition)
restent quelques inconvénients pour visualiser, il faut une police Unicode pour saisir, il faut un clavier approprie (mais c'est pareil pour tous)
pour les exigeants, on peut modifier les regles Unicode…
![Page 16: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/16.jpg)
![Page 17: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/17.jpg)
Target queries What is the most frequent noun in this corpus? Find a random sample of 100 instances of "fish"
followed by "chips" within 4 words Find sentences beginning with a conjunction. Show all inflected forms of the name "Winston". Show sentences which begin with "well" and end with
a question mark. How often and in what contexts is the word "nature"
used in different kinds of writing? Which verbs collocate significantly with "bosom" at
different periods of history? Do men use colour vocabulary differently from
women?
![Page 18: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/18.jpg)
Plusieurs interfaces
Xairo est un Object Model accessible a plusieurs niveaux directement, d'un langue “haut niveau”, tel C#, java, php
via SOAP en “service web”
via XMLRPC
Toute interrogation s'exprime dans un langue d'enquete XML (CQL2)
![Page 19: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/19.jpg)
![Page 20: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/20.jpg)
Corpus Query Language Simple XML vocabulary for searching
word, punctuation mark, substring word + secondary keys (e.g. POS) XML start- or end-tag, plus attributes Unicode-compliant regular expressions
Facilities include usual Boolean operations sequence, disjunction, join negation, gaps scoped searching
Special lexical features
![Page 21: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/21.jpg)
CQL2 more formally
CQL is a pattern matching language
Returns manipulable streams of matching locations in a corpus
CQL query components simple: <form>, <addKey>, <lemma>,
<element>, <pattern> complex: <seq>, <and>, <or>
matching may be literal or regexp
![Page 22: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/22.jpg)
par exemple
<form>fish</form>
retourne les locations de ce forme
<lemma scheme=”x”>fish</lemma>
retourne les locations des formes lemmatisés fish dans la schema X
<addKey name=”POS”>VB</addKey>
retourne les locations des formes ayant un clé POS de valeur VB
![Page 23: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/23.jpg)
Element vs pattern queries -1
element query recherche occurrences d'un element
independemment de sa location limitations exprimées par valeurs attributs
pattern query recherche n'importe quoi dans un context
spécifié avec Xpath
![Page 24: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/24.jpg)
Element vs pattern queries -2
<pattern match=”book[@n=Acts]”><form>Paul</form></pattern>
<element name=”book”> <attribute name=”n”>acts</attribute></element>
<element name=”book”> <attribute name=”n”>acts</attribute></element>
![Page 25: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/25.jpg)
combinations -1
<seq>: sequence ordonnée (potentiellement avec <gap>s)
<seq> <form>fish</form> <gap max=”2”/> <form>chips</form></seq>
![Page 26: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/26.jpg)
combinations -2
<and>: operateur d'union
<or>: operateur de disjonction
<or><seq><gap/><form>fish</form></seq><seq><gap/><form>chips</form></seq></or>
<and> <form>fish</form> <addkey name=”pos”>VERB</addkey></and>
![Page 27: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/27.jpg)
on cache tout cela derriere un logiciel client biensur...Word and lemma query
User-configurable display plain, XML, user-defined stylesheets
Texts, Results, Browse windows
Results can be exported in XML
“visual interface” for complex queries
![Page 28: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/28.jpg)
example word query
![Page 29: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/29.jpg)
Sample stylesheet display
![Page 30: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/30.jpg)
Building complex queriesvisual interface
scope node defines where to look an XML element by span
query nodes define what to look for word, phrase, addkey, pattern, XML
link types define sequence in which query node targets should occur next, one-way, two-way
![Page 31: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/31.jpg)
Sentences beginning with conjunctions
![Page 32: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/32.jpg)
What is XAIRA's niche? Web search engines
patchy and unknowable coverage designed to recover content, not word forms hard to cite, harder to process
XML display engines expensive, geared to reader not searcher focus on presentation rather than content
As a back end for your next generation web application
![Page 33: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/33.jpg)
Interfaces available now Full-featured Windows client
can be run standalone or as interface to Windows, Unix, or Mac OSX server
includes simple corpus building utility
Cross-platform SOAP interface Simple PHP and Java clients Server and indexer
Xpath engine
![Page 34: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/34.jpg)
Using Xaira as a back end
PHP interface supports all calls to the Xaira object model suitable for any web programmer platform independent
For example...
![Page 35: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/35.jpg)
![Page 36: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/36.jpg)
![Page 37: Comment vous servir de la force de vos balisages XML-TEI X ML A ware I ndexing & R etrieval A rchitecture.](https://reader036.fdocument.pub/reader036/viewer/2022081518/551d9db6497959293b8dae57/html5/thumbnails/37.jpg)
Frequently Asked Questions
est-ce que ça marche sur Mac?est-ce que ça marche avec toute sorte
de balisage?ça coute combien?
où est la doc?
....?