Décomposition des manuscrits anciens en traits
Construction des codes book basée sur la coloration de graphes
Hani DAHER – LIRISVeronique EGLIN-LIRISNicole VINCENT-LIPADE
Stephane Bres-LIRISDjamel GACEB-LIRIS
PLAN Contexte
Caractérisation: Squelettisation
Extraction et Sélection des Descripteurs
Classification en tables de similarités « codebooks »
Résultats et application
Conclusion
2
PROJET GRAPHEM
Projet Graphem: « Graphem based Retrieval and Analysis for PaleograpHic Expertise of Middle Age manuscripts ».
Projet pluridisciplinaire: IRHT, École des Chartes, LIFO Orléans, LIPADE Paris V, LIRIS
Objectifs: Faire progresser la compréhension de l’évolution des formes de
l’écriture pour la Paléographie Créer des méthodes efficaces d’accès au contenu des manuscrits
(Word-Spotting, Word-Retrievial).
3
contexte
TYPE DE MANUSCRITS
4
Contexte
751 10ème siècle
Epoque Carolingienne
Epoque Gothique
13ème siècle 15ème siècle
RenaissanceEpoque Mérovingienne
QUALITÉ DES MANUSCRITS
5
Contexte
Vieillissement de l’encre et papier
Enchevêtrement des lignes
Ecriture à la marge et/ou entre les lignes
ORDRE DES TRAITS & DENSITÉ DE L’ENCRE
6
Contexte
• De gauche à droite
• Le premier trait est situé à gauche et puis les autre traits le suivent
• Recherche de l’ordre des traits à partir de la densité de l’encre
• Détermination des poser et lever de calames:• Au début du trait la densité
d'encre est importante • au cours du tracé la densité
devient moins importante• à la fin du trait la densité d'encre
la plus élevée
RELATION: ÉPAISSEUR ET DÉCOMPOSITION DES TRAITS
Contexte
1. Traits noires:• Entre -135° et 60°• Obéissent à la règle générale
2. Traits pointillés• Frontière entre les traits obéissent et non
obéissent à la règle.3. Traits rouges (Région hachuré):
• Traits qui n’obéissent pas à la règle générale
Possibilité de déterminer la direction des traits. difficulté de connaître la position de la plume au cours
de la formation du tracé. possibilité de connaître la position du bout de la
plume sur le support
OBJECTIFS ET CONTRIBUTIONS
Aide des paléographes au: Classement des manuscrits en familles de style. Reconnaissance des manuscrits Développement des méthodes de recherche d’occurrence de
mots « word spotting »
Notre contribution: Décomposition des manuscrits en traits Sélection des descripteurs compréhensibles pour les deux
domaines informatiques et paléographiques. Constructions des tables de similarités « code-book » à partir
des traits Calcul de la Similarité entre les code-books pour la
classification Utilisation des code-books pour la recherche des occurrences
des mots dans les manuscrits
8
Contexte
PLAN Contexte
Caractérisation: Squelettisation
Extraction et Sélection des Descripteurs
Classification en tables de similarités « codebooks »
Résultats et application
Conclusion
9
SUIVI DU TRACÉ ET DÉTECTION DE L’AXE MÉDIAN
10
Caractérisation: Squelettisation
(b)
Méthode:• S’appliquer directement sur l’image en niveaux
de gris• Offrir une robustesse aux dégradations
On a aussi constaté :• Des ressemblances morphologiques entre
vaisseaux sanguins et traits manuscrits
(a)
SUIVI DU TRACÉ ET DÉTECTION DE L’AXE MÉDIAN
11
Etape 3: Extraction de l’axe médian (Xu).1. Rayon: carte des
distances.2. Diffusion: meilleure
représentation des traits
Fusion de diffusion et T.D
Caractérisation: Squelettisation
Image
Etape 1:• Mise en
évidence du tracé
• Lissage
Etape 2:• Carte de
distance
• Diffusion
ETAPE 1: APPROCHE DE SÉPARATION FOND-FORME
12
Caractérisation: Squelettisation
Application de la méthode de (Frangi,1998): Directement sur l’image en niveau de gris I(x) pour mettre en évidence le
tracé par rapport au fond. La nouvelle image subit un lissage gaussien pour enlever les discontinuités,
trous, bruits et déformations.
ETAPE 2: SQUELETTISATION PAR DIFFUSION
Application de la transformé en distance sur F pour: Déterminer automatiquement le rayon « distance par rapport au point
contour le plus proche) de chaque point du tracé. Bonne adaptation au changement d’épaisseur des traits.
Squelettisation par régularisation du gradient et diffusion( LeBourgeois,2007)
13
Caractérisation: Squelettisation
ETAPE 3: DÉTECTION DE L’AXE MÉDIAN Principe de suivi du tracé.
14
Caractérisation: Squelettisation
• Détection automatique des points de départ.• Points rouges au début de
chaque trait.• Ces points représentent le
départ pour les suivi des traits.
DÉCOUPAGE DU MANUSCRIT EN GRAPHÈMESLes trois points particuliers de découpage:
16
Caractérisation: Décomposition des manuscrits en graphèmes
Minimum local dans l’épaisseur du segment
Croisement de segments
« Voie sans issue »
(a)
0 2 4 6 8 10 12 14 16 18 201.5
2
2.5
3
3.5
4
4.5
5
5.5
6
6.5
points
épa
isse
ur
0 2 4 6 8 10 12 14 161
1.5
2
2.5
3
3.5
4
4.5
points
épa
isse
ur
Lettre « O »
(b)
Lettre « C »
Points de découpage
ILLUSTRATION: MINIMUM LOCAL
17
Caractérisation: Décomposition des manuscrits en graphèmes
ILLUSTRATION: CROISEMENTS ET CAS D’ERREUR
18
Caractérisation: Décomposition des manuscrits en graphèmes
PLAN Contexte
Caractérisation: Squelettisation
Extraction et Sélection des Descripteurs
Classification en tables de similarités « codebooks »
Résultats et application
Conclusion
19
EXTRACTION DES CARACTÉRISTIQUES
20
Extraction et Sélection des Descripteurs
Descripteurs Intérêt
Hauteur •Connaitre les style d’écriture et la plume utiliséeLargeur
Inclinaison •Connaitre l’inclinaison du graphème et la formation du trait
Excentricité •Connaitre La forme du graphème
Densité globale (Surface) •Connaitre La place que le graphème occupe dans le manuscrit
Périmètre •la longueur de la ligne qui délimite le contour d’un objet.
Rapport: longueur/largeur •rapport entre la mesure de longueur du graphème et la mesure de hauteur,
Compacité : périmètre / Surface •invariable par rapport à la taille de l’objet. Il est minimum dans le cas d’un disque
EXTRACTION DES CARACTÉRISTIQUES
21
Extraction et Sélection des Descripteurs
Descripteurs Intérêt
Les 9 densités • Division de l’image en 9 Régions, et calcul de la surface pour chacune d’eux
Les 8 orientations • Les 8 orientation préférentielles calculées à partir du gradient.
25 Moments de Zernike • Invariants à la rotation et à l’échelle, après normalisation du graphème binaire par le moment du premier ordre (surface du graphème)
CONSTRUCTION DU CODEBOOK
22
Par coloration de graphes(Gaceb et Eglin,2008) appliquée aux graphèmes caractérisés
3 Couleurs = 3 classes de graphèmes
1
7
35 4
2
6
1
7
35 4
2
6
12
3
45
67
Image de manuscrit
a) Découpage en graphèmes
b) Modélisation en graphe(graphème = sommet)
c) Coloration de graphe
d) Construction de code book
1 3 75
2 6
4
• Descripteurs Sélectionnés
• Seuil
Extraction et Sélection des Descripteurs
• Descripteurs Sélectionnés
• Seuil
• Application optimisation d’un seuil de similarité
sDs
1
1
),(
Nc
k
k
j
k
iks vvgD
COMPARAISON DES CODEBOOKS
Reconnaissance du style des manuscrits à partir des code books:
23
)(pj
cb )(pk
cb )(pn
cb
)(),( ni pcbpcbDp )(),( ji pcbpcbDp )(),( ki pcbpcbDp
)(pi
cb
Extraction et Sélection des Descripteurs
PLAN Contexte
Caractérisation: Squelettisation
Extraction et Sélection des Descripteurs
Classification en tables de similarités « codebooks »
Résultats et application
Conclusion
24
EXTRAITS DE LA BASE DE TEST 10000 traits à partir de 20 pages de manuscrits du Moyen-âge (IRHT),
300 images à ce jour.
25
Résultats et application
COMPARAISON DES CODEBOOKS
Extrait: distances d entre les 12 pages
Evaluation avec vérité de terrain sur une base de données de 300 manuscrits.(en cours 10000 images)
La vérité terrain est établie par l’expertise des paléographes <<<<Bouton>>>>
26
1 2 3 4 5 6 7 8 9 10 11 121 02 0.7145 03 0.391 0.459 04 0.3063 0.679 0.3464 05 0.1559 0.596 0.3353 0.2483 06 0.5464 0.391 0.7943 0.5372 0.4591 07 0.127 0.422 0.3173 0.3419 0.1755 0.3867 08 0.4871 0.448 0.8065 0.5029 0.5351 0.5487 0.2362 09 0.7056 0.231 0.8526 0.7685 0.6276 0.4637 0.4141 0.7529 0
10 0.8062 0.206 0.728 0.6466 0.6261 0.4637 0.1435 0.7122 0.153 011 0.3437 0.597 0.2586 0.1511 0.2446 0.1863 0.208 0.3852 0.555 0.5772 012 0.3413 0.603 0.3659 0.1331 0.2381 0.3868 0.1741 0.3883 0.589 0.6152 0.2295 0
p1
p5
p9
Page 7 Page 1
Page 2 Page 10
Résultats et application
d=0.127
d=0.206
PLAN Contexte
Caractérisation: Squelettisation
Extraction et Sélection des Descripteurs
Classification en tables de similarités « codebooks »
Résultats et application
Conclusion
27
CONCLUSION
Nouvelle méthode de découpage de manuscrits en graphèmes.
Construction d’un code book robuste en utilisant la coloration de graphes.
Création d’un prototype expérimental à l’usage des experts paléographes du projet GRAPHEM.
Word spotting (en cours)
28
Merci de votre attention
Top Related