Indexation Parole / Musique / Bruit
Julien PINQUIER
Responsables de stage : Régine André-Obrecht et Christine Sénac
Equipe ART.ps
Institut de Recherche en Informatique de Toulouse
Soutenance DEA 2IL - 27 juin 2001
2Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Plan
Cadre de l’étude
Etat de l’art
Le système
Réalisations et expériences
Conclusion et perspectives
3Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Plan
Cadre de l’étude
Etat de l’art
Le système
Réalisations et expériences
Conclusion et perspectives
4Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Cadre de l’étude
Importance de l’indexation
Accroissement du volume des données numériquesDescription du contenu (« norme »
ISO_MPEG7)
Analogie avec la recherche textuelle
Méthodes actuelles d’indexation : manuelles
Réduire le temps de recherche
Bande sonore souvent très complexeDiscrimination entre parole et musique
5Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Signaturesmultimédia
Application et
validation
Signatures images
Signatures vidéo
Signatures texte
Signatures son
Moteur d’indexation
et de recherche
Signatures son
Documentsmultimédia
Cadre de l’étude
Le Projet de recherche : AGIR (RNRT)
Le sujet de DEA Caractérisation : Parole / Musique Un système d’indexation basé sur la modélisation différenciée Approche statistique (Modèles de Mélanges de lois Gaussiennes)
6Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Plan
Cadre de l’étude
Etat de l’art
Le système
Réalisations et expériences
Conclusion et perspectives
7Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Etat de l’art
Parole Structure formantique [Calliope89] Formants = Fréquences de résonance du conduit vocal
Formants
8Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Etat de l’art
Musique Structure harmonique
Harmoniques
9Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Etat de l ’art
Paramètres Temporels : ZCR et Energie [Saunders96], [Scheirer97] et [Zhang98] Fréquentiels : issus de la DSP [Saunders96] et [Scheirer97] Mixtes : modulation de l’énergie à 4 Hz [Scheirer97]
représente le rythme syllabique
Issus de modélisation : MFCC [Foote97]
Classification Fonctions à seuils Approche statistique
Méthodes paramétriques : mélanges de gaussiennes, MMC
Méthodes non paramétriques : k plus proches voisins...
Réseaux de neurones
musique
parole
10Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Plan
Cadre de l’étude
Etat de l’art
Le système
Réalisations et expériences
Conclusion et perspectives
11Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Le système
Pré traitement
Signal DécisionClassification
Modélisation Différenciée 1 classe = {Espace de représentation, Modèle}
Décomposition Parole / Musique
Description du système
2 systèmes : parole et musique
12Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Le pré traitement
Parole : analyse cepstrale MFCC (18 coefficients par vecteur d’observation) Soustraction cepstrale
Musique : analyse spectrale SPL (29 coefficients par vecteur d’observation)
Accentuation Fenêtrage FFT Filtrage+Mel Log FFT -1
CoefficientsSignal
Cepstraux
Accentuation Fenêtrage FFT FiltrageCoefficientsSignal
Spectraux
13Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Reconnaissance
Méthode de classification
Approche statistiqueClasse
2 modèles
NonClasse
MMG
Maximum de vraisemblance (vecteur observation - modèles)
14Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
La reconnaissance
Classification Fenêtre d’analyse (256 ou 512 points)
Exemple de classification Parole / NonParole
15Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
La reconnaissance
Assemblage
16Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
La reconnaissance
1er Lissage (20 ms)
17Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
La reconnaissance
2ème Lissage (indexation) Parole (environ 400 ms) et musique (environ 2 s)
18Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
La reconnaissance
19Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Le système
Pré traitement
Signal DécisionClassification
Modèles
Apprentissage
20Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
L’apprentissage des MMG (supervisé)
Etiquetage manuel Transcriber (C. Barras)
http://www.etca.fr/CTA/gip/Projets/Transcriber/
Affectation des paramètres 3 fichiers labels fichiers de paramètres
21Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
L’apprentissage des GMM
Initialisation des modèles : algorithme VQ Représenter les éléments d’une classe par son centroïde
Optimisation des paramètres : algorithme EM Estimation : calcul des probabilités Pnk que le vecteur yn soit généré par
la loi gaussienne k.
Maximisation : Ré-estimation des paramètres k, mk et k à partir des probabilités Pnk
K
kknk
tkn
kd
k
knkt
kn
kd
k
nk
mymy
mymy
P
1''
1''2/1
'2/
'
12/12/
)()(21
exp)2(
)()(21
exp)2(
22Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
L’apprentissage des GMM
Pré traitementSignal
Coeff. Cepstraux
18
Etiquetage manuel (parole)
Affectation
Paramètres indicés
(Parole)Paramètres
indicés
(NonParole)
VQ EM
VQ EM
Parole
NonParole
Affectation
Paramètres indicés
(Musique)Paramètres
indicés
(NonMusique)
VQ EM
VQ EM
Musique
NonMusique
29
Coeff. spectraux
MODELES
16 lois gaussiennes
32 lois gaussiennes
Etiquetage manuel (musique)
23Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Plan
Cadre de l’étude
Etat de l’art
Le système
Réalisations et expériences
Conclusion et perspectives
24Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Réalisations et expériences
Première expérience Corpus : épisode de la série « Chapeau Melon et Bottes de Cuir »
durée totale : 50mncomposition : parole pure, musique pure et zones « mixtes »parole : téléphonique, enregistrements extérieurs, foule, poursuites de voitures…musique : cordes, vents, basses, guitare électrique, batterie …locuteurs : 4 hommes + 1 femme
Apprentissagedurée : 35mncomposante parole : zone parole pure + non parolecomposante musique : zone musique pure + non musique
Reconnaissance15mn différentes de celles de l’apprentissage
25Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Réalisations et expériences
291 segments < 20 cs < 40 cs < 100 cs Omissions InsertionsParole 14 54NonParole
250 9 612 7
80 segments < 20 cs < 40 cs < 100 cs < 220 cs Omissions InsertionsMusique 0 20NonMusique
73 3 4 00 16
L’accuracy est de 95 % pour la parole et de 93 % pour la musique.
86 %
91 %
RésultatsCalcul des délais (frontières automatiques / manuelles)
Omissions et insertions
Calcul de l’accuracy : (durée corpus test - durée insertions - durée omissions ) / durée corpus test .
26Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Réalisations et expériences
Exemple d’indexation automatique
Problème la parole superposée au bruit et / ou à la musique
Délai 70 cs
Lissage
Omission
27Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Réalisations et expériences
Deuxième expérience Corpus
Journaux télévisés sportifs : 34mn environ
Apprentissage : 14mn
Reconnaissance : 20mn
< 20 cs < 40 cs < 100 cs Omissions InsertionsParole 1 4NonParole
446 13 50 0
Résultats (465 segments)
96 %
L’accuracy est excellente : 99,5 %.
Evolution nécessaire adapter les modèles à n’importe quelle source
apprentissage volumineux et diversifié
28Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Plan
Cadre de l’étude
Etat de l’art
Le système
Réalisations et expériences
Conclusion et perspectives
29Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Conclusion et perspectives
Conclusion Résultats excellents, validation de la modélisation différenciée Intérêt du stage : de la recherche à l’intégration
Perspectives Adaptation des modèles à des corpus différents Indexation multimédia basée sur la fusion audio / vidéo Reconnaissance du locuteur Détection mots clés, jingles
Top Related