Master « ATSI » Estimation de fréquences fondamentales ...
Transcript of Master « ATSI » Estimation de fréquences fondamentales ...
![Page 1: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/1.jpg)
Master « ATSI »
Estimation de fréquences fondamentales
multiples
Gaël RICHARD TELECOM ParisTech Département Image, Données, Signal (IDS)
Mars 2017
Merci à Roland Badeau pour un certain nombre de transparents
« Licence de droits d'usage"
http://formation.enst.fr/licences/pedago_sans.html
![Page 2: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/2.jpg)
2 Gaël RICHARD
Détection de fréquence(s) fondamentale(s)
![Page 3: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/3.jpg)
3 Gaël RICHARD
Contenu
Introduction
• Sons quasi-périodiques
• Modèle de son quasi-périodique
Méthodes temporelles
Méthodes spectrales
Extension à la détection de fréquences fondamentales
multiples
![Page 4: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/4.jpg)
4 Gaël RICHARD
Un son quasi-périodique
T0
F0=1/T0
![Page 5: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/5.jpg)
5 Gaël RICHARD
Modèle de signal
• est la fréquence fondamentale réduite
• H est le nombre d’harmoniques du signal
• Les amplitudes {Ak} sont des réels > 0
• Les phases {k} sont des v.a. indépendantes de loi uniforme sur [0, 2 [
• w est un bruit blanc centré de variance 2, indépendant des phases {
k}
• x(n) est un processeur SSL centré d’autocovariance
![Page 6: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/6.jpg)
6 Gaël RICHARD
Méthodes temporelles
Autocovariance biaisée
![Page 7: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/7.jpg)
7 Gaël RICHARD
Méthodes temporelles
Autocovariance non biaisée
![Page 8: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/8.jpg)
8 Gaël RICHARD
Méthodes temporelles
Autocorrélation
![Page 9: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/9.jpg)
9 Gaël RICHARD
Average square difference function
(ASDF)
![Page 10: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/10.jpg)
10 Gaël RICHARD
Average square difference function
(ASDF)
• La période T0 peut être estimée en recherchant le minimum de l’écart
quadratique entre les signaux x[n] et x[n+m] :
![Page 11: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/11.jpg)
11 Gaël RICHARD
Average magnitude difference function
(AMDF)
![Page 12: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/12.jpg)
12 Gaël RICHARD
Un algorithme temporel performant: Yin (merci à V. Emiya pour quelques transparents)
H. Kawahara A. de Cheveigné, YIN, a fundamental frequency estimator for
speech and music,, JASA, 111(4), 2002
Point de départ: Méthode de l’Autocorrélation (ACF)
Améliorations successives:
• Utilisation de l’ASDF
• Normalisation
• Seuillage
• Interpolation
• Minimisation locale en temps
![Page 13: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/13.jpg)
13 Gaël RICHARD
YIN (2)
ASDF utilisée:
Liens avec l’Autocorrélation
Gain net car l’ASDF est beaucoup moins sensible aux
variations des amplitudes relatives que l’ACF (qui est
sensible, par exemple, à l’accentuation des partiels d’ordre
pair)
![Page 14: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/14.jpg)
14 Gaël RICHARD
YIN (3)
Normalisation par la « moyenne cumulée »
Gain net car permet d’éviter les erreurs pour les F0 élevées
(suppression du lobe en 0)
0 0.005 0.01 0.015 0.02 0.025 0.030
200
400
(s)
dt()
norm. curve
0 0.005 0.01 0.015 0.02 0.025 0.030
1
2
3d'
t()
![Page 15: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/15.jpg)
15 Gaël RICHARD
YIN (4)
Seuillage absolu
• La plus petite période inférieure au seuil est choisie
• Si aucune période n’est inférieure au seuil, alors le minimum global est
choisi
0 0.005 0.01 0.015 0.02 0.025 0.030
0.5
1
1.5
2
(s)
d't()
seuil
premier min
![Page 16: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/16.jpg)
16 Gaël RICHARD
YIN (4)
Interpolation parabolique autour du minimum
6.4 6.45 6.5 6.55
x 10-3
0
2
4
6
8
10
(s)
dt()
Pts à interpoler
interpolation
minimum
Réalisée sur dn(m) (i.e
avant normalisation)
Gain en précision sur la
valeur de F0
![Page 17: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/17.jpg)
17 Gaël RICHARD
YIN (5)
Minimisation locale en temps
• Période estimée:
• Minimisation autour du temps T: avec
Gain en cas de fluctuations sur certains signaux; correspond
à un effet de lissage (rappel l’effet du filtre médian ou
programmation dynamique).
![Page 18: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/18.jpg)
18 Gaël RICHARD
YIN: Evaluation
• Sur quatre bases de données de parole, annotées automatiquement
(par YIN, à partir du laryngographe) puis vérifiées et triées à la main
![Page 19: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/19.jpg)
19 Gaël RICHARD
Approche par le maximum de
vraisemblance
• Modèle de signal:
- a est un signal déterministe de période T0
- w est un bruit blanc gaussien de variance 2
• Vraisemblance des observations
• Log-vraisemblance
• Méthode: maximiser successivement L par rapport à a, puis 2 et enfin T0
![Page 20: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/20.jpg)
20 Gaël RICHARD
Approche par le maximum de
vraisemblance
• On peut montrer que la maximisation de L par rapport à revient
à maximiser la somme spectrale
![Page 21: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/21.jpg)
21 Gaël RICHARD
Produit spectral
• Par similitude avec la somme spectrale on peut définir le produit
spectral (souvent plus robuste)
![Page 22: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/22.jpg)
22 Gaël RICHARD
TD-PSOLA: « Time-Domain Pitch
Synchronous Overlap and Add »
2.22 2.24 2.26 2.28 2.3 2.32 2.34 2.36
x 104
-0.1
-0.05
0
0.05
0.1
0.15
Marques de Picth
TD-PSOLA: Time Domain Pitch Synchronous OverLap and Add
![Page 23: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/23.jpg)
23 Gaël RICHARD
Signaux à court-terme
2.22 2.24 2.26 2.28 2.3 2.32 2.34 2.36
x 104
-0.1
-0.05
0
0.05
0.1
0.15
Marques de Picth
0 50 100 150 200 250 300 350-0.1
-0.05
0
0.05
0.1
0.15
0 50 100 150 200 250 300 350-0.1
-0.05
0
0.05
0.1
0.15
0 50 100 150 200 250 300 350-0.1
-0.05
0
0.05
0.1
0.15
![Page 24: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/24.jpg)
24 Gaël RICHARD
Modification de durée
0 50 100 150 200 250 300 350-0.1
-0.05
0
0.05
0.1
0.15
0 50 100 150 200 250 300 350-0.1
-0.05
0
0.05
0.1
0.15
0 50 100 150 200 250 300 350-0.1
-0.05
0
0.05
0.1
0.15
0 50 100 150 200 250 300 350-0.1
-0.05
0
0.05
0.1
0.15
0 50 100 150 200 250 300 350-0.1
-0.05
0
0.05
0.1
0.15
0 50 100 150 200 250 300 350-0.1
-0.05
0
0.05
0.1
0.15
0 50 100 150 200 250 300 350-0.1
-0.05
0
0.05
0.1
0.15
0 50 100 150 200 250 300 350-0.1
-0.05
0
0.05
0.1
0.15
![Page 25: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/25.jpg)
25 Gaël RICHARD
Modification de fréquence fondamentale
0 50 100 150 200 250 300 350-0.1
-0.05
0
0.05
0.1
0.15
0 50 100 150 200 250 300 350-0.1
-0.05
0
0.05
0.1
0.15
0 50 100 150 200 250 300 350-0.1
-0.05
0
0.05
0.1
0.15
0 50 100 150 200 250 300 350-0.1
-0.05
0
0.05
0.1
0.15
0 50 100 150 200 250 300 350-0.1
-0.05
0
0.05
0.1
0.15
0 50 100 150 200 250 300 350-0.1
-0.05
0
0.05
0.1
0.15
![Page 26: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/26.jpg)
26 Gaël RICHARD
Synthèse
Extraction des formes d’onde synchrone de la fréquence
fondamentale
Synthèse par addition / recouvrement de formes d’onde
• Insertion / Suppression de signaux à court-terme pour modifier la durée
• Modification de l’espacement des signaux à court-terme pour modifier la
fréquence fondamentale
• Démonstration
Original Transposé Transposé ralenti accéléré
(haut) (bas)
![Page 27: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/27.jpg)
27 Gaël RICHARD
Détection de fréquences fondamentales
multiples
![Page 28: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/28.jpg)
28 Gaël RICHARD
Détection de fréquences fondamentales
multiples
Objectif: extraire l’ensemble des notes d’un enregistrement
polyphonique
Problème important lorsque les notes sont en rapport
harmonique (ce qui est souvent le cas en musique…!!)
Nécessité de traiter le caractère non parfaitement harmonique
des notes jouées par un instrument.
![Page 29: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/29.jpg)
29 Gaël RICHARD
Détection de fréquences fondamentales
multiples
Approche par estimation/soustraction conjointe
• DMDF (Double Magnitude Difference Function)
Son de piano addition de deux notes:
T1=0.0076s
T2=0.0057s
![Page 30: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/30.jpg)
30 Gaël RICHARD
Détection de fréquences fondamentales
multiples
Approche par corrélation bi-dimensionnelle
Mesure la « ressemblance » entre
•d(n) et •d(n+k1) + d(n+k2)-d(n+k1+k2)
![Page 31: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/31.jpg)
31 Gaël RICHARD
Une approche par banc de filtres
R. Meddis and M. Hewitt, “Virtual pitch and phase sensitivity of a computer model of the auditory periphery—I: Pitch identification,” J. Acoust. Soc. Am., vol. 89, pp. 2866–2882, June 1991.
![Page 32: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/32.jpg)
32 Gaël RICHARD
Une approche plus simple inspirée de la
précédente
T. Tolonen and M. Karjalainen, “A computationally efficient multipitch
analysis model,” IEEE Trans. On Speech and Audio Processing, vol. 8, no. 6,
pp. 708–716, 2000.
![Page 33: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/33.jpg)
33 Gaël RICHARD
Enhanced Summary ACF
Plusieurs étapes:
• Redressement demi-onde
- On ne conserve que les valeurs positives
• Ralentie 2 (ou plus) fois puis déduite du SACF redressé
- Permet de supprimer les pics doubles
![Page 34: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/34.jpg)
34 Gaël RICHARD
Détection de fréquences fondamentales
multiples
Approche par soustraction itérative (Klapuri, 2003)
Principe de lissage spectral
ah=min(ah, mh)
où mh est la moyenne sur une fenêtre d ’un octave autour du partiel
![Page 35: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/35.jpg)
35 Gaël RICHARD
Détection de fréquences fondamentales
multiples
Résultats: Comparaison aux performances humaines
Registre bas (l): 33 à 130 Hz
Registre médium (m): 130 à 520 Hz
Registre haut: 520 à 2100 Hz
200 stimuli sonores (20 catégories)
Sons polyphoniques générés par
ordinateur à partir d ’échantillons de
Piano Steinway provenant du Master
samples collection, Mc Gill University
Personnes ayant participé aux tests:
Tous sont musiciens
dont 2 ont l ’oreille absolue
(musiciens quasi-
professionnels
![Page 36: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/36.jpg)
36 Gaël RICHARD
Une amélioration utilisant un modèle
perceptuel
Anssi P. Klapuri “Multipitch Analysis of Polyphonic Music and Speech
Signals Using an Auditory Model”, IEEE Trans. On ASLP, Feb. 2008
![Page 37: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/37.jpg)
37 Gaël RICHARD
Banc de filtres perceptuels
Une approximation d’un banc de filtres Gammatone
![Page 38: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/38.jpg)
38 Gaël RICHARD
Effet de la compression et redressement
Résultat sur une bande centrée at 2.7 kHz
![Page 39: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/39.jpg)
39 Gaël RICHARD
Détection de fréquences fondamentales
multiples
Autres approches
• Approches bayesiennes
• Méthodes haute-résolution
• Factorisation en Matrices non-négatives (NMF) ou Analyse en
composantes latentes (PLCA – équivalent probabiliste de la NMF)
![Page 40: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/40.jpg)
40 Gaël RICHARD
A popular model in audio: NMF
NMF = Non-negative Matrix Factorization
Original spectrogram
“Activations’”
“Templates or
Atoms’”
40
![Page 41: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/41.jpg)
41 Gaël RICHARD
Euclidean
Kullback-Leibler
divergence
Itakura-Saito
divergence
A popular model in audio: NMF
How the template matrix W and activation matrix H are obtained [Lee&al. 1999]?
Minimization of
Typical distances and divergences used:
b-divergence
41
![Page 42: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/42.jpg)
42 Gaël RICHARD
A popular model in audio: NMF
How the template matrix W and activation matrix H are obtained [Lee&al. 1999]?
In general, the cost function is not convex in
(W,H)…. However, it is separately convex in W
and H (for Euclidean and Kullback-Leibler
divergence)
The solution is iteratively obtained by means
of multiplicative update rules:
For example with the Euclidean distance:
42
![Page 43: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/43.jpg)
One way to obtain these update rules
• First, express the gradient of the cost function as
where and are positive terms
• Then the following update rules
guarantees the decrease of the
cost function (under some restrictions
and for some “distances” such as
Euclidean and Kullback-Leibler)
43
![Page 44: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/44.jpg)
44 Gaël RICHARD
A popular model in audio: NMF
How the template matrix W and activation matrix H are obtained [Lee&al. 1999]?
Properties of such multiplicative update rules:
Associated cost function monotonously
decreases along iterations
Non-negativity of the different coefficients is
guaranteed
44
![Page 45: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/45.jpg)
45 Gaël RICHARD
A popular model in audio: NMF
NMF does not necessarily provides a semantically
meaningful decomposition in absence of “constraints”
Templates correspond to
musical notes
•Templates are built from half of each note
and are less semantically meaningful
• Activations are less sparse
• Templates grouping for source recovery
45
![Page 46: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/46.jpg)
46 Gaël RICHARD
A popular model in audio: NMF
What types of constraints can be used ?
Harmonicity of the templates [Raczinsky&al.2007]
To have a decomposition in “harmonic notes”
Spectral smoothness of the templates
[Bertin&al.2010]
To obtain realistic timbral notes
Temporal continuity of activation [Virtanen2007]
To take into account that note activations are not
erratic
Sparsity of the activations
[Hoyer04][Smaragdis08]
To take into account that not too many notes are
played in a given time
46
![Page 47: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/47.jpg)
An example of model-based constraints for
main melody separation using NMF
The model: Audio = Voice + Music
• The voice Voice follows a source filter
production model : Voice = Source * Filter
• Each component (Voice and Music) is
represented by separate NMF
Spectrogram of
the singing voice Spectrogram of
the background
music
Spectrogram of
the input audio
signal
47
![Page 48: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/48.jpg)
An example of model-based constraints for
main melody separation using NMF
Illustration of the source/filter model with NMF
48
J-L Durrieu & al. G, Source/Filter Model for Unsupervised Main Melody Extraction From Polyphonic
Audio Signals, IEEE Trans. On ASLP, March 2010.
J-L Durrieu, & al. A musically motivated mid-level representation for pitch estimation and musical audio
source separation, IEEE Journal on Selected Topics in Signal Processing, October 2011
48
Original Backgrounds Leading voice
Singing voice
Trumpet
![Page 49: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/49.jpg)
49 Gaël RICHARD
Original Backgrounds Leading
voice
Singing voice
Trumpet
From “Blind” source separation to Informed
Source Separation
How to recover the audio objects ?
• Using blind source separation
- Separation is only done using the audio mixture.
- But…quality is often not sufficient for active listening applications.
- Exemple of Blind leading voice extraction [Durrieu&al.2011]…
J-L Durrieu, & al. A musically motivated mid-level representation for pitch estimation and musical audio
source separation, IEEE Journal on Selected Topics in Signal Processing, October 2011.
49
![Page 50: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/50.jpg)
50 Gaël RICHARD
Factorisation en Matrices Non-négatives
Utilisation en estimation multi-pitch:
• Nécessité d’introduire des a priori (approche probabiliste) ou des
contraintes (approche déterministe)
• Exemple de contraintes (d’après Vincent & al, 2010):
- NMF classique:
- NMF avec templates dépendants du pitch:
- …et avec contraintes sur les templates
- Exemples d’enveloppes locales
![Page 51: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/51.jpg)
51 Gaël RICHARD
Utilisation d‘une représentation à Q
constant
D’après M. Mueller & al. « Signal Processing for Music Analysis, IEEE Trans. On Selected topics of
Signal Processing, oct. 2011
![Page 52: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/52.jpg)
52 Gaël RICHARD
Utilisation d‘une représentation à Q
constant
En pratique:
• Solution peu satisfaisante
Solution souvent retenue: Utiliser des tailles de fenêtres
différentes pour chaque nouveau bin fréquentiel k’
Bin kN’
Bin k2’
Bin k1’
J. Brown and M. Puckette, An efficient algorithm for the calculation of a constant Q transform, JASA, 92(5):2698–2701, 1992.
J. Prado, Une inversion simple de la transformée à Q constant, technical report, 2011,
http://www.tsi.telecom-paristech.fr/aao/en/2011/06/06/inversible-cqt/
![Page 53: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/53.jpg)
53 Gaël RICHARD
Utilisation en estimation multipitch
Sur une transformée à Q
constant:
• Une différence de pitch correspond
à une translation sur l’axe des
fréquences
• Vers des modèles “Shift invariant
PLCA (v. smaragdis2008 et
Fuentes & al. 2011)
![Page 54: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/54.jpg)
Un exemple de modèle PLCA pour
l’estimation multi-pitch
Le Modèle HALCA (Fuentes & al.)
B. Fuentes, R. Badeau, and G. Richard, “Harmonic Adaptive Latent Component Analysis of Audio and Application to Music Transcription” IEEE Trans. On ASLP, 2013.
![Page 55: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/55.jpg)
Un exemple de modèle PLCA pour
l’estimation multi-pitch
Le Modèle HALCA (Fuentes & al.)
![Page 56: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/56.jpg)
Le modèle HALCA
• Modèle complet
• Processus génératif des coefficients de la CQT observée
![Page 57: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/57.jpg)
Quelques résultats de simulations avec le
modèle HALCA
Utilisation de différents apriori pour les noyaux
harmoniques et les activations temporelles
Without sparsity prior With sparsity prior
![Page 58: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/58.jpg)
Quelques résultats de simulations avec le
modèle HALCA
![Page 59: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/59.jpg)
Quelques résultats de simulations avec le
modèle HALCA
Résultats de transcription (multiF0)
Base de données: MIREX07 + 6 fichiers Quaero
![Page 60: Master « ATSI » Estimation de fréquences fondamentales ...](https://reader035.fdocument.pub/reader035/viewer/2022062506/62b09d8971577b761e1d1378/html5/thumbnails/60.jpg)
60 Gaël RICHARD
Quelques références en estimation de
Fréquence(s) fondamentale(s)
Estimation de la fréquence fondamentale
• M. Schroeder, “Period Histogram and Product Spectrum: New Methods for Fundamental-Frequency Measurement” The Journal
of the Acoustical Society of America -- April 1968 -- Volume 43, Issue 4, pp. 829-834
• Alain de Cheveigné, YIN, a fundamental frequency estimator for speech and music, Hideki Kawahara, JASA, 111(4), 2002
• Geoffroy Peeters, Music pitch representation by periodicity measures based on combined temporal and spectral representations, ICASSP 2006
Estimation de fréquences fondamentales multiples
• B. Fuentes, R. Badeau, and G. Richard, “Adaptive harmonic time-frequency decomposition of audio using shift-invariant
PLCA,” in Proc. of ICASSP, Prague, Czech Republic, May 2011, pp. 401–404.
• P. Smaragdis, B. Raj, and M.V. Shashanka, “Sparse and shift-invariant feature extraction from non-negative data,” in Proc. of ICASSP, Las Vegas, Nevada, USA, April 2008, pp. 2069–2072.
• E. Vincent, N. Bertin, and R. Badeau, “Adaptive harmonic spectral decomposition for multiple pitch estimation,” IEEE Transactions on Audio Speech and Language Processing, vol. 18, no. 3, pp. 528–537, Mar. 2010.
• T. Tolonen and M. Karjalainen, “A computationally efficient multipitch analysis model,” IEEE Trans. On Speech and Audio Processing, vol. 8, no. 6, pp. 708–716, 2000.
• Anssi P. Klapuri, Multiple Fundamental Frequency Estimation Based on Harmonicity and Spectral Smoothness, IEEE Trans. On Speech and Sig. Proc., 11(6), 2003
• C. Yeh, A. Röbel, and X.Rodet, "Multiple fundamental frequency estimation of polyphonic music signals", IEEE ICASSP, pp. 225-228 (Vol. III), Philadelphia, Pennsylvvania, USA, 2005.
• Hirokazu Kameoka, Takuya Nishimoto, and Shigeki Sagayama, “A Multipitch Analyzer Based on Harmonic Temporal Structured Clustering”, IEEE Trans. On ASLP, March. 2007
• V. Emiya, R. Badeau, B. David, “MULTIPITCH ESTIMATION OF QUASI-HARMONIC SOUNDS IN COLORED NOISE”, Proc. Of DAFX, Sept. 2007.
• V. Emiya, “Transcription automatique de la musique de piano », thèse de doctorat, Telecom ParisTech, 2008.
• Anssi P. Klapuri, A perceptually motivated multiple-f0 estimation method, WASPAA 2005
• Anssi P. Klapuri “Multipitch Analysis of Polyphonic Music and Speech Signals Using an Auditory Model”, IEEE Trans. On ASLP, Feb. 2008