Automatické rozpoznávání zpěvů ptáků
description
Transcript of Automatické rozpoznávání zpěvů ptáků
Osnova
• Automatické rozpoznávání lidské řeči a automatická identifikace ptáků
1)Teoretický základ
2)Provádění experimentů
3)Identifikace ptáků
4)Kroužkování
5)Budníček menší
6)Použitá data
7)Příklad dosažených výsledků
8)Závěr
Automatické rozpoznávánílidské řeči
• VyužitíIdentifikace osobPřevod řeči na textKomunikace se strojem (ovládání PC, Call Centra, navigace)
• PřekážkyCharakter lidské řečiKaždý mluvčí je originálNářečí, vady řeči, spisovně/nespisovněVliv prostoruHluk okolí
Automatické rozpoznávání lidské řeči
• Typy úloh
•Rozpoznávání Speaker recognition (SR)
• Identifikace SI
•Verifikace SV
• Množina Uzavřená / Otevřená
• Obsah promluvy Závislé / Nezávislé
Speech dependent/independent
Automatické rozpoznáváníTeoretický základ
• Výpočet cepstrálních koeficientů
• Výpočet dalších koeficientů (energie, korelace, atd.) -> vznik modelu• Proces rozpoznávání je porovnáváním modelů
Automatické rozpoznáváníTeoretický základ
• Model UBMModeluje pozadí (hluk, ostatní ptáci, telefonní linka, atd.)
• Model GMMModeluje cílového řečníka (Target Bird)
• PorovnáváníJsou porovnávány modely neznámého řečníka a GMM a UBMNa základě jejich porovnání resp. jejich vzájemné vzdálenosti doje k rozhodnutí:Accept x Reject
Automatické rozpoznáváníMetody
• Rozpoznávání ptáků: Metody
1.Parametry MFCCs →klasifikace GMM
2.Parametry MFCC a PLP →klasifikace HMM s využitím HTK
3.Parametry MFCC →klasifikátor ANN, s využitím NN Toolboxu v Matlabu
Naše práci kombinují
• Neupravená data (raw records)
• Záznamy napříč časovým obdobím (roky a delší)
• GMM-UBM (Universal Background Model)
Automatické rozpoznáváníMetody
• GMM - Gaussovské směsi (Gaussian Mixture Models)
• D..rozměr vektoru příznaků x (feature vector), M..počet Gaussiánů
• μy..vektor D x 1
• Σy .. kovarianční matice D x D
• wS …váha pravděpodobnosti
• λS..model řečníka S
• UBM – Universal Background Model
Automatické rozpoznáváníMetody, State of the Art
• JFA – Joint Factor Analysis
• Nalezení korelací řečník resp. kanál → snížení rozměru supervektoru.• GMM supervektor lze vyjádřit jako součet dvou supervektorů:
• S…řečník, C..kanál
• i-Vector – Identity vector
• Oddělení dat kanál x řečník - využité v JFA - je úspěšné pouze částečně.Velké množství dat → není nutné je oddělit, dostaneme výsledky jako JFA
• m..supervektor, nezávislý na řečníkovi ani na kanálu
• T..Total variability matrix, získaná EM z velkého množství dat s velkou variabilitou
• w..i-Vector, záleží jak na řečníkovi tak na kanálu.
M S C
S m Vy C Ux
, M m Tw
Automatické rozpoznáváníExperimenty, třídění nahrávek
• Nahrávky jsou rozděleny do několika sad
• Příprava dat
• katalogizace (700 minut nahrávek)
• třídění (eliminace nevhodných nahrávek, atd.)
• Nastavení konfiguračních souborů
• Training
• UBM
• Testování
• Spouštění testů
• 1 až 4 současně
• Vyhodnocení dat
• Matlab, EER
Automatické rozpoznáváníExperimenty, postup
• Jednotlivé kroky experimentů s vyznačením využitých sad nahrávek
Automatické rozpoznáváníExperimenty, chyby rozpoznání
• Při verifikaci mohou nastat dva druhy chyb: FA…False AcceptanceFR…False Rejection
Automatické rozpoznávání ptákůTypy úloh
• Rozpoznávání ptáků: Typ úloh
1. Identifikace jedince (v rámci jednoho druhu) →
Speaker Identification
2. Rozpoznání druhu (zpěv/zvuk) →
Language Identification
3. Rozpoznání specifického zvuku →
Speech recognition task (SV, SI)
4. Optimalizace metod pro řeč → využití v ornitologii
Zpěvy ptákůDatabáze
• Databáze nahrávek zvuků ptáků
Komerční (např. Cornell Lab, Audio CD)
Nekomerční (např. xeno-canto.org)
• U nás
AV ČR
Amatérské databáze
• Vlastní databáze PřF
PtáciPřenos zpěvu postředím
Lidská řeč x Ptačí zpěv
• Přenos na velké vzdálenosti
1. Ozvěna
2. Posun fází. Větší vliv na zvuky s konstantní f než na modulované
3. Odrazy od země, interference
Kroužkování
• Sledování, rozpoznávání a identifikace jedinců v ornitologii
• Kroužkování (1773, H. C. Mortensen)
U nás 1910 Kurt Loos a dr. K. Richter Propagují Ing. Otta Kadlec, Hrabě B.K.Kinský ad.
• European Union for Bird Ringing (EURING)
• Spektrogram
• Novější metodyTelemetrie, analýza stabilních izotopů z peří, radarové sledování
PtáciBudníček menší
• Budníček menší (CZ), • Phylloscopus collybita (LAT), • Chiffchaff (EN)
Zpěv v lese Hluk v lese Zpěv město
Zpěv → Fráze → Slabika → Elementy
PtáciBudníček menší, spektrogram
• Budníček, reálná nahrávka, hluk pozadí
•Zpěv → Fráze → Slabika → Elementy
Automatické rozpoznáváníExperimenty, příklad vyhodnocení
• Příklad vyhodnocení výsledků
Graf znázorňující EER Graf znázorňující závislost úspěšnosti na míře FA a FR (Equal Error Rate) svislá čára znázorňuje nastavení Treshold
Automatické rozpoznáváníExperimenty, dosažené výsledky
• Příklad dosažených výsledkůBudníček menší
foto: Wikipedia
Automatické rozpoznáváníExperimenty, dosažené výsledky
• Příklad dosažených výsledkůRypoši
Foto Klaus Rudloff , www.biolib.cz
Automatické rozpoznáváníSoučasnost, směřování
ZČU, Fakulta aplikovaných věd, katedra kybernetiky KKY
Příklady aplikací: Titulkování, převod řeči na textPoslanecká sněmovna ČRTelevizní vysíláníZnaková řeč
Další využitíLékařiPoliciSoudnictví
Mobilní telefony (Google, Siri)
…další využití?…budoucnost?