Automatické rozpoznávání zpěvů ptáků

33
Automatické rozpoznávání zpěvů ptáků Ladislav Ptáček, UFY, březen 2014

description

Automatické rozpoznávání zpěvů ptáků. Ladislav Ptáček, UFY, březen 2014. Osnova. • Automatické rozpoznávání lidské řeči a automatická identifikace ptáků Teoretický základ Provádění experimentů Identifikace ptáků Kroužkování Budníček menší Použitá data Příklad dosažených výsledků Závěr. - PowerPoint PPT Presentation

Transcript of Automatické rozpoznávání zpěvů ptáků

Automatické rozpoznávání zpěvů ptáků

Ladislav Ptáček, UFY, březen 2014

Osnova

• Automatické rozpoznávání lidské řeči a automatická identifikace ptáků

1)Teoretický základ

2)Provádění experimentů

3)Identifikace ptáků

4)Kroužkování

5)Budníček menší

6)Použitá data

7)Příklad dosažených výsledků

8)Závěr

Automatické rozpoznávánílidské řeči

• VyužitíIdentifikace osobPřevod řeči na textKomunikace se strojem (ovládání PC, Call Centra, navigace)

• PřekážkyCharakter lidské řečiKaždý mluvčí je originálNářečí, vady řeči, spisovně/nespisovněVliv prostoruHluk okolí

Automatické rozpoznávání lidské řeči

• Typy úloh

•Rozpoznávání Speaker recognition (SR)

• Identifikace SI

•Verifikace SV

• Množina Uzavřená / Otevřená

• Obsah promluvy Závislé / Nezávislé

Speech dependent/independent

Automatické rozpoznáváníTeoretický základ

• Postup získání vzorků z řeči/ze zpěvu

Automatické rozpoznáváníTeoretický základ

• Výpočet cepstrálních koeficientů

• Výpočet dalších koeficientů (energie, korelace, atd.) -> vznik modelu• Proces rozpoznávání je porovnáváním modelů

Automatické rozpoznáváníTeorie, Feature vector

Automatické rozpoznáváníTeoretický základ

• Model UBMModeluje pozadí (hluk, ostatní ptáci, telefonní linka, atd.)

• Model GMMModeluje cílového řečníka (Target Bird)

• PorovnáváníJsou porovnávány modely neznámého řečníka a GMM a UBMNa základě jejich porovnání resp. jejich vzájemné vzdálenosti doje k rozhodnutí:Accept x Reject

Automatické rozpoznáváníMetody

• Rozpoznávání ptáků: Metody

1.Parametry MFCCs →klasifikace GMM

2.Parametry MFCC a PLP →klasifikace HMM s využitím HTK

3.Parametry MFCC →klasifikátor ANN, s využitím NN Toolboxu v Matlabu

Naše práci kombinují

• Neupravená data (raw records)

• Záznamy napříč časovým obdobím (roky a delší)

• GMM-UBM (Universal Background Model)

Automatické rozpoznáváníMetody

• GMM - Gaussovské směsi (Gaussian Mixture Models)

• D..rozměr vektoru příznaků x (feature vector), M..počet Gaussiánů

• μy..vektor D x 1

• Σy .. kovarianční matice D x D

• wS …váha pravděpodobnosti

• λS..model řečníka S

• UBM – Universal Background Model

Automatické rozpoznáváníMetody, State of the Art

• JFA – Joint Factor Analysis

• Nalezení korelací řečník resp. kanál → snížení rozměru supervektoru.• GMM supervektor lze vyjádřit jako součet dvou supervektorů:

• S…řečník, C..kanál

• i-Vector – Identity vector

• Oddělení dat kanál x řečník - využité v JFA - je úspěšné pouze částečně.Velké množství dat → není nutné je oddělit, dostaneme výsledky jako JFA

• m..supervektor, nezávislý na řečníkovi ani na kanálu

• T..Total variability matrix, získaná EM z velkého množství dat s velkou variabilitou

• w..i-Vector, záleží jak na řečníkovi tak na kanálu.

M S C

S m Vy C Ux

, M m Tw

Automatické rozpoznáváníExperimenty, třídění nahrávek

• Nahrávky jsou rozděleny do několika sad

• Příprava dat

• katalogizace (700 minut nahrávek)

• třídění (eliminace nevhodných nahrávek, atd.)

• Nastavení konfiguračních souborů

• Training

• UBM

• Testování

• Spouštění testů

• 1 až 4 současně

• Vyhodnocení dat

• Matlab, EER

Automatické rozpoznáváníExperimenty, postup

• Jednotlivé kroky experimentů s vyznačením využitých sad nahrávek

Automatické rozpoznáváníExperimenty, procesní diagram

• Speaker / Bird verification system

Automatické rozpoznáváníExperimenty, chyby rozpoznání

• Při verifikaci mohou nastat dva druhy chyb: FA…False AcceptanceFR…False Rejection

Automatické rozpoznávání ptákůTypy úloh

• Rozpoznávání ptáků: Typ úloh

1. Identifikace jedince (v rámci jednoho druhu) →

Speaker Identification

2. Rozpoznání druhu (zpěv/zvuk) →

Language Identification

3. Rozpoznání specifického zvuku →

Speech recognition task (SV, SI)

4. Optimalizace metod pro řeč → využití v ornitologii

Zpěvy ptákůDatabáze

• Databáze nahrávek zvuků ptáků

Komerční (např. Cornell Lab, Audio CD)

Nekomerční (např. xeno-canto.org)

• U nás

AV ČR

Amatérské databáze

• Vlastní databáze PřF

PtáciZpěv a sluch

• Hlasový trakt

( ) ( ) ( )s n x n h n

PtáciSluch

• vrabeco pěnkava

PtáciPřenos zpěvu postředím

Lidská řeč x Ptačí zpěv

• Přenos na velké vzdálenosti

1. Ozvěna

2. Posun fází. Větší vliv na zvuky s konstantní f než na modulované

3. Odrazy od země, interference

Kroužkování

• Sledování, rozpoznávání a identifikace jedinců v ornitologii

• Kroužkování (1773, H. C. Mortensen)

U nás 1910 Kurt Loos a dr. K. Richter Propagují Ing. Otta Kadlec, Hrabě B.K.Kinský ad.

• European Union for Bird Ringing (EURING)

• Spektrogram

• Novější metodyTelemetrie, analýza stabilních izotopů z peří, radarové sledování

Kroužkování

Kroužkování

PtáciBudníček menší, kroužkování

PtáciBudníček menší

• Budníček menší (CZ), • Phylloscopus collybita (LAT), • Chiffchaff (EN)

Zpěv v lese Hluk v lese Zpěv město

Zpěv → Fráze → Slabika → Elementy

PtáciBudníček menší, spektrogram

• Budníček, jeden zpěv (single song), délka 5 s.

PtáciBudníček menší, spektrogram

• Budníček, reálná nahrávka, hluk pozadí

•Zpěv → Fráze → Slabika → Elementy

Automatické rozpoznáváníExperimenty, použitá data, 2011

Automatické rozpoznáváníExperimenty, příklad vyhodnocení

• Příklad vyhodnocení výsledků

Graf znázorňující EER Graf znázorňující závislost úspěšnosti na míře FA a FR (Equal Error Rate) svislá čára znázorňuje nastavení Treshold

Automatické rozpoznáváníExperimenty, dosažené výsledky

• Příklad dosažených výsledkůBudníček menší

foto: Wikipedia

Automatické rozpoznáváníExperimenty, dosažené výsledky

• Příklad dosažených výsledkůRypoši

Foto Klaus Rudloff , www.biolib.cz

Automatické rozpoznáváníSoučasnost, směřování

ZČU, Fakulta aplikovaných věd, katedra kybernetiky KKY

Příklady aplikací: Titulkování, převod řeči na textPoslanecká sněmovna ČRTelevizní vysíláníZnaková řeč

Další využitíLékařiPoliciSoudnictví

Mobilní telefony (Google, Siri)

…další využití?…budoucnost?

Závěr

Děkuji vám za pozornost

Ing. Ladislav Ptáček

Ústav fyziky a biofyzikyLaboratoř elektroniky a akustiky

Přírodovědecká fakultaBranišovská 31, 370 05 České BudějoviceTelefon: +420 38 777 6268