Post on 17-Jan-2016
description
Rozpoznawanie głosów ptaków
Dr inż. Robert Wielgat
Państwowa Wyższa Szkoła Zawodowa w Tarnowie
Zakład Elektroniki i Telekomunikacji
- Dzień otwarty w PWSZ 13 marca 2009
Time [s]
Fre
quen
cy [H
z]
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50
0.5
1
1.5
2
2.5
3
3.5
4
4.5
x 104
Charakterystyka głosów ptaków- Dźwięki głównie harmoniczne, zasadniczo brak składowych szumowych- Dwie pary strun głosowych,- W przypadku wielu głosów ptaków występują składowe ultradźwiękowe niesłyszalne dla ucha ludzkiego
0 0.1 0.2 0.3 0.4 0.5 0.60
2000
4000
6000
8000
10000
t rz y
Czas [s]
Czę
sto
tliw
ość
[H
z]
1. Wykrywanie rzadkich gatunków
ptaków w celu ochrony ich siedlisk
2. Monitoring ptaków i wykrywanie
zagrożeń ekologicznych (FBI –
Farmland Bird Index)
3. Ochrona upraw rolnych
4. Ochrona lotnisk i samolotów
Znaczenie rozpoznawania głosów ptaków
Projekt „BIRDSMOND”Od czerwca 2008 roku w Państwowej Wyższej Szkole Zawodowej w Tarnowie jest realizowany grant MNiSW Nr N N519 402934 pt. „Opracowanie automatycznego systemu akustycznego monitoringu ptaków dla Ciężkowicko-Rożnowskiego Parku Krajobrazowego” we współpracy z:
Zespołem Parków Krajobrazowych Pogórza w Tarnowie, Uniwersytetem Jagielońskim, Małopolskim Towarzystwem Ornitologicznym, Akademią Górniczo-Hutniczą, Uniwersytetem Rolniczym w Krakowie.
Od września 2008 roku projekt nosi nazwę:
B I R D S M O N D
będącą akronimem od: BIRD SOUND MONITORING DATABASE
System akustycznego monitoringu ptaków
Stacjonarny rejestrator cyfrowy
Przenośny rejestrator
cyfrowy
Program rozpoznający w trybie bez nadzoru
System informatyczny
Program rozpoznający w trybie z nadzorem
Gość
Ekspert lub Administrator
Obserwator
Stacjonarny rejestrator cyfrowy
Przenośny rejestrator
cyfrowy
GPS, filmy, zdjęcia, informacje o pogodzie
Automatyczny Obserwator
System akustycznego monitoringu ptaków
Stacjonarny rejestrator cyfrowy
Przenośny rejestrator
cyfrowy
Program rozpoznający w trybie bez nadzoru
System informatyczny
Program rozpoznający w trybie z nadzorem
Gość
Ekspert lub Administrator
Obserwator
Stacjonarny rejestrator cyfrowy
Przenośny rejestrator
cyfrowy
GPS, filmy, zdjęcia, informacje o pogodzie
Automatyczny Obserwator
Stacjonarny rejestrator cyfrowy
A/C
LCD
MIKROKONTROLER
Klawiatura
FAT324 x Szerokopas-mowy mikrofon pojemnościowy
Karta pamięci
Zegar Czasu rzeczy-wistego
C/A
Zestaw głośnikowy
4 x wzmacniacz mikrofonowy
Wzmacniaczmocy
Bezprzewodowy transceiver Antena
System akustycznego monitoringu ptaków
Stacjonarny rejestrator cyfrowy
Przenośny rejestrator
cyfrowy
Program rozpoznający w trybie bez nadzoru
System informatyczny
Program rozpoznający w trybie z nadzorem
Gość
Ekspert lub Administrator
Obserwator
Stacjonarny rejestrator cyfrowy
Przenośny rejestrator
cyfrowy
GPS, filmy, zdjęcia, informacje o pogodzie
Automatyczny Obserwator
System akustycznego monitoringu ptaków
Stacjonarny rejestrator cyfrowy
Przenośny rejestrator
cyfrowy
Program rozpoznający w trybie bez nadzoru
System informatyczny
Program rozpoznający w trybie z nadzorem
Gość
Ekspert lub Administrator
Obserwator
Stacjonarny rejestrator cyfrowy
Przenośny rejestrator
cyfrowy
GPS, filmy, zdjęcia, informacje o pogodzie
Automatyczny Obserwator
Przenośny rejestrator cyfrowy
A/C
MIKROKONTROLERFAT32
Karta pamięci
Zegar czasu rzeczy-wistego
C/A
Słuchawki
4 x wzmacniaczmikrofonowy
Wzmacniacz słuchawkowy
LCD KlawiaturaAntena
GPS
4 x Szerokopas-mowy mikrofon pojemnościowy
System akustycznego monitoringu ptaków
Stacjonarny rejestrator cyfrowy
Przenośny rejestrator
cyfrowy
Program rozpoznający w trybie bez nadzoru
System informatyczny
Program rozpoznający w trybie z nadzorem
Gość
Ekspert lub Administrator
Obserwator
Stacjonarny rejestrator cyfrowy
Przenośny rejestrator
cyfrowy
GPS, filmy, zdjęcia, informacje o pogodzie
Automatyczny Obserwator
System akustycznego monitoringu ptaków
Stacjonarny rejestrator cyfrowy
Przenośny rejestrator
cyfrowy
Program rozpoznający w trybie bez nadzoru
System informatyczny
Program rozpoznający w trybie z nadzorem
Gość
Ekspert lub Administrator
Obserwator
Stacjonarny rejestrator cyfrowy
Przenośny rejestrator
cyfrowy
GPS, filmy, zdjęcia, informacje o pogodzie
Automatyczny Obserwator
• Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków.
• Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach:1. etap ekstrakcji cech2. etap klasyfikacji
• Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosując system ekspertowy wykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.
Program rozpoznający pracujący w trybie bez nadzoru
• Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków.
• Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach:1. etap ekstrakcji cech2. etap klasyfikacji
• Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosując system ekspertowy wykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.
Program rozpoznający pracujący w trybie bez nadzoru
Ekstrakcja cech• Z sygnału akustycznego będącego głosem ptaka można wyekstrahować różnorodne cechy np.:
Kodowanie sygnału w dziedzinie czasu (ang. TDSC -Time Domain Signal Coding) , Maksima widmowe (ang. spectral peaks), Falki (ang. wavelets), Parametry mel-cepstralne (ang. MFCC - Mel Frequency Cepstral Coefficients), Parametry HFCC (ang. HFCC - Human Factor Cepstral Coefficients).
• Etap ekstrakcji cech in jest niekiedy poprzedzany wstępnym przetwarzaniem sygnału jak np. filtracja pasmowo-przepustowa, redukcja szumów itp.
Ekstrakcja cech• Z sygnału akustycznego będącego głosem ptaka można wyekstrahować różnorodne cechy np.:
Kodowanie sygnału w dziedzinie czasu (ang. TDSC -Time Domain Signal Coding) , Maksima widmowe (ang. spectral peaks), Falki (ang. wavelets), Parametry mel-cepstralne (ang. MFCC - Mel Frequency Cepstral Coefficients), Parametry HFCC (ang. HFCC - Human Factor Cepstral Coefficients).
• Etap ekstrakcji cech in jest niekiedy poprzedzany wstępnym przetwarzaniem sygnału jak np. filtracja pasmowo-przepustowa, redukcja szumów itp.
Parametry MFCC (mel-cepstralne)
1
0 2
)12(cos)ln()()(
K
kk K
nkSncnX
K
c1
)0( K
nc2
)(
1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych4) Obliczenie logarytmu zakumulowanych współczynników widmowych5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych:
6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta
Parametry MFCC (mel-cepstralne)
1
0 2
)12(cos)ln()()(
K
kk K
nkSncnX
K
c1
)0( K
nc2
)(
1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych4) Obliczenie logarytmu zakumulowanych współczynników widmowych5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych:
6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta
Dzielenie sygnału na ramki
30 ms
20 ms
Ram
ka 1
Ram
ka 2
Ram
ka 3
Ram
ka 4
Ram
ka 5
[ms]t
Parametry MFCC (mel-cepstralne)
1
0 2
)12(cos)ln()()(
K
kk K
nkSncnX
K
c1
)0( K
nc2
)(
1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych4) Obliczenie logarytmu zakumulowanych współczynników widmowych5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych:
6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta
Parametry MFCC (mel-cepstralne)
1
0 2
)12(cos)ln()()(
K
kk K
nkSncnX
K
c1
)0( K
nc2
)(
1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych4) Obliczenie logarytmu zakumulowanych współczynników widmowych5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych:
6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta
Okienkowanie sygnałuOkienkowanie sygnału polega na przemnożeniu próbek w ramce sygnału przez funkcję okna.
t
t
tx =
Funkcja okna (np. okno Hamminga)
Sygnał w ramce
Sygnał w ramce przemnożony przez
funkcję okna
Parametry MFCC (mel-cepstralne)
1
0 2
)12(cos)ln()()(
K
kk K
nkSncnX
K
c1
)0( K
nc2
)(
1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych4) Obliczenie logarytmu zakumulowanych współczynników widmowych5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych:
6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta
Parametry MFCC (mel-cepstralne)
1
0 2
)12(cos)ln()()(
K
kk K
nkSncnX
K
c1
)0( K
nc2
)(
1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych4) Obliczenie logarytmu zakumulowanych współczynników widmowych5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych:
6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta
Częstotliwość [mel]
wagi Bank filtrów MFCC
Częstotliwości środkowe
Mel-Frequency Cepstral Coefficients (MFCC)
“Obliczenie mocy FFT w określonych pasmach częstotliwościowych”Częstotliwości środkowe w tych pasmach są równomiernie rozmieszczone względem melowej skali częstotliwościowej.Szerokość pasma jest powiązana z rozmieszczeniem częstotliwości środkowych pasma zachodzą na siebie na połowie swej długości.
)110(700
)700/1log(25952595/
melf
Hz
Hzmel
f
ff
Parametry MFCC (mel-cepstralne)
1
0 2
)12(cos)ln()()(
K
kk K
nkSncnX
K
c1
)0( K
nc2
)(
1) Blokowanie sygnału w ramki, okienkowanie oknem Hamminga2) Przeprowadzenie FFT na zokienkowanych ramkach sygnału3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych4) Obliczenie logarytmu zakumulowanych współczynników widmowych5) Przeprowadzenie DCT na zlogarytmowanych współczynnikach widmowych:
6) Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta
• Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków.
• Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach:1. etap ekstrakcji cech2. etap klasyfikacji
• Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosując system ekspertowy wykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.
Program rozpoznający pracujący w trybie bez nadzoru
• Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków.
• Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach:1. etap ekstrakcji cech2. etap klasyfikacji
• Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosując system ekspertowy wykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.
Program rozpoznający pracujący w trybie bez nadzoru
KlasyfikacjaNajbardziej obiecującymi metodami klasyfikacji w rozpoznawaniu głosów ptaków są:
• Wyszukiwanie haseł oparte na Nieliniowej transformacji czasowej (ang. Dynamic Time Warping - DTW) • Metoda niejawnych modeli Markowa (ang. Hidden Markov Models – HMM).
iY
iX
BIRD VOICE X
BIR
D V
OIC
E Y
1 N
1M
DTW
2 3 4 51
o1 o2 o3 o4 o5 o6
a23
a22
b2(o1) b2(o2) b2(o3) b4(o5)b3(o4) b4(o6)
a34 a45a12
a33 a44
HMM
Nieliniowa transformacja czasowa (DTW)
iY
iX
Celem algorytmu nieliniowej transformacji czasowej jest znalezienie najniższego zakumulowanego kosztu przejścia między punktami siatki odległości
IX - indeksy wektorów cech słowa x
IY - indeksy wektorów cech słowa y
S Ł O W O X
S
Ł
O
W
O
Y
1 N
1M
• Naśladownictwo
- myszołów - szpak naśladujący myszołowa
• Nakładanie się głosów ptaków tzw. efekt „coctail party”
- ptaki śpiewające jednocześnie
• Rozpoznawanie w warunkach dużego szumu i hałasu otoczenia
• Rozpoznawanie dużej liczby gatunków ptaków
Nierozwiązane problemy rozpoznawania głosów ptaków
Serdecznie zapraszamy Państwa do odwiedzania strony internetowej projektu
BIRDSMONDwww.birdsmond.pwsztar.edu.pl
Trznadel (łac. Emberizza citrinella) Sójka (łac. Garrulus glandarius) Trznadel (łac. Emberizza citrinella)
Dziękuję Państwu za uwagę