Pilot Sterowany Mową

Pilot sterowany mową.

Algorytm rozpoznawania mowy.

Plan prezentacji• Schemat ideowy projektu• Powstawanie mowy• Model generacji sygnału mowy:

– Pobudzenie– Trakt głosowy– Układ decyzyjny „mowa dźwięczna/bezdźwięczna”

• Metoda funkcji autokorelacji• Metoda funkcji AMDF• Metoda filtra odwrotnego• Metoda cepstralna

• Algorytm kodera mowy standardu LPC-10• Rozpoznawanie mowy• Program testowy w Matlabie• Wnioski i plany dotyczące realizacji projektu

Schemat ideowy projektu

Powstawanie mowy• Powietrze płynie z płuc do tchawicy• Napięcie strun głosowych jest

regulowane za pomocą mięśni• Powietrze wprowadza struny w

drgania (częstotliwość zależy od napięcia mięśni)

• Powietrze jest dzielone na dyskretne okresowe impulsy

• Impulsy przechodzą przez gardło i jamę ustną ewentualnie nosową

• Impulsy są modulowane w aparacie mowy

• Aparat mowy może być kształtowany przez usta, szczęki, podniebienie, język

Model generacji sygnału mowy

Model generacji sygnału mowyPobudzenie:

b) dźwięczne: rytmiczne, energiczne rozchylanie się strun głosowych pobudzające trakt głosowy silnymi impulsami powietrza z płuc (sygnał okresowy złożony z szeregu delt Diraca)

c) Bezdźwięczne: struny cały czas otwarte, wpuszczają do traktu głosowego równomierny strumień powietrza (szum wszystkich częstotliwości)

Układ decyzyjny „mowa dźwięczna/bezdźwięczna”(metoda funkcji autokorelacji)

)()()(N

knsnskr ,2,1,0k

s(n) – fragment sygnału składający się z N próbek, powstały z sygnału oryginalnegopo filtracji dolnoprzepustowej filtrem o górnej częstotliwości granicznej 900Hz i wymnożeniu oknem Hamminga.

Wyznaczamy pierwsze globalne maksimum funkcji r(k) dla k>K0

)0(]35,03,0[ rrprog

fragment dźwięczny fragment bezdźwięczny

progrr max progrr max

fpr – częstotliwość próbkowaniafT – maksymalna dopuszczalna częstotliwość tonu podstawowego

Progowanie

reszty dla ,0

)( dla ,)(

PnsPns

))(max(3,0 nsP Gdzie za próg P przyjmuje się:

lub: 8,06,0 ),,min(3

1 KAAKP

A – wartości maksymalne w poszczególnych częściach sygnału s(n)

Układ decyzyjny „mowa dźwięczna/bezdźwięczna”(metoda funkcji AMDF)

(ang. Average Magnitude Difference Function)

2,1,0 ,)()()(1

kknsnskDN

fragment dźwięczny fragment bezdźwięczny

maxmin 3,0 DD maxmin 3,0 DD

Układ decyzyjny „mowa dźwięczna/bezdźwięczna”(metoda filtra odwrotnego)

• Sygnał kodowany przepuszczony przez filtr odwrotny do filtra traktu głosowego

)()(/1)( )(/)( zAzHzGzAGzH

Mniejsza dynamika niż sygnał oryginalny poza chwilami impulsowego pobudzenia traktu głosowego- umożliwienie stwierdzenia „dźwięczna/bezdźwięczna”- możliwość lepszej kompresji sygnału

Układ decyzyjny „mowa dźwięczna/bezdźwięczna”(metoda cepstralna)

)( 00 kT

Widmo Fouriera fragmentu mowy dźwięcznej jest iloczynem sumy impulsów Diracai widma transmitacji traktu głosowego.

Pobudzenie w dziedzinie czasowej:

Pobudzenie w dziedzinie częstotliwościowej:

Wyznaczamy odwrotnątransformatę Fourieraz modułu transformaty obliczonego widma –Otrzymujemy okres powtarzania się widma i związany z nim okres pobudzenia

))((ln))((ln))()((ln)()(ln1

)( 11)121

jjjjknjN

Nkmj ePFeHFePeHFeemxmwN

Model generacji sygnału mowy

Trakt głosowy:Model traktu głosowego typu IIR

Minimum 5 biegunów parami sprzężonych

Równanie czasowe filtra syntezy:

)1)(1()1)(1(

zpzpzpzp

zazaza

)()()(k

k knsaneGns

Koder LPC-10

Algorytm kodera LPC-10

1. Preemfaza: (filtracja nierekursywna)

2. Okno:

3. Filtr traktu głosowego. Obliczenie współczynników filtra {ak,k=1,2,…,p} i wzmocnienia G

4. Filtracja dolnoprzepustowa:

5. Progowanie

6. Funkcja autokorelacji

7. Decyzja „dźwięczna/bezdźwięczna”

8. Okres tonu podstawowego:

9. Wyjściowy strumień bitowy:

)1(9375,0)()(1 nsnsns

)/2cos(46,054,0)( )()()( 12 Nnnwnwnsns

pkknsnskrkN

,...,2,1,0 ),()()(1

)0()2()1(

)2()0()1(

)1()1()0(1

)()0(1

krarGp

),()()(0

23 knskhnsM

},,,,,{ 21 paaaGT

Rozpoznawanie mowy• Współczynniki cepstralne – powstają w wyniku zlogarytmowania modułu widma i

ponownego wyznaczenia prostej lub odwrotnej dyskretnej transformaty Fouriera. Pierwsze 10-15 to współczynniki rozwinięcia logarytmu z modułu obwiedni widma w szereg Fouriera, które charakteryzują kształt obwiedni.

• Wyznaczenie współczynników cepstralnych:

a) podwójna szybka transformacja Fouriera FFT

b) na podstawie p współczynników filtra predykcji:

mac mk

qkwccw kkk 1 ,

kqwk 1 ),sin(

Rozpoznawanie mowy (c.d.)Nieliniowa transformacja czasowa DTW (Dynamic Time Warping):

Porównanie sekwencji wektorów współczynników cepstralnych wzoru i badanego sygnału

ns - numer wektora cepstrum

k – numer współczynnika cepstralnego tego wektora

Macierz odległości euklidesowych pomiędzy cepstrami:

qkNncknC ssn

ksss 1 ,1 ,),( )(

qkNncknC wwn

ww 1 ,1 ,),( )()(

wwssww

kssws NnNnknCknCnnd 1 ,1 ,)),(),((),( 2

Rozpoznawanie mowy (c.d.)

Obliczamy najmniejszy zakumulowany koszt przejścia między lewym dolnym a prawym górnym rogiem macierzy tzw. odległość zakumulowana globalna

Uniezależnienie od wielkości macierzy (unormowanie wartości zakumulowanej)

wierszu)pierwszym wa(akumulacj ,,,2,1 ),1,()1,(1

kss Nnkdng

kolumnie) pierwszej wa(akumulacj ,,,2,1 ),1,(),1(1

kww Nnkdng

)( ),(),1(

)( ),(2)1,1(

)( ),()1,(

min),(

prawonndnng

skosnndnng

góranndnng

),(),(

NNgwsa

Program testowy w Matlabie

Algorytm programu testowego

1. Nagranie wzorców (usunięcie cichych fragmentów na krańcach nagrania)

2. Wyznaczenie dla wzorców macierzy współczynników cepstralnych:

-wykorzystanie współczynników filtra LPC

3. Nagranie rozpoznawanego słowa

4. Obcięcie cichych fragmentów

5. Wyznaczenie macierzy współczynników cepstralnych dla słowa

6. Rozpoznanie słowa poprzez porównanie macierzy jego współczynników cepstralnych ze wzorcami metodą DTW

7. Wyświetlenie wyniku i wysłanie odpowiedniej komendy przez port COM

Wnioski i dalsze etapy

• Skuteczność (co należy zmienić aby polepszyć), interfejs (czy rozwijać?), rozbudowa układu nadajnika, problem przeniesienia kodu z Matlaba do C

• Co ma robić pierwszy gotowy projekt i jakie są planowane modyfikacje

Pilot Sterowany Mową

Technology

Transcript of Pilot Sterowany Mową

Pilot travel

Pilot Charts

Samobieżny pojazd poszukiwawczy sterowany komputerowo.

O różnicach między mową a pismem. Waltera Onga ...

Pilot analysis

bielskobiala.geminipark.pl · Helikopter Hawk a-Kan Metal Gyro Zdalnie sterowany. tylkO w Toyo us Najni±szej 4-pak figurek Spiderman vs Villains ... Zdalnie sterowany. CzestothwoSé

Od teorii do praktyki - narzędzia prawne do walki z mową nienawiści w internecie

Pilot questionnaire

5 EDYCJA KATALOG NAGRÓD - Program premium · Helikopter zdalnie sterowany 354 PKT E022 Auto- pojazd zdalnie sterowany *zdjęcie podglądowe-model wybierany losowo 236 PKTPKT E021

Zdalnie sterowany przy pomocy HART ® SMART®

Ручки Pilot

Pilot Loondispensatie

Pilot-BIM.Общиесведения · Pilot-BIM.Общиесведения СистемаPilot-BIM—этоклиент-сервернаясистемадляуправленияданныминаоснове

STEROWANY RADIOWO BUDZIK Z PROJEKTOREM · 2011-03-18 · STEROWANY RADIOWO BUDZIK Z PROJEKTOREM Instrukcja obsługi WSTĘP: Gratulujemy zakupu budzika z projektorem z czasem sterowanym

Pilot Info

Projekti Pilot

· Cl Helikopter zdalnie sterowany, str. 29 Cl Quadrocopter zdalnie sterowany, str. 29 . zVszt. Super Truck dlugi — cieŽarówka z odpinana naczepa ... Oterta obowatuie od 23.

PILOT [TPM]

Model skutecznej walki z mową nienawiści - teatrgrodzki.pl · Þóra Jónsdóttir Model skutecznej walki z mową nienawiści Raport na temat zwalczania mowy nienawiści w sieci

WK 420 290 Zawór odciążający sterowany pośrednio typ UZOP