Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza...
Transcript of Slajd 1 - DMCS · 2005. 1. 5. · Slajd 41 Zygmunt Ciota 1/4/2005 Slide 41 Rozpoznawanie i synteza...
Slajd 1
1/4/2005Zygmunt Ciota Slide 1
Rozpoznawanie i synteza mowy w systemach multimedialnych
Analiza i synteza mowy - wprowadzenie
Spektrogram wyrażenia: „computer speech”
Slajd 2
1/4/2005Zygmunt Ciota Slide 2
Rozpoznawanie i synteza mowy w systemach multimedialnych
Analiza i synteza mowy - wprowadzenie
Slajd 3
1/4/2005Zygmunt Ciota Slide 3
Rozpoznawanie i synteza mowy w systemach multimedialnych
Analiza i synteza mowy - wprowadzenie
Slajd 4
1/4/2005Zygmunt Ciota Slide 4
Rozpoznawanie i synteza mowy w systemach multimedialnych
Maszyna wymawiająca samogłoski z 1769 roku zbudowana przezWolfganga Rittera von Kempelen (rekonstrukcja)
Pierwsze próby syntezy mowy
Slajd 5
1/4/2005Zygmunt Ciota Slide 5
Rozpoznawanie i synteza mowy w systemach multimedialnych
Urządzenia do wymawiania spółgłosek „plozyjnych”: „b” i „d” (Wolfgang Ritter)
Pierwsze próby syntezy mowy
Slajd 6
1/4/2005Zygmunt Ciota Slide 6
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rezonatory (wibrujące piszczałki) Kratzensteina - 1779
Pierwsze próby syntezy mowy
Slajd 7
1/4/2005Zygmunt Ciota Slide 7
Rozpoznawanie i synteza mowy w systemach multimedialnych
Przekroje kanału głosowegoprzy wymawianiu samogłosek„i” oraz „u” i odpowiadające im formanty (rezonanse)
Pierwsze próby syntezy mowy
Slajd 8
1/4/2005Zygmunt Ciota Slide 8
Rozpoznawanie i synteza mowy w systemach multimedialnych
Najprostszy model kanału głosowego
Pierwsze próby syntezy mowy
Slajd 9
1/4/2005Zygmunt Ciota Slide 9
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy oraz identyfikacja głosu
Pomiar parametrów fizycznych kanału głosowego
Slajd 10
1/4/2005Zygmunt Ciota Slide 10
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy oraz identyfikacja głosu
Pomiar parametrów geometrycznych kanału głosowego
Slajd 11
1/4/2005Zygmunt Ciota Slide 11
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy oraz identyfikacja głosu
Poprawa jakości głosu metodą modulacji częstotliwościowej
Slajd 12
1/4/2005Zygmunt Ciota Slide 12
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy oraz identyfikacja głosu
Spektrogram wyrażenia „two of five”
Spektrogram po modulacji częstotliwości (2 - 8 Hz)
Slajd 13
1/4/2005Zygmunt Ciota Slide 13
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy oraz identyfikacja głosu
Spektrogram w obecności szumu średniego natężenia
Spektrogram po modulacji częstotliwości
Slajd 14
1/4/2005Zygmunt Ciota Slide 14
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy oraz identyfikacja głosu
Spektrogram w obecności silnego szumu
Spektrogram po modulacji częstotliwości
Slajd 15
1/4/2005Zygmunt Ciota Slide 15
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy oraz identyfikacja głosu
Spektrogram po modulacji częstotliwości
Spektrogram w pomieszczeniu odbijającym głos
Slajd 16
1/4/2005Zygmunt Ciota Slide 16
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy oraz identyfikacja głosu
Spektrogram w pomieszczeniu odbijającym głos (b. silny pogłos)
Spektrogram po modulacji częstotliwości
Slajd 17
1/4/2005Zygmunt Ciota Slide 17
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy
( ) ( ) )()( ApWpWApAWp ⋅=
Reguły Bayes,a: wyznaczanie prawdopodobieństw a posteriori w funkcji prawdopodobieństw a priori
Slajd 18
1/4/2005Zygmunt Ciota Slide 18
Rozpoznawanie i synteza mowy w systemach multimedialnych
Kompresja mowy
Predykcja liniowa
npnpnnn esasasas +−−−−= −−− L2211
10
2
1 01
2 =
== ∑ ∑∑
= =−
=
asaeEN
n
p
kknk
N
nn
(1)
Slajd 19
1/4/2005Zygmunt Ciota Slide 19
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy
0201
===∂∂ ∑∑
=−
=−
p
kknk
N
nmn
m
sasEaE
Odwracając porządek sumowania
∑∑=
−−=
==N
nknmnmk
p
kkmk ssrgdziear
100
Slajd 20
1/4/2005Zygmunt Ciota Slide 20
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy
Pamiętając, że a0=1
01
m
p
kkmk rar −=∑
=
lub w postaci macierzowej
00 rRaraR ⋅=−=⋅ −1czyli
Slajd 21
1/4/2005Zygmunt Ciota Slide 21
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy oraz identyfikacja głosu
Slajd 22
1/4/2005Zygmunt Ciota Slide 22
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy
Filtr predykcyjny
Filtr FIR (Finite Impulse Response):
( ) ∑=
−=N
k
kk zazH
0
Odpowiedź impulsowa filtru FIR:
paaa L,,,1 21
Slajd 23
1/4/2005Zygmunt Ciota Slide 23
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy
( )zssn ( )zeenPrzyjmując:
( ) pp zazazazA −−− ++++= L2
21
11
Z równania (1):
pnpnnnn sasasase −−− ++++= L2211
czyli:
( ) ( ) ( ) ( ) ( )( )zAzezszezAzs ==⋅
Slajd 24
1/4/2005Zygmunt Ciota Slide 24
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy
( ) LL 2121 ,11 zzzz
zzzA
−⋅
−=
( ) ( )zAzH p1
=
zera A(z)
all-pole filter
Slajd 25
1/4/2005Zygmunt Ciota Slide 25
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy oraz identyfikacja głosu
Głoska dźwięczna i jej widmo oraz obwiednia zdefiniowana przez filtr 1/A(z)
Slajd 26
1/4/2005Zygmunt Ciota Slide 26
Rozpoznawanie i synteza mowy w systemach multimedialnych
Głoska bezdźwięczna i jej widmo oraz obwiednia zdefiniowana przez filtr 1/A(z)
Rozpoznawanie mowy oraz identyfikacja głosu
Slajd 27
1/4/2005Zygmunt Ciota Slide 27
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy oraz identyfikacja głosu
Kształtowanie widma szumu: szum słyszalny i prawie niesłyszalny
Slajd 28
1/4/2005Zygmunt Ciota Slide 28
Rozpoznawanie i synteza mowy w systemach multimedialnych
Analiza kanału głosowego
Slajd 29
1/4/2005Zygmunt Ciota Slide 29
Rozpoznawanie i synteza mowy w systemach multimedialnych
Analiza kanału głosowego
Slajd 30
1/4/2005Zygmunt Ciota Slide 30
Rozpoznawanie i synteza mowy w systemach multimedialnych
Kanał głosowy
Slajd 31
1/4/2005Zygmunt Ciota Slide 31
Rozpoznawanie i synteza mowy w systemach multimedialnych
Równanie Webster’a, czyli równanie natężenia (ciśnienia) fali dźwiękowej p(x,t) wzdłuż kanału:
2
2
22
2 11tp
cxp
dxdA
Axp
∂∂=
∂∂+
∂∂
A(x) jest przekrojem kanału głosowego między głośnią (x=0) a wargami x=L ~= 170 mm)
Kanał głosowy
Slajd 32
1/4/2005Zygmunt Ciota Slide 32
Rozpoznawanie i synteza mowy w systemach multimedialnych
Lokalizacja położenia źródła dźwięku
tdc∆=∆ 0180α
Prawo pierwszej fali frontowej (Joseph Henry)i efekt Haas’a
Slajd 33
1/4/2005Zygmunt Ciota Slide 33
Rozpoznawanie i synteza mowy w systemach multimedialnych
u1(t) u2(t)
t t
Continuity effect
Lokalizacja położenia źródła dźwięku
Slajd 34
1/4/2005Zygmunt Ciota Slide 34
Rozpoznawanie i synteza mowy w systemach multimedialnych
Lokalizacja położenia źródła dźwięku
300Hz, 3kHz
8kHz
1kHz, 10kHz
Slajd 35
1/4/2005Zygmunt Ciota Slide 35
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy
Slajd 36
1/4/2005Zygmunt Ciota Slide 36
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy
Slajd 37
1/4/2005Zygmunt Ciota Slide 37
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy
Slajd 38
1/4/2005Zygmunt Ciota Slide 38
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy
Slajd 39
1/4/2005Zygmunt Ciota Slide 39
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy
Slajd 40
1/4/2005Zygmunt Ciota Slide 40
Rozpoznawanie i synteza mowy w systemach multimedialnych
Przebieg funkcji cepstrum z zaznaczonym toremgłosowym (1) oraz pobudzeniem krtaniowym (2)
Rozpoznawanie mowy
Slajd 41
1/4/2005Zygmunt Ciota Slide 41
Rozpoznawanie i synteza mowy w systemach multimedialnych
Formaty dźwiękowe
LPCM (Linear Pulse Code Modulation): udoskonalony PCM
6,144 Mb/s816 bitów48 kHz5,76 Mb/s620 bitów48 kHz5,76 Mb/s524 bity48 kHz
4,608 Mb/s224 bity96 kHz5,76 Mb/s320 bitów96 kHz6,144 Mb/s416 bitów96 kHz
Strumień max.Ilośćkanałów
RozdzielczośćCzęstotliwośćpróbkowania
Slajd 42
1/4/2005Zygmunt Ciota Slide 42
Rozpoznawanie i synteza mowy w systemach multimedialnych
MPEG – AUDIO
A. MPEG-1 audio, opisuje trzy warstwy kodowania dźwiękuo następujących właściwościach:
• 1 lub 2 kanały dźwiękowe• Częstotliwość próbkowania 32kHz, 44.1kHz lub 48kHz• Przepustowość od 32kbps do 448kbps
Slajd 43
1/4/2005Zygmunt Ciota Slide 43
Rozpoznawanie i synteza mowy w systemach multimedialnych
B. MPEG-2 audio występuje w dwóch odmianach
MPEG-2/LSF • 1 lub 2 kanały dźwiękowe• Dwa razy mniejszą częstotliwość próbkowania • Przepustowość od 8 do 256 kbs
MPEG-2/Multichannel • Do 5 pełno-zakresowych kanałów dźwiękowych• Częstotliwość próbkowania taką samą jak w MPEG-1• Rozdzielczość 16 bitów• Większe przepustowości dochodzące do około 1 Mb/s
do systemu 5+1 kanałów
Slajd 44
1/4/2005Zygmunt Ciota Slide 44
Rozpoznawanie i synteza mowy w systemach multimedialnych
Schemat blokowy układu kodera standardu MPEG-1
Slajd 45
1/4/2005Zygmunt Ciota Slide 45
Rozpoznawanie i synteza mowy w systemach multimedialnych
Struktura zakodowanego strumienia danych MPEG-1
Slajd 46
1/4/2005Zygmunt Ciota Slide 46
Rozpoznawanie i synteza mowy w systemach multimedialnych
Dolby Surround
Slajd 47
1/4/2005Zygmunt Ciota Slide 47
Rozpoznawanie i synteza mowy w systemach multimedialnych
Kodowanie
Slajd 48
1/4/2005Zygmunt Ciota Slide 48
Rozpoznawanie i synteza mowy w systemach multimedialnych
Dekodowanie
Slajd 49
1/4/2005Zygmunt Ciota Slide 49
Rozpoznawanie i synteza mowy w systemach multimedialnych
Dolby Pro Logic
Slajd 50
1/4/2005Zygmunt Ciota Slide 50
Rozpoznawanie i synteza mowy w systemach multimedialnych
Kodek
Slajd 51
1/4/2005Zygmunt Ciota Slide 51
Rozpoznawanie i synteza mowy w systemach multimedialnych
Dekodowanie
Slajd 52
1/4/2005Zygmunt Ciota Slide 52
Rozpoznawanie i synteza mowy w systemach multimedialnych
Dolby Digital
Slajd 53
1/4/2005Zygmunt Ciota Slide 53
Rozpoznawanie i synteza mowy w systemach multimedialnych
Rozpoznawanie mowy
Kompatybilne miksowanie w dół
Slajd 54
1/4/2005Zygmunt Ciota Slide 54
Rozpoznawanie i synteza mowy w systemach multimedialnych
DTS firmy Digital Theater Systems
DTS –EX
Slajd 55
1/4/2005Zygmunt Ciota Slide 55
Rozpoznawanie i synteza mowy w systemach multimedialnych
DC DVD
Slajd 56
1/4/2005Zygmunt Ciota Slide 56
Rozpoznawanie i synteza mowy w systemach multimedialnych
dwuwarstwowa – dwustronna17 GBDVD 18
dwuwarstwowa –jednostronna
9.4 GBDVD 10
jednostronna –dwuwarstwowa
8.5 GBDVD 9
jednostronna –jednowarstwowa
4.7 GBDVD 5
Rodzaj płyty:Pojemność:Standard:
Slajd 57
1/4/2005Zygmunt Ciota Slide 57
Rozpoznawanie i synteza mowy w systemach multimedialnych
Struktura warstw płyty DVD w zależności od standardu