Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji
-
Upload
api-3735051 -
Category
Documents
-
view
2.625 -
download
1
Transcript of Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji
![Page 1: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/1.jpg)
Sygnał mowy jako nośnik informacji
1
Politechnika WrocławskaInstytut Telekomunikacji i AkustykiZakład Analizy i Przetwarzania
Sygnałów Akustycznych
Sygnał mowy jako nośnik
informacji
![Page 2: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/2.jpg)
Sygnał mowy jako nośnik informacji
2
Plan wykładu
Wstęp, hierarchiczny system syntezy mowy Rodzaje sygnałówTransformata Fourier’a sygnałuPróbkowanie sygnałówSygnał mowy - wytwarzanie, cechy akustyczne
- fonemyDyskretne źródło informacji Kompresja sygnału mowy
![Page 3: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/3.jpg)
Sygnał mowy jako nośnik informacji
3
Hierarchiczny system syntezy mowy
![Page 4: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/4.jpg)
Sygnał mowy jako nośnik informacji
4
Sygnał
Ciągłe Dyskretne i cyfroweDeterministyczne Losowe
Sygnał jest to czynnik będący nośnikiem informacji umożliwiający przesyłanie jej na odległość
Wyróżniamy następujące rodzaje sygnałów:
![Page 5: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/5.jpg)
Sygnał mowy jako nośnik informacji
5
Sygnały dyskretne i cyfrowe
![Page 6: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/6.jpg)
Sygnał mowy jako nośnik informacji
6
Przekształcenie Fourier’a
dtetxfX ftj 2)()(
1
0
)]/2sin()/2)[cos(()(N
n
NnmjNnmnxmX
Postać ciągła:
Postać dyskretna: DFT (Discrete Fourier Transform):
1...,,1,0 Nm
![Page 7: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/7.jpg)
Sygnał mowy jako nośnik informacji
7
Sygnał i jego moduł |DFT|
Przebieg sinusoidalny o częstośliwości 1[kHz]
Moduł DFT sygnały sinusoidalnego 1[kHz]
![Page 8: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/8.jpg)
Sygnał mowy jako nośnik informacji
8
Przebieg czasowy sumy sygnałów sinusoidalnych: 1 oraz 1,5[kHz]
Moduł DFT sumy dwóch sygnałów
![Page 9: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/9.jpg)
Sygnał mowy jako nośnik informacji
9
Przebieg czasowy sumy sygnałów sinusoidalnych:
1000, 1500, oraz 3500 [Hz]
Moduł DFT sumy trzech sygnałów
![Page 10: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/10.jpg)
Sygnał mowy jako nośnik informacji
10
Szybkie przekształcenie Fouriera FFT (Fast Fourier Transform)
FFT – jest to procedura wyznaczania DFT
2N- liczba mnożeń zespolonych w przypadku DFT
NN
2log2
-liczba mnożeń zespolonych w przypadkuFFT
kN 2 - długość analizowanego sygnału w FFT
k – liczba naturalna
![Page 11: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/11.jpg)
Sygnał mowy jako nośnik informacji
11
Przetwarzanie analogowo/cyfrowe sygnałów
1)Pobieranie wartości sygnału w dyskretnych momentach czasu2) Kwantowanie sygnału – przypisanie sygnałowi jednej ze zbioru wartości
Parametry przetwarzania A/C:-Częstotliwość próbkowania fs-Liczba bitów przetwornika
![Page 12: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/12.jpg)
Sygnał mowy jako nośnik informacji
12
Twierdzenie o próbkowaniuKotielnikowa - Shanona
Aby z sygnału spróbkowanego odtworzyć oryginalny sygnał konieczne jest zastosowanie częstotliwości próbkowania co najmniej dwukrotnie większej od maksymalnej częstotliwości składowej sygnału.
max2 ff s Nff max
Nf -częstotliwość graniczna Nyquista
![Page 13: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/13.jpg)
Sygnał mowy jako nośnik informacji
13
Próbkowanie sygnału (dyskretyzacja w czasie)
![Page 14: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/14.jpg)
Sygnał mowy jako nośnik informacji
14
Widmo sygnału telefonicznego
W przypadku telefonii stacjonarnej sygnał zawiera się W paśmie do 3400[Hz] a częstotliwość próbkowania wynosi 8000[Hz] czyli fp>2fmax
![Page 15: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/15.jpg)
Sygnał mowy jako nośnik informacji
15
Przetwarzanie A/C
W rzeczywistości aby warunek: fs>2*fmax był spełnionykonieczne jest zastosowanie filtru dolnoprzepustowegoo częstotliwości granicznej B < fs/2
![Page 16: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/16.jpg)
Sygnał mowy jako nośnik informacji
16
Charakterystyka przetwornika A/C, kwantyzacja sygnału
-Liczba przedziałów kwantowania Gdzie:n – liczba bitów przetwornika
12 n
![Page 17: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/17.jpg)
Sygnał mowy jako nośnik informacji
17
Dynamika sygnału analogowego
;log20min
max10
U
UD
maxU - maksymalna wartość napięcia sygnału
minU - minimalna wartość napięcia sygnału
W przypadku gdy:
szumuUU min => D=S/N
![Page 18: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/18.jpg)
Sygnał mowy jako nośnik informacji
18
Dynamika przetwornika PCM
Aby za pomocą przetwornika n – bitowego przekształcić sygnał analogowy bez zniekształceń konieczne jest spełnienie zależności:
02,6
Dn
Dynamikę przetwarzania analogowego sygnału na sygnałcyfrowy określa się jako:
][02,6)12(log20log20 10minmax
10 dBnq
UUN n
k
q – szerokość przedziału kwantyzacji przetwornika
Twierdzenie o kwantyzacji
![Page 19: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/19.jpg)
Sygnał mowy jako nośnik informacji
19
Liczba bitów przetwornika
n
Dynamika przetwarzania
[dB]
4 24,0
8 48,1
12 72,2
16 96,3
24 144,5
kN
![Page 20: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/20.jpg)
Sygnał mowy jako nośnik informacji
20
Sygnał mowyPasmo: od 70-150[Hz] do 5-7[kHz]Dynamika: Kilkadziesiąt [dB]Szacowana zawartość informacyjna:250[kb/s]
![Page 21: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/21.jpg)
Sygnał mowy jako nośnik informacji
21
Płaszczyzny sygnału mowy
![Page 22: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/22.jpg)
Sygnał mowy jako nośnik informacji
22
Wytwarzanie sygnału mowy
![Page 23: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/23.jpg)
Sygnał mowy jako nośnik informacji
23
Przebieg tonu krtaniowego
Zakres Fo od 100 do 140 [Hz] dla mężczyzn od 200 do 280 [Hz] dla kobiet
![Page 24: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/24.jpg)
Sygnał mowy jako nośnik informacji
24
Model wytwarzania sygnału mowy
![Page 25: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/25.jpg)
Sygnał mowy jako nośnik informacji
25
Częstotliwości formantowe
![Page 26: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/26.jpg)
Sygnał mowy jako nośnik informacji
26
Zakresy częstotliwości 4 pierwszych formantów
![Page 27: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/27.jpg)
Sygnał mowy jako nośnik informacji
27
Sonogram sygnału mowy
![Page 28: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/28.jpg)
Sygnał mowy jako nośnik informacji
28
FonemySą to „atomy” języka. Składają się z nichmorfemy, wyrazy i zdania.
Definicja fonemu:Fonemem określamy „najmniejszy segment dźwiękowy, który może różnicować znaczenia”. W języku polskim wyróżniamy 37 fonemów
![Page 29: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/29.jpg)
Sygnał mowy jako nośnik informacji
29
Lp
Przykład użycia fonemu Fonem
1 wino, lis, siwy
2 ryba, grzyb, myśl
3 rzeka, grzech, Ewa
4 rak, posag, chrzan
5 bok, krowa, kot
6 kurs, buty, róża
7 jama, jutro, kraj
8 łysy, miał, auto
9 ropa, kara, wiatr
Przykłady użycia fonemów
![Page 30: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/30.jpg)
Sygnał mowy jako nośnik informacji
30
Częstości występowania fonemów
![Page 31: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/31.jpg)
Sygnał mowy jako nośnik informacji
31
Transmisja sygnału przez kanał telekomunikacyjny
Jeżeli transmisja bezbłędna:I=I’
![Page 32: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/32.jpg)
Sygnał mowy jako nośnik informacji
32
„Informacja”
Informacja jest to miara niepewności co do tego która z możliwych wiadomości została odebrana. Ilość informacji rośnie ze wzrostem liczby możliwych wiadomości
![Page 33: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/33.jpg)
Sygnał mowy jako nośnik informacji
33
Dyskretne źródło informacji
},...,,{ 21 qsssS )(,...),(),( 21 qsPsPsP
][)(
1log)( 2 bitów
sPsI
ii
![Page 34: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/34.jpg)
Sygnał mowy jako nośnik informacji
34
S
ii bitówsIsP ])[()(
Średnia ilość informacji
S
ii
def
bitówsPsPsH ])[(log)()(
Entropia źródła
![Page 35: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/35.jpg)
Sygnał mowy jako nośnik informacji
35
Entropia alfabetu polskiego
Na podstawie estymat częstości występowania fonemówJassem uzyskał entropie polskiego alfabetu równą:
]/[7506,4)(log)(37
12 fonembitsPsPH
niip
![Page 36: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/36.jpg)
Sygnał mowy jako nośnik informacji
36
Kompresja sygnału mowy
W sygnale mowy występuje nadmiarowość informacji. Od początku istnienia telefonii starano się ograniczyć zawartość informa – cyjną sygnału mowy, ze względu na wąskopasmowe kanały transmisyjne.
Pierwsze ograniczenie sygnału mowy Występuje w momencie zawężenia pasma do zakresu od 300 do 3400 [Hz]
![Page 37: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/37.jpg)
Sygnał mowy jako nośnik informacji
37
Obecnie najczęściej sygnał jest przetwarzany na sygnał cyfrowy.
Przetwarzanie analogowo/cyfrowe stanowi najprostszą wersję kompresji sygnału mowy. Nieskończoną liczbę wartości zastępuje się skończonym zbiorem wynikającym z liczby poziomów kwantyzacji przetwornika
![Page 38: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/38.jpg)
Sygnał mowy jako nośnik informacji
38
Przepływności kanałów przy transmisji sygnału mowy
![Page 39: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/39.jpg)
Sygnał mowy jako nośnik informacji
39
System PCM
W systemach telekomunikacyjnych wykorzy – stuje się standard PCM.W standardzie tym sygnał przetwarza sięprzy pomocy przetworników 8 bitowych,częstotliwości próbkowania równej 8000[Hz].Aby uzyskać lepszą jakość sygnału na wejściu przetwornika sygnał poddawany jest kompresji.Stosuje się kompresje wg. dwóch rodzajów krzywych A lub
![Page 40: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/40.jpg)
Sygnał mowy jako nośnik informacji
40
Charakterystyka kompresji typu
)1log(
|)|1log(||
mv
V – znormalizowane napięcie wyjściowe
m – znormalizowane napięcie wejściowe
– stała dodatnia
![Page 41: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/41.jpg)
Sygnał mowy jako nośnik informacji
41
ADPCM – Adaptacyjny PCM
ADPCM – wykorzystuje zmienny w czasie przedział kwantowania, zmieniający się w zależności od zmian sygnału wejściowego. (Adaptuje się do zmian sygnału wejściowego).
![Page 42: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/42.jpg)
Sygnał mowy jako nośnik informacji
42
Kodowanie LPC sygnału mowy
Model generacji sygnału mowy
![Page 43: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/43.jpg)
Sygnał mowy jako nośnik informacji
43
W wyniku działania kodera każde 180 próbek zamienianejest na 12 parametrów.
}...,,,,{ 101 aaGT
T – okres pobudzeniaG – wzmocnienie
101 ...,, aa - współczynniki filtru traktu głosowego
W standardzie LPC-10 wszystkie współczynnikizakodowane są na 54 bitach.
![Page 44: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji](https://reader036.fdocument.pub/reader036/viewer/2022062705/5571f1ff49795947648bf200/html5/thumbnails/44.jpg)
Sygnał mowy jako nośnik informacji
44
Kompresja sygnału mowy
Algorytm Stopień kompresji
Strumień bitowy [kb/s]
PCM(G.711)
1:1 64
ADPCM (G.726)
2:1 32
RPE-LPT (GSM)
5:1 13
LPC-10 27:1 2,4