Internetes médiakommunikáció Beszéd-kodekek
description
Transcript of Internetes médiakommunikáció Beszéd-kodekek
![Page 1: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/1.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
1
Internetes médiakommunikáció
Beszéd-kodekek
Takács György
3. előadás
2009. 03. 04.
![Page 2: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/2.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
2
• Ismétlés
• Beszéd-kodekek általában
• GSM beszéd-kodekek
• SPEEX kodekek
![Page 3: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/3.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
3
Alapfogalmak
• Internetes médiakommunikáció = Szöveg, állókép, hang, beszéd, (strukturált) adat továbbítása Internet Protokoll alapú hálózatokon a megkívánt minőséggel, adatbiztonsággal, interaktivitással, megbízhatósággal.
![Page 4: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/4.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
4
A beszédhangok folytonos és diszkrét természete
![Page 5: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/5.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
5
A beszéd szerkezete• A beszéd egymástól megkülönböztethető
elemek szervezett időbeni egymásutánisága – soros szerkezet.
• Elem lehet egy összefüggő mondanivaló, egy hosszabb szünetekkel elhatárolt beszédrész, egy mondat, egy szó, egy beszédhang.
• Egy ötven beszédhangból álló nyelvben (leszámítva, hogy nem minden hang mondható egymás után) kb. egymillió különböző tíz hangból álló szó képezhető.
• A beszéd szerkezete felülről gyakorlatilag nyitott, alulról zárt.
![Page 6: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/6.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
6
Lineári predikció alapokA beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával
ahol az αi lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat.
p -- a prediktor fokszáma
![Page 7: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/7.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
7
A predikció pontatlanságát jellemzi az
predikciós hiba
A predikciós hiba általában mintáról mintára változik!
Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az αi értékeket, hogy a predikciós hiba négyzetösszege minimális legyen.
![Page 8: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/8.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
8
(a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization
![Page 9: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/9.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
9
Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már
nem korlátoz?
![Page 10: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/10.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
10
Minek tömöríteni a beszédjelet – válaszaim:
• Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél).
• Nagy az árverseny a transzkontinentális összeköttetéseken
• Korlátos és nem garantált az interneten rendelkezésre álló sávszélesség…..
• Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…)
• Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány)
• A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál)
![Page 11: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/11.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
11
Mekkora redundancia van a beszédjelben?Hány bitet kell átvinni legalább elvileg? (A
digitális telefonátvitelben 8kHz mintavétel és 8 bites minta a szabványos > 64kbit/s)
![Page 12: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/12.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
12
Mekkora a redundancia – válaszaim beszédkeltés, beszédszintézis
megfontolásból:
• A leggyorsabb beszéd átlagosan kb. 10 fonéma/s
• A kb. 50 fonéma van nyelvenként (angolban kb. 25)
• 1 fonéma információ tartalma kb. 0,5 bit (az egyes fonémák előfordulási gyakorisági értékei miatt)
• Eredmény kb. 250 (angolban 125) bit/s (de ez nem tartalmazza a beszélő személyét, hangulatát, a hangsúlyokat stb….)
![Page 13: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/13.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
13
Mekkora a redundancia – válaszaim beszédérzékelés, beszédfelismerés
megfontolásból:
• Az emberi agy teljes folyamatos információ feldolgozó képessége kb. 50 bit/s
• Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s (hivatkozott cikk lásd 2. előadás)
![Page 14: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/14.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
14
Miből fakad a nagyságrendi eltérés?
![Page 15: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/15.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
15
Miből fakad a nagyságrendi eltérés – válaszaim:
• Amikor én Önök elé állok szerdán délután mit szoktam mondani első mondatban?
• Mekkora új információt hordoz Önök számára, ha ismét elmondom?• A nyelv (mint jelrendszer) szintaktikája miatt (milyen szavak vannak
a szótárban, milyen szabályok szerint kapcsolódhatnak egymáshoz, milyen a nyelvtani megkötöttségek) – mekkora már a lehetséges és tényleg használt szimbólum stringek aránya???
• Mekkora az egymás mellé sorsolható és a tényleg kimondható fonéma stringek aránya????
• Ha már a második magánhangzónál tartunk mekkora a magánhangzó rákövetkezésének esélye?????
• Az eltérés mértéke attól függ, hogy milyen mély nyelvi elemzésbe megyünk bele, mennyire értjük az üzenetet, mennyire személyes az információs kapcsolat….
• Ha a tényleges legmélyebb, személyes szintre megyünk le – még a 30 bit/s is alig jön ki – tehát nincs eltérés!!!!!
![Page 16: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/16.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
16
Mit várunk a beszédtömörítőktől?
• Értse amit mondunk – nem!
• Tudja milyen nyelven beszélünk – nem!
• A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvaló a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket!
![Page 17: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/17.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
17
Hol tart ma a beszédtömörítés gyakorlata az elvi határértékhez képest?
• A laboratóriumi rendszerek lementek 1 kbit/s alá!
• Ami az Önök zsebében most ott lapul , az 5,6 kbit/s értéket tudja (half rate codec)
• Nyilvános rendszerek alkalmazásaiban legyen szabványos, realizálható, hibatűrő, minőség/sávszélesség aránya szerint skálázható.
![Page 18: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/18.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
18
Semmi tömörítés: DÉL Tömörítés abszolút nullára: ÉJFÉL
Shannon szerinti telefon 13 óra
(96000bit/s)
GSM FULL RATE
22 óra 29 perc
(13000 bit/s)
GSM HALF RATE
23 óra 18 perc
(5600 bit/s)
Laboratóriumi csúcs
23 óra 51 perc
1000bit/s
Elvi kiejtési határ23 óra 58 perc250 bit/s
![Page 19: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/19.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
19
"A lathe is a big tool. Grab every dish of sugar."
Eredeti
2400 bit/s
![Page 20: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/20.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
20
![Page 21: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/21.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
21
A GSM rendszer -- áttekintés
• Nyilvános cellás (analóg) rádiótelefon rendszerek működtek az 1980-as évek elejétől
• Korlátaik: – sávszélesség pazarlás, – csak a saját hálózaton belül használható egy
végberendezés, – nem tudott kialakulni a kritikus tömeg a magas
árak miatt…
![Page 22: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/22.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
22
A GSM rendszer – áttekintés (2)
• GSM Memory of Understanding -- 13 ország megállapodása 1987-ben, hogy kidolgozzák a közös technológiát 1991 július 1-re.
• A rendszer legyen korszerű, hatékony, tegye lehetővé a bolyongást egész (nyugat) Európában.
• A végberendezés legyen egységes, az előfizetés SIM kártyához kapcsolódik….
• Legyen versenylehetőség országon belül is….. • Először szabványosítás, utána gyártás….• Szabványosítás az ETSI keretében…• Első változat 6000 oldal!!!!
![Page 23: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/23.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
23
A GSM rendszer – áttekintés (3)
• Az európai megoldás eredménye:– Soha nem látott ütemű fejlődés,– Ma Magyarországon közel 11 millió előfizető
(2008. április),– A világon több, mint 2 milliárd GSM előfizető
volt 2007 végén– 2003-ban kb. 400 millió codec chip készült
(több mint napi 1 millió darab!!!!)– Ma csak erről az „apróságról” lesz szó….
![Page 24: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/24.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
24
A GSM rendszer – áttekintés (4)• Egy GSM terminál funkciói:
• Hány csip kell ehhez?
![Page 25: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/25.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
25
KODEK követelmények
• Nagy tömörítés (64 kbit/s-ről kb. 10 kbit/s-re)• Tisztán digitális rendszer• Jó minőség• Hibatűrés (a rádiós átvitel sajátosságai miatt)• Stabilitás• Kis késleltetés (max. 50 ms)• Kis fogyasztás• Implementálhatóság• Full Rate, Half Rate, Enhanced Full Rate,
Adaptive Rate változatok
![Page 26: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/26.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
26
![Page 27: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/27.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
27
GSM KODEK követelmények
• Nagy tömörítés (64 kbit/s-ről kb. 13 kbit/s-re)• Tisztán digitális rendszer• Jó minőség• Hibatűrés (a rádiós átvitel sajátosságai miatt)• Stabilitás• Kis késleltetés (max. 50 ms)• Kis fogyasztás• Implementálhatóság• Full Rate, Half Rate, Enhanced Full Rate,
Adaptive Rate változatok
![Page 28: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/28.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
28
GSM Kodek alapjellemzők
• Mintavételi frekvencia 8kHz• Analízis keret 20ms (160 minta)• Reflexiós együtthatók száma 8 (prediktor
fokszáma) kifejezése LAR (Log Area Reflexion) paraméterekkel
• Reziduális hiba tovább bontva 4 db 40 mintás alszegmensre RPE (Regular Pulse Exitation) kódolás és LTP (Long Term Predictor) kódolással
• 260 bit/20 ms (13000 bit/s) nettó bitsebesség
![Page 29: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/29.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
29
![Page 30: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/30.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
30
![Page 31: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/31.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
31
![Page 32: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/32.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
32
![Page 33: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/33.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
33
Kell-e egy mai mérnöknek CODEC programot írnia?
• Nem, mert letölthető sok változat, kapható kész chipset!
![Page 34: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/34.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
34
![Page 35: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/35.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
35
![Page 36: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/36.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
36
![Page 37: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/37.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
37
![Page 38: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/38.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
38
![Page 39: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/39.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
39
• Int. Headquarters• ISRAEL• AudioCodes Ltd.• 1 Hayarden Street, Airport City Lod, 70151 (Get
Directions) • Tel: +972-3-976-4000 • Fax: +972-3-976-4040
![Page 40: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/40.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
40
Egyik alapvető kodek termék:
AudioCodes’ AC494/5/6/7 family of System on Chip (SoC) provides IP phone and Customer Premises Equipment (CPE) manufacturers with cutting-edge VoIP processing system capabilities. The AC494 family combines MIPS Controller, AC49x DSP Core and a rich set of peripherals such as Codecs, Ethernet MACs and Phys, integrated 3 Port Switch and more. Several silicon derivatives of this family allow cost optimization per application.
![Page 41: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/41.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
41
AudioCodes’ AC494/5/6/7 Software Specifications
• Channel Density: Up to 6 channels• Voice Coders: G.711, G.723, G.729, G.722.2, iLBC,
G.722*• Echo CancellerG.168-2002 compliant; Full duplex
acoustic EC• 3/4 Way Conferencing: 3/4 participants from PSTN or IP• Quality Enhancement:
– Voice Activity Detection (VAD), – Comfort Noise Generation (CNG),– Packet Loss Concealment (PLC), – Adaptive Jitter Buffer (up to 300 msec)
![Page 42: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/42.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
42
A SPEEX kodek koncepciója
• A fejlesztők egy nyílt forráskódú beszédkodeket terveztek, amelynél nem kell kodekenként díjat fizetni a szabadalom tulajdonosainak. Valami olyat terveztek, mint a Vorbis az audio (zenei) kodekek területén.
• Nem a mobiltelefonok igényét tartották szemelött (persze abból már működik több, mint 2 milliárd darab), hanem kifejezetten az IP alapú hálózatok igényeit és a VoIP alkalmazásokat. Jól alkalmazható a SPEEX beszédjelek tömör tárolására is fájlokban.
![Page 43: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/43.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
43
A SPEEX kodek koncepciója
• Legyen rugalmas és széles beszédminőség-tartományban használható azaz különböző bitsebességeknél. Felöleli a szélessávú (16kHz mintavételes) jóminőségű beszédkódolástól a szokásos telefonminőségen át a 4,8 kbps tömörítésig.
• A SPEEX jól tűri a csomagveszést, de nem működik jól bithibák esetén. Azt feltételezi, hogy a csomagok vagy megérkeznek rendben vagy elvesznek.
• Mivel sokféle eszközben tervezték a felhasználását, ezért törekedtek a fejlesztésénél ara, hogy megvalósításánál a processzorteljesítmény és tárterület igény minimális legyen.
![Page 44: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/44.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
44
A SPEEX kodek koncepciója
• A követelmények alapján a legjobban illeszkedő kódolási technika a CELP (Code Excitation Linear Prediction). Ez a technika egyrészt bevált, megbízható, továbbá alkalmas széles minőségi tartományban hasonló algoritmusú működésre.
• A SPEEX kódolás veszteséges, azaz a tömörítést beszédminőség rovására hajtja végre. A tömörítési arány beállítható és lehetséges az állandó (CBR) vagy változó (VBR) bitsebességű működés is. (2,15 kbps – 44kbps)
• A kódolás komplexitása is változtatható.
![Page 45: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/45.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
45
A SPEEX kodek koncepciója
• Beszéddetektálás (VAD) a kodek eldönti, hogy jön-e beszédjel, vagy beszédszünet van (esetleg háttérzaj). Ha nincs aktív beszédjel, akkor nem kódol, hanem csak egy pár mintával reprezentált „komfort” zajt ad ki.
• A SPEEX kodek elvi (CPU idő nélküli) késleltetése 8kHz mintavételezésnél 30 ms, 16 kHz-nél 34 ms.
![Page 46: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/46.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
46
SPEEX keskenysávú módban
![Page 47: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/47.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
47
SPEEX szélessávú módban
![Page 48: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/48.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
48
SPEEX kodek elemek - segédelemek
• Zajcsökkentés
• Automatikus szintszabályozás (AGC)
• Beszéddetektálás (VAD)
• Adaptív buffer
• Visszhangzár
![Page 49: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/49.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
49
Visszhangzár elve (hangszórós működéskor fontos, hogy a partner ne hallja késleltetve vissza
a saját hangját)
![Page 50: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/50.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
50
A CELP elv
![Page 51: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/51.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
51
A CELP eredő gerjesztőjele
• Ahol:– e(n) - az LPC szintézis szűrőt gerjesztő jel– a predikált periodikus hibajel– C(n) a rögzített kódkönyvtárból vett gerjesztő jel
![Page 52: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/52.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
52
Teljes keret elemzés 8 kHz mintavételt feltételezve
• Egy keret 20 ms – (160 minta)• Keretenként számolandók a Line Spectra Pairs (LSP)
értékek és global gain (gframe )értékek • Az értékek kvantálandók
![Page 53: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/53.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
53
Miért nem az LPC együtthatókat kvantáljuk?• stabilitási kritérium -- P(z) és Q(z) gyökei az egységkörön vannak és
felváltva jönnek• fizikai tartalom • Vektorkvantálás után elegendő 18-30 bit az LSP együtthatók kvantált
leírására.
![Page 54: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/54.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
54
Alkeret elemzés szintézissel (AbS) 8 kHz-es mintavételnél
• Minden keretet 4 db 5 ms hosszú alkeretre bontunk (40 beszédminta)
• Az AbS a fő különbség a többi CELP kodekhez képest.• A SPEEX egy valós számmal írja le a pitch értéket, de
egy háromlépcsős prediktort és 3 pitch gain értéket használ fel az ea(n) kiszámolásához
![Page 55: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/55.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
55
![Page 56: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/56.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
56
LSP are more correlated from one frame to the next than LPC. The frame size is 20 msec. There are 50 frames/sec. 2400 bps is equivalent to 48
bits/frame. These bits are allocated as follows:
![Page 57: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/57.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
57
"A lathe is a big tool. Grab every dish of sugar."
Eredeti
2400 bit/s
![Page 58: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/58.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
58
Forrás
• The Speex Codec Manual• Version 1.2 Beta 3• Jean-Marc Valin• December 8, 2007• http://speex.org/docs/manual/speex-manual.pdf
![Page 59: Internetes médiakommunikáció Beszéd-kodekek](https://reader036.fdocument.pub/reader036/viewer/2022081519/56813ac7550346895da2de94/html5/thumbnails/59.jpg)
T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.
59
Hasznos linkek
• http://www.comms.eee.strath.ac.uk/~gozalvez/gsm/gsm.html
• http://ccnga.uwaterloo.ca/~jscouria/GSM/gsmreport.html
• http://www.analog.com/UploadedFiles/Product_Briefs/627038651430chipset.pdf
• http://www.ddj.com/print/ (komplett C nyelvű algoritmus)
• http://www.commsdesign.com/design_corner/OEG20030711S0010