CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320...
Transcript of CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320...
![Page 1: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/1.jpg)
1
CODIFICACIÓN DE AUDIO
Codificaciones Clásicas Redundancia
Escalar, Vectorial
En Tiempo PCM, logPCM, APCM, DPCM
En Frecuencia SBC, TC
Con Modelos Análisis (por) Síntesis
Codificaciones Perceptuales Relevancia
Modelos Psicoacústicos
Parámetros
Cuantificación y Codificación
ΠΘΜ
![Page 2: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/2.jpg)
2
CODIFICACIÓN DE AUDIO
Codificación de alta calidad , PCM
Telefónica, Fs=8KHz, B=8bits, 64
Voz de banda ancha , Fs=16KHz, B=8bits, 128
Audio banda media , Fs=24KHz, B=16bits, 384
Audio banda ancha, Fs=48KHz, B=16bits, 768
CD , Fs=44.1KHz, B=16 bits, estéreo, 1410
Overheads de 49-bits/16-bit, 4320
Analógico , Fs>55KHz, B>20 bitsΠΘΜ
![Page 3: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/3.jpg)
3
CODIFICACIÓN PERCEPTUAL
Principios Psicoacústicos
Estructura General
Modelo Psicoacústico
Análisis Tiempo-Frecuencia
Cuantificación y Codificación
Estándares ΠΘΜ
![Page 4: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/4.jpg)
4
PRINCIPIOS PSICOACÚSTICOS
Nivel de Presión Sonora (dB)
Umbral Absoluto de Audición
Bandas Críticas
Banco de Filtros Paso Banda
Solapados y No Uniformes
Enmascaramiento
Simultáneo
TMN, NMT, NMN
Temporal
Pre, Post
ΠΘΜ
![Page 5: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/5.jpg)
5
PRINCIPIOS PSICOACÚSTICOS
Nivel de Presión Sonora (dB)
Lspl = 20 log10 (P/Po) dB
Po = 20 µPa = 2*10e-5 N/m2
Normalización, Fondo de escala = 90 dB SPL
21(2 / )
100
1
( ) 90.302 10log ( ) ( )
1 2 ( )( ) 1 cos , ( )2 2
Nj kn N
n
b
P k w n x n e
n s nw n x nN N
π
π
−−
=
−
= +
= − =
∑ΠΘΜ
![Page 6: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/6.jpg)
6
AUDICIÓN
Umbral Absoluto de Audición
20.8 40.6 3.331000( ) 3.64 6.5 10 ( )
1000 1000
ff fTq f e dB SPL− − − − = − +
102
103
104
0
20
40
60
80
100
ΠΘΜ
![Page 7: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/7.jpg)
7
BANDAS CRÍTICAS
Bandas Críticas Aproximaciones
0.692
( ) 25 7 1 1.4 ( )1000fBWc f Hz
= + +
Escala Bark (Bark = 1 banda crítica)
2
( ) 13arctan(0.00076 ) 3.5arctan ( )1000fz f f Bark
= +
Ancho de Banda
ΠΘΜ
![Page 8: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/8.jpg)
8
BANDAS CRÍTICAS
Tabla de Bandas Críticas
2000-23202320-27002700-31503150-37003700-44004400-53005300-64006400-77007700-95009500-1200012000-1550015500-20000
21502002900340040004800580070008500105001350019500
141516171819202122232425
0-100100-200200-300300-400400-510510-630630-770770-920920-10801080-12701270-14801480-17201720-2000
5015025035045057070084010001175137016001850
12345678910111213
Bwi (Hz)Fi (Hz)Nº BBwi (Hz)Fi (Hz)Nº B.
ΠΘΜ
![Page 9: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/9.jpg)
9
ENMASCARAMIENTO
Enmascaramiento Simultáneo
Nivel del Enmascarador
Umbral de EnmascaramientoRelación Señal a Máscara (SMR)
EnmascaradorSPL (dB)
BandaCrítica
Señales Enmascaradas
ΠΘΜ
![Page 10: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/10.jpg)
10
ENMASCARAMIENTO
Enmascaramiento Simultáneo
Ruido Enmascara Tono
SMR ∈ [-5, 5] dB
Tono Enmascara Ruido
SMR ∈ [21, 28] dB
Ruido Enmascara Ruido
SMR ≈ 26 dB
Dispersión fuera de BandaΠΘΜ
![Page 11: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/11.jpg)
11
ENMASCARAMIENTO
Enmascaramiento Temporal
Enmascarador
Post-EnmascaramientoPre-Enmascaramiento
SPL (dB)
Tiempo (ms)1-2 50-300
SMR ≈ SMR(sim)-25 dB
ΠΘΜ
![Page 12: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/12.jpg)
12
ENMASCARAMIENTO
Aplicaciones
No transmisión de lo Inaudible
Mantener el ruido bajo lo audible
ΠΘΜ
![Page 13: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/13.jpg)
13
ESTRUCTURA GENERAL
Codificador Perceptual de Audio
Análisis
Tiempo-frecuencia
Análisis
Psico-Acústico
Cuantificación
Codificación
Distribución
De Bits
Codificación
Sin Pérdidas
M
U
X
Voz Bit
streamΠΘΜ
![Page 14: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/14.jpg)
14
ANÁLISIS PSICOACÚSTICO
Análisis Psico-Acústico
Análisis de Frecuencia
Bancos de filtros, Transformaciones
Umbral Global de Enmascaramiento
Umbrales Fijos, Dependientes
Detección de Tonos, de Ruidos
Efectos dentro, fuera de banda
Combinación
Ejemplo básico
ΠΘΜ
![Page 15: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/15.jpg)
15
ANÁLISIS PSICOACÚSTICO
Modelo 1, MPEG 1 Layer 1
Análisis FFT-512 con hanning (12ms)
Resolución de 86.13Hz a 44.1KHz
Escala Bark por transformación
Dispersión fuera de Banda limitada
Estimación Tono por máximo local de 7dBentre ±2, ±3 y ±6 en >63, >127 y >256
Estimación Ruido por BandaΠΘΜ
![Page 16: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/16.jpg)
16
ANÁLISIS PSICOACÚSTICO
Modelo 1
Enmascaradores1
0.1 ( )10
1
( ) 10log 10 ( )P k jTM
j
P k dB+
=−
= ∑
Diezmado de Enmascaradores
Descarte bajo el umbral absoluto
Sustitución en 0.5 Bark por el mayor
Diezmado por 2 y 4 en <18 y <22
{ }0.1 ( )10( ) 10log 10 ( ) , ( ) ( )P j
NM TM kj
P k dB P j P k= ∀ ∉ ± ∆∑
1( 1)l uu
j l
k j− +
=
= ∏
ΠΘΜ
![Page 17: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/17.jpg)
17
ANÁLISIS PSICOACÚSTICO
Modelo 1
Umbrales por tipo
( , ) ( ) 0.275 ( ) ( , ) 6.025 ( )TM TMT i j P j z j SF i j dB SPL= − + −
( , ) ( ) 0.175 ( ) ( , ) 2.025 ( )NM NMT i j P j z j SF i j dB SPL= − + −
17 0.4 ( ) 11 3 1(0.4 ( ) 6) 1 0
( , ) ( )17 0 1
(0.15 ( ) 17) 0.15 ( ) 3 1
z XM z
XM z z
z z
XM z XM z
P jP j
SF i j dB SPL
P j P j
∆ − + − ≤ ∆ < − + ∆ − ≤ ∆ <= − ∆ ≤ ∆ < − ∆ − − ≤ ∆ < −
Umbral Global
0.1 ( ) 0.1 ( , )0.1 ( , )10
1 1( ) 10log 10 10 10 ( )q NMTM
L MT i T i mT i l
gl m
T i dB SPL= =
= + +
∑ ∑
ΠΘΜ
![Page 18: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/18.jpg)
18
ANÁLISIS PSICOACÚSTICO
Modelo de Entropía Perceptual (Modelo 2, MP3)
Análisis FFT-2048, con hanning
Espectro Bark por suma espectral en BC
Dispersión por convolución
Estimación Tono/Ruido por AplanamientoEspectral en cada Banda, SFM=µg/µa
Coeficiente de tonalidad para Umbrales
min ,160dBSFMα = −
ΠΘΜ
![Page 19: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/19.jpg)
19
ANÁLISIS PSICOACÚSTICO
Modelo de Entropía Perceptual
Ponderación de los umbrales por tipo
14.5 ,THn Et B B BandaCritica= − − =[ ], 3, 5THt En K K dB= − ∈
(14.5 ) (1 )5.5iO i dBα α= + + −
Umbrales por banda10log ( ) ( /10)10 i iC O
iT−=
Umbral Global
max( , ( ))i i qT T T i=ΠΘΜ
![Page 20: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/20.jpg)
20
ANÁLISIS TIEMPO-FRECUENCIA
Análisis Tiempo-Frecuencia
Bancos de Filtros (baja resolución)
Transformadas Unitarias (alta resolución)
Esquemas Híbridos
Modelos Fuente-SistemaΠΘΜ
![Page 21: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/21.jpg)
21
BANCOS DE FILTROS
Propiedades
M filtros paso banda
Contiguos en frecuencia
Diezmado crítico en análisis
Interpolación en síntesis
Aliasing por solapamiento
Reconstrucción perfecta sin cuantificación
Error de cuantificación a enmascararΠΘΜ
![Page 22: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/22.jpg)
22
BANCOS DE FILTROS
Propiedades
Reduce redundancias estadísticas
Diseño adecuado para evitar Aliasing
Uniformes, No Uniformes
Resolución frecuencia
Resolución tiempo (tipo, adaptación)
FIR, IIRΠΘΜ
![Page 23: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/23.jpg)
23
BANCOS DE FILTROS
Pseudo-QMF
M-Modulaciones en coseno de un PPB
No alcanza la reconstrucción perfecta
Prototipo paso bajo FIR (Fase lineal)
Posibilidad de hacerlo con FFT
Uniforme
Complejidad baja (filtro+modulación)
Muestreo críticoΠΘΜ
![Page 24: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/24.jpg)
24
BANCOS DE FILTROS
Pseudo-QMF
Eliminación de la distorsión de fase
Cancelación del aliasing, (w(n), L), ¿?
( ) ( 1 )k kg n h L n= − −
1( ) 2 ( )cos ( 0.5)2k kLh n w n k n
Mπ θ − = + − +
1( ) 2 ( ) cos ( 0.5)2k kLg n w n k n
Mπ θ − = + − −
( 1)4
kk
πθ = −
ΠΘΜ
![Page 25: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/25.jpg)
25
BANCOS DE FILTROS
Polifase
Diseño fácil
Complejidad computacional baja
Uniforme
ΠΘΜ
![Page 26: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/26.jpg)
26
TRANSFORMACIONES
Propiedades
Transformación lineal
Coeficientes incorrelados
Reconstrucción perfecta sin cuantificación
Algoritmos basados en FFT
Efectos de borde de los bloquesΠΘΜ
![Page 27: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/27.jpg)
27
TRANSFORMACIONES
DCT, DFT
Diseño fácil
Complejidad computacional baja
Evita errores de bloque ???
ΠΘΜ
![Page 28: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/28.jpg)
28
TRANSFORMACIONES
MDCT
Banco de filtros modulado en coseno
L = 2M y w(n) con restricciones
Alcanza la reconstrucción perfecta
Implementación con transformaciones
Solape 50%, Elimina ruido bloque
Algoritmos basados en FFT
Muestreo crítico (2M muest a M coeff)
Ventanas variantes en tiempo
ΠΘΜ
![Page 29: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/29.jpg)
29
TRANSFORMACIONES
MDCT
Eliminación de la distorsión de fase
Cancelación del aliasing,
( ) (2 1 )k kg n h M n= − −
2 (2 1)(2 1)( ) ( ) cos4k
n M kh n w nM M
π+ + + =
ΠΘΜ
![Page 30: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/30.jpg)
30
TRANSFORMACIONES
MDCT
Análisis
Síntesis
2 1
0
( ) ( ) ( )M
kn
X k x n h n−
=
= ∑
1
0( ) [ ( ) ( ) ( ) ( )]
MP
k kk
x n X k h n X k h n M−
=
= + +∑ ΠΘΜ
![Page 31: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/31.jpg)
31
TRANSFORMACIONES
MDCT
Ventana lineal y condición de Nyquist
Ventana seno (MLT de Malvar), óptima
(2 1 ) ( )w M n w n− − =
1( ) sin , 0 12 2
w n n n MMπ = + ≤ ≤ −
2 2( ) ( ) 1, 0 1w n w n M n M+ + = ≤ ≤ −
ΠΘΜ
![Page 32: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/32.jpg)
32
HÍBRIDOS
Propiedades
Combinan Bancos con Transformadas
Estructura en cascada
Flexibles en resolución de frecuencia
Permiten adaptación
Complejidad computacional media
No alcanza reconstrucción perfecta
Ejemplos: QMF+MDCT, PF+MDCTΠΘΜ
![Page 33: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/33.jpg)
33
ECOS
Pre-eco
Señales abruptas en entornos silenciosos
Señales muy pitcheadas
Dispersión del error de cuantificación
Control de pre-ecos
Reserva de bits
Cambio de tamaño de ventana (64,1024)
Enmascaramiento temporal
Modificación de la ganancia
Modificación temporal del ruido (LP)
ΠΘΜ
![Page 34: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/34.jpg)
34
CODIFICACIÓN
Asignación dinámica de bits
Enmascaramiento
Velocidad
Cuantificador
Uniforme/No Uniforme
Codificador
Con/Sin Pérdidas
Control ???
Directo/Indirecto
ΠΘΜ
![Page 35: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/35.jpg)
35
CODIFICADORES
Transformación
ASPEC
Subbandas
MASCAM
Sinusoidales
Predicción linealΠΘΜ
![Page 36: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/36.jpg)
36
ESTÁNDARES
MPEG 1 (1992)
Capa I, II y III
MPEG 2 (1994, 1997) extensión multicanal
Compatibilidad Backward
Incompotibilidad Barkward, AAC
MPEG 4 (1998)
Amplio campo de aplicaciones
MPEG 7
Descripción estandarizada deinformación multimedia (no coding)
ΠΘΜ
![Page 37: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/37.jpg)
37
ESTÁNDARES
Normativa
Decodificador
Bitstream
Informativa
Ejemplos de modelos psicoacústicosΠΘΜ
![Page 38: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/38.jpg)
38
MPEG 1
Características
Modos: mono, estéreo, dual, conjunto y M/S
Fs= 32 Kb/s, 44.1 Kb/s y 48 Kb/s
Capa I, 192 Kb/s (estéreo a 384 Kb/s)
Capa II, 128 Kb/s (estéreo a 192 Kb/s)
Capa III (MP3), 64 kB/s (estéreo a 128 Kb/s)ΠΘΜ
![Page 39: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/39.jpg)
39
MPEG 1
Capa I
Banco de filtros PseudoQMF con 32 filtros
Polifase Uniforme, 750Hz de BW a 48 kHz
Filtros FIR de orden 512 (con DCT)
ΠΘΜ
![Page 40: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/40.jpg)
40
MPEG 1
Capa I
Modelo psicoacústico con FFT-512
Ponderación Hanning
Modelo 1
SMR = Nivel max de señal en la subbanday el Nivel min de enmascaramiento en ella
Modelo 2
ΠΘΜ
![Page 41: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/41.jpg)
41
MPEG 1
Capa I
Análisis de 12 muestras por banda (384)
Asignación dinámica de bits por modelopsicoacústico
Incrementa 1 bit el Q con mayor NMR
Factor de escala igual a la muestra mayor
Información por banda
Bits/banda (4), f. escala (6), muestra
Síntesis por bloques de 32 muestras
ΠΘΜ
![Page 42: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/42.jpg)
42
MPEG 1
Capa II
Modelo psicoacústico con FFT-1024
Análisis de 12x3 muestras por banda (1152)
Factor de escala por bloque de 12 muestras
Envía 1, 2 o 3 según cambia
Q disponibles
3,5,7,9,15,31, ..., 65535 para baja fr
3,5, 65535 para alta (nada para [28,32]
Palabra común para Q seguidos de 3,5 y 9
ΠΘΜ
![Page 43: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/43.jpg)
43
MPEG 1
Capa III
Banco de filtros híbrido
Resolución de bandas críticas
Polifase de 32 + MDCT de 6 o 18 p
Bloques de 12 o 36 muestras
BW mínimo de 41.67 Hz a 48 kHz
MDCT de 18 para resolución en fr
MDCT de 6 para prevenir preecos, 4ms
Ventanas de comienzo y fin
ΠΘΜ
![Page 44: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/44.jpg)
44
MPEG 1
Capa III
Cuantificación No Uniforme
Codificación Huffman
Reserva de bits (velocidad variable)
ΠΘΜ
![Page 45: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/45.jpg)
45
MPEG 1
Capa III
Modelo psicoacústico con FFT-1024
Ponderación Hanning
Modelo 2
Tonalidad por predicción
Asignación de bits, análisis-por-síntesisΠΘΜ
![Page 46: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/46.jpg)
46
MPEG 1
Estructura de trama, capa I y II
Encabezamiento
12 syncr, 20 infosys y 16 cycred
Bits/banda, factor de escala
Información principal (muestras)
Datos auxiliares
Características
Autónomas
Tamaño Variable
Empaquetamiento en 188 Byte (4B header)
ΠΘΜ
![Page 47: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/47.jpg)
47
MPEG 2
Características
Multicanal
Fs= 16 Kb/s, 22.05 Kb/s y 24 Kb/s
Mayor resolución y mayor ganancia
MPEG-2 por debajo de 64kb/s/canalΠΘΜ
![Page 48: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/48.jpg)
48
MPEG 2
Multicanal, configuraciones
Mono, 1/0
Derecho (R), izquierdo (L), 2/0
+ Central adicional (C), 3/0
+ Mono surround, 3/1
+ Surround derecho (RS), izquierdo (SL), 3/2
+ Subwoofer [15,120]Hz, 5.1
Explotación de dependencias entre canalesΠΘΜ
![Page 49: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/49.jpg)
49
MPEG 2
Compatibilidad
Forward, Acepta MPEG 1 mono y estéreo
Backward, MPEG 1 acepta MPEG 2 1/0 y 2/0
T1=L0=α(L+βC+δLS), α=1/(1+√2)T2=R0= α(R+βC+δRS), β=δ=√2 T3=C,T4=LS y T5=RS
T3, T4 y T5 en el campo auxiliar MPEG 1
Problemas con enmascaramiento entrecanales en el desmatriciado
No compatible, MPEG-2 AAC
ΠΘΜ
![Page 50: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/50.jpg)
50
MPEG-2 AAC
Módulos, modelos de referencia por interfaces
Preprocesado
Banco de filtros, MDCT-1024
Modelo perceptual, MPEG-1 modelo 2
Modificación temporal de ruido (preeco)
Codificación multicanal
Predicción adaptativa backward, 2º, <16kHz
Estéreo M/S
Cuantificador,Codificador sin pérdidas
Multiplexor bitstream
ΠΘΜ
![Page 51: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/51.jpg)
51
MPEG-2 AAC
Módulos
Asignación de bits
MPEG-1 modelo 2
Proceso de análisis-por-síntesis
49 bandas imitan la resolución del oido
Reserva de bits para bit-rate variableΠΘΜ
![Page 52: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/52.jpg)
52
MPEG-2 AAC
Perfiles
Alta calidad
MDCT 1024 (2048m) = 8x128 (256m)
Resolución de 23.43Hz a 48kHz
Resolución de 2.6 ms a 48 kHz
Ventana senoidal para Banda estrech
Ventana KBD para fuerte atenuaciónΠΘΜ
![Page 53: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/53.jpg)
53
MPEG-2 AAC
Perfiles
Baja complejidad
Sin predicción
Sin modificación temporal de ruido
Mínima complejidad
Banco de filtros híbridoΠΘΜ
![Page 54: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/54.jpg)
54
MPEG-4
Características
Aplicaciones desde alta calidad audio-voz acalidad sintética audio-voz
Módulos de audio-voz de 2 a 64 kb/s
Paramétrica, 2 a 10 kb/s
Análisis-por-síntesis, 6 a 16 y 24 kb/s
Ej, CELP
Frecuencia, menor que 64 kb/s
Ej, AAC, Sust. de ruido perceptual
ΠΘΜ
![Page 55: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/55.jpg)
55
MPEG-4
Características
Aplicaciones desde alta calidad audio-voz acalidad sintética audio-voz
Módulos de audio-voz de 2 a 64 kb/s
Paramétrica 2 a 10 kb/s
Análisis-por-síntesis, 6 a 16 kb/s
Frecuencia, menor que 64 kb/s
Módulo de sustitución de ruido perceptual
Representación paramétrica de energía
ΠΘΜ
![Page 56: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/56.jpg)
56
APLICACIONES
Velocidad
Alta fidelidad a menos de 16kb/s/canal
WWW, de facto con MP3
Transmisión
ISDN (64kb/s)
Almacenamiento
DCC de philips usa MPEG-1 L1 (384 kb/s)
DVD (PAL y NTSC) (384 kb/s)ΠΘΜ
![Page 57: CODIFICACIÓN DE AUDIO - ulpgc.es · 8 BANDAS CRÍTICAS ¾Tabla de Bandas Críticas 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000](https://reader030.fdocument.pub/reader030/viewer/2022040701/5d5bf4e088c99340408b8260/html5/thumbnails/57.jpg)
57
APLICACIONES
Radiodifusión radio
DAB, DVB, usan MPEG-1 LII (LIII baja vel)
Gran overhead
FM (88-108MHz)
Radiodifusión TV satélite
Huges DirectTV, ADR usan MPEG-1 LII
Eutelsat SaRa usa MPEG-1 LIII
Radiodifusión TV digital terrestre
European DVB usa MPEG-2
ΠΘΜ