Principios de audio digital
-
Upload
enrique-alexandre -
Category
Technology
-
view
538 -
download
4
Transcript of Principios de audio digital
Codificación de audio
Enrique Alexandre (@e_alexandre)
¿Con o sin pérdidas?
• Codificadores con pérdidas (mp3, aac, wma, etc.):
• Utilizan modelos perceptuales para eliminar la información irrelevante.
• Es imposible reconstruir exactamente la señal original a partir de la codificada.
• Codificadores sin pérdidas (.flac, .alac, .ape, etc.):
• Se limitan a eliminar la información redundante.
• Se puede reconstruir de forma exacta la señal original a partir de la codificada.
ATC
ATC-ABS PXFMOCF
ATAC ASPECMUSICAM
Layer I, Layer II Layer III
ATRAC PASC
AC-3
TWIN-VQ
PAC
ASC
MPEG-2 AAC
MPEG-4 AUDIO
1977
1992
1994
1995
1997
1999
ISO/IEC MPEG-1
• Estándar “semi-abierto”:
• Partes normativas e informativas.
• Uno o dos canales:
• Un solo canal monofónico
• Dos canales monofónicos independientes
• Dos canales stereo
• Joint-stereo
• Frecuencias de muestreo: 32 kHz (broadcast), 44.1 kHz (consumer) y 48 kHz (professional).
• Bitrates: 32-192 kbps (mono) y 64-384 kbps (stereo).
ISO/IEC MPEG-1
• Tres capas independientes con distintas complejidades:
• Capa I:
• Proporciona transparencia a 384 kbps.
• Complejidad media-baja.
• Aplicaciones: Philips Digital Compact Cassette (DCC).
• Capa II:
• Proporciona transparencia a 256 kbps.
• Complejidad media.
• Aplicaciones: DAB, DVB, radiodifusión
ISO/IEC MPEG-1
• Capa III (mp3)
• Proporciona transparencia a 192 kbps.
• Complejidad alta.
• Aplicaciones: ISDN (RDSI), Internet.
Otras variantes
• mp3PRO
• Proporciona el doble de rendimiento que el mp3
• Compatible hacia atrás con mp3
• mp3HD
• Codificador sin pérdidas compatible hacia atrás con mp3
mp3: Licencias
ISO/IEC MPEG-2 BC
• Ampliación compatible hacia atrás con MPEG-1.
• Características añadidas:
• Frecuencias de muestreo mitad (24, 22.05 y 16 kHz) para aplicaciones con menor ancho de banda.
• Codificación multicanal (5.1).
• Existe un MPEG-2.5, formato propietario del Fraunhofer, que permite frecuencias de muestreo inferiores (8, 11.025 y 12 kHz).
ISO/IEC MPEG-2 NBC / AAC
• Nuevo esquema, no compatible con los anteriores, que proporciona mejor rendimiento de codificación.
• Tres modos de operación:
• LC (Low Complexity)
• Main Profile
• SSR (Scalable Sampling Rate)
• Proporciona transparencia a 128 kbps (stereo) y 320 kbps (5.1)
• Aplicaciones comerciales:
• Apple iTunes, Sony PSP, Operadoras móviles (Movistar, Orange, etc,), DRM (Digital Radio Mondiale), DVB, etc.
Variante: HE-AAC ó aacPlus
• La misma idea que el mp3PRO
• Buena calidad de sonido estéreo a 48 kbps
ISO/IEC MPEG-4
• No es un nuevo esquema de codificación en sí, sino un conjunto de codificadores ya existentes unificados bajo un mismo estándar.
• Un fichero MPEG-4 puede contener audio, video, audio sintético, etc.
• Extensiones .mp4, .m4a y .3gp
Otros codificadores
Ogg VorbisMusepackOtros
Ogg Vorbis
• Codificador de audio libre
• Proporciona una calidad muy parecida a un MPEG-2 AAC
• Soporta frecuencias de muestreo desde 8kHz hasta 192 kHz
• Soporta desde 1 canal hasta 255
Musepack
• Codec basado en MPEG-1 Capa II
• Pensado para proporcionar muy alta calidad de audio a tasas binarias elevadas
• Extensión: .mpc
Otros codecs propietarios
• Windows Media Audio (WMA)
• Free Lossless Audio Codec (FLAC)
• RealAudio
Resumen: codificadores con pérdidas
Formato Año Gratis Bitrate Canales Latencia
mp3 1993 No 8-320 kbps 2 > 100ms
AAC 1997 No 8-529 kbps 48 20-405ms
AC-3 1992 No 32-640kbps 6 40.6 ms
Musepack 1997 Si 3-1300 kbps 8 ?
Vorbis 2000 Si Variable 255 > 100ms
WMA 1999 Si (Windows) 8-768 kbps 2 > 100ms
Resumen: codificadores sin pérdidas
Formato Velocidad Compresión Híbrido (c/ pérdidas)
Código abierto Multicanal
Wavpack Muy rápido 58 % Si Sí Sí
ALAC Rápido 58.5% No Sí (decod) Sí
FLAC Muy rápido 58.7% No Sí Sí
Monkey’s Rápido 55.5% No Sí Sí
• Formatos estándar
• .aif: AIFF, Audio Interchange File Format
• .wav: Waveform Audio
• . bwf: Broadcast wave (extensión al .wav)
• .raw: Raw audio file (Como un .wav pero sin cabecera)
Diccionario de extensiones
Diccionario de extensiones
• Codificadores con pérdidas:
• .mp3: MPEG-1 Capa III
• .mp4: MPEG-4 (audio y/o video)
• .m4a: MPEG-4 audio
• .m4p: Ficheros del iTunes con DRM
• .m4v, .mp4v, .cmp, .divx, .xvid: MPEG-4 Video
• .3gp, .3g2: MPEG-4 en móviles
• .wma: Windows Media Audio
• .ogg: Ogg Vorbis
Diccionario de extensiones
• Codificadores sin pérdidas
• .flac: FLAC, Free Lossless Audio Coder
• .m4a: Apple Lossless audio coder
MIDI
MIDI
• Es un sistema de control para equipos musicales.
• Tres tipos de equipos:
• Módulo de sonido: Genera sonidos en función de los mensajes MIDI que llegan
• Controlador MIDI: Genera mensajes MIDI al actuar sobre un interfaz (teclado,...)
• Secuenciador MIDI: Dispara eventos MIDI
Conexión hardware
Optoacoplador MIDI IN
Buffer MIDI THRU
Buffer MIDI OUT
Conexión sencilla
Cable MIDI
IN THRU OUTIN
THRU
OUT
Conexión más compleja
Cable MIDI
IN THRU OUTIN
THRU
OUT
IN THRU OUT IN THRU OUTIN THRU OUT
Evaluación de la calidad
Tests objetivosTests subjetivos Modelos objetivos
13
2.1 BACK TO THE BEGINNING: CAPTURING SOUND QUALITY
In terms of basic sound quality, claims of accurate reproduction began early. Edison, in 1901, claimed that the phonograph had no “tone” of its own. To prove it, he mounted a traveling show in which his phonograph was demon-strated in “tone tests” that consisted of presentations with a live performer. Morton (2000) reports, “Edison carefully chose singers, usually women, who could imitate the sound of their recordings and only allowed musicians to use the limited group of instruments that recorded best for demonstrations” (p. 23). Of a 1916 demonstration in Carnegie Hall before a capacity audience of “musi-cally cultured and musically critical” listeners, the New York Evening Mail reported that “the ear could not tell when it was listening to the phonograph alone, and when to actual voice and reproduction together. Only the eye could discover the truth by noting when the singer’s mouth was open or closed” (quoted in Harvith and Harvith, 1985, p. 12).
Singers had to be careful not to be louder than the machine, to learn to imitate the sound of the machine, and to sing without vibrato, which Edison (apparently a musically uncultured person) did not like. There were other con-sequences of these tests on recordings. The low sensitivity of the mechanical recording device made it necessary for the performers to crowd around the mouth of the horn and fi nd instruments that could play especially loud. Because
Back to the Beginning: Capturing Sound Quality
FIGURE 2.1 Singer Frieda Hempel stages a tone test at the Edison studios in New York City, 1918. Care was taken to ensure that the test was “blind,” but it is amusing to see that some of the blindfolds also cover the ears. Courtesy of Edison National Historic Site, National Park Service, U.S. Department of the Interior.
Criterios objetivos
• Existen diversos criterios objetivos para medir la calidad de una señal de audio:
• Relación señal a ruido (SNR)
• Relación señal a ruido segmental (segSNR)
• Sin embargo, en audio la evaluación de la calidad es una tarea fundamentalmente subjetiva, aunque puede aproximarse mediante modelos objetivos.
Criterios subjetivos
• La calidad subjetiva se puede obtener mediante experimentos de escucha, por ejemplo:
• Comparar la señal con una referencia de calidad “perfecta”
• Comparar varios sonidos y ordenarlos por orden de preferencia
• Dar una “puntuación” global en una escala numérica
Doble test ciego (A-B-X)
• Se dispone de dos señales A y B, siendo una de ellas la referencia y la otra la señal a testear.
• Al oyente se le presenta una tercera señal, X, y se le pide que identifique si se trata de A o de B.
• El resultado tiene que ser estadísticamente significativo para poder ser tenido en cuenta.
Fiabilidad de los resultados
• Para tener un nivel de confianza del 95%:
Número de ensayos 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25Número de aciertos 9 9 10 10 11 12 12 13 13 14 15 15 16 16 17 18
Test A-B-C
• También llamado doble test ciego con triple estímulo y referencia oculta.
• La señal A siempre es la referencia. Las otras dos (B y C) contienen, aleatoriamente, la señal de referencia y la de test.
• El oyente tiene que puntuar las dos señales B y C de acuerdo a su calidad en una escala de 1 a 5.
• El resultado final es la diferencia de las dos puntuaciones (SDG, Subjective Difference Grade)
Tests subjetivos
A tener en cuenta
• Es IMPRESCINDIBLE:
• Que las señales tengan el mismo nivel
• Que estén sincronizadas en tiempo
• Que no se produzcan chasquidos al conmutar entre una y otra
Limitaciones de las pruebas subjetivas
• Los resultados están muy influenciados por factores humanos (nivel de reproducción, ruido de fondo, etc.)
• La habilidad y los gustos del oyente también influyen
• Son muy caros
Modelos objetivos de calidad percibida
• Existen varios estándares internacionales para evaluar de forma objetiva la calidad percibida de una señal de audio:
• PEAQ (Perceptual Evaluation of Audio Quality)
• PESQ (Perceptual Evaluation of Speech Quality)
• SII (Speech Intelligibility Index)
18
AAC LC 96:
Better than MP2 for no items, worse for no items, equivalent for 10 items.
Better than MP3 for 1 item, worse for no items, equivalent for 9 items.
AAC SSR 128:
Better than MP2 for 1 item, worse for no items, equivalent for 9 items.
Better than MP3 for 2 items, worse for no items, equivalent for 9 items.
Thus, we see that only the Main 96 codec is outperformed by any MP2 or MP3 codec for any of
these examples. For many programme items, an AAC coder gives statistically superior results.
Note that for items Tracy Chapman, Ornette Coleman and Dire Straits there were no significant
differences between codecs – all codecs performed the same on these examples.
10.6. Comparison with MPEG-1 codecs
“Is the performance of AAC codecs at the tested bitrate equal to or better than the performance
of MPEG-1 Layer II and Layer III?” The accumulated results by codec are shown in Figure 5
(note the foreshortened vertical scale).
220220220220220220220N =
CODER
MP3 128
MP2 192
AACSSR 128
AAC LC 96
AAC LC 128
AACMain 96
AACMain 128
.2
0.0
-.2
-.4
-.6
-.8
-1.0
-1.2
-1.4
-1.6
-1.8
-2.0
Diffscores
Figure 5. Overall results (averaged across programme items and position) for each coder.
We see from this figure that overall, AAC Main 128, AAC LC 128, and AAC SSR 128 give
significantly better performance than do MP2 192 or MP3 128. In addition, AAC Main 96
gives better results than MP3 128. There is no statistically significant improvement between
AAC LC 96 and the MPEG-1 codecs.
Within the AAC codec group, AAC Main 128, AAC LC 128, and AAC SSR 128 are all
superior to AAC LC 96. In addition, AAC Main 128 and AAC LC 128 are superior to AAC
Main 96.
Comparativa
Audio 3D
Audición espacial: pistas de detección
• Diferencias interaurales:
• ITD (Interaural Time Differences)
• IID (Interaural Intensity Differences)
• Movimiento relativo cabeza-fuente
• Influencia fisiológica (HRTF)
• Percepción de la distancia (entorno anecoico)
• Influencia de la reverberación
ITD e IID
Efecto de la cabeza y torso
x y
z
a d
c
b e
Cono de
confusión
Cono de confusión
HRTFs
• Función de Transferencia fisiológica (HRTF, Head Related Transfer Function)
• Pabellón auditivo
• Torso, hombros, difracción en la cabeza, ...
• Canal auditivo, concha
• Plano medio (z-y): casi simétricas
• Plano frontal (x-z) y horizontal (x-y): asimetrías
• Frecuencias afectadas:
• Longitud de onda 8 cm: 4.3 KHz
• Longitud de onda 4 cm: 8.6 KHz
• Longitud de onda 2 cm: 17 KHz
Percepción de la distancia (entorno anecoico)
• La pista primaria es la intensidad de la fuente, que se corresponde en el oyente con la sonoridad (loudness) percibida
• Existe una dependencia frecuencial de la sonoridad percibida
• Otras pistas: coloración del sonido, asociaciones cognoscitivas
Atenuación a
10 m (dB)
Porcentaje de humedad
2
20 40 60 80
3
1
4
2 KHz
4 KHz
8 KHz
10 KHz
12 KHz
Percepción de la distancia
dBSPL
Distancia (m)
91
88
85
82
79
76
73
70 2 4 6 8
Anecoico
Primeras
reflexiones (ER)
ER+reverberación
Detección
ITD
Detección
IID
Información
frecuencial
Convergencia
ITD+IID por bandas de
frecuencia
Localización
espacial
Localización
espacial DEFINITIVA
Datos
visuales
Memoria
previa (cognoscitiva)
Datos de otros
sentidos
Movimientos
cabeza
Percepción espacial
Elevación 0º, azimut 0º
HRIRL
HRIRR
• 0 • 0.5 • 1 • 1.5 • 2 • 2.5
• x 10 • 4
• 15
• 20
• 25
• 30
• 35
• 40
• 45
• 50
• 55
HRTFs
Elevación 0º, azimut 45º
HRIRL
HRIRR
• 0 • 0.5 • 1 • 1.5 • 2 • 2.5
• x 10 • 4
• 10
• 15
• 20
• 25
• 30
• 35
• 40
• 45
• 50
• 55
HRTFs
Medida de las HRTFs
)(zSL
)(zHPL
)(zSR
)(zHPR
)(ˆ zSR
)(1 zHPR
−
)(ˆ zSL
)(1 zHPL
−
Presentación con auriculares
)(zSR
)(zSL
)(zLL
)(ˆ zSL
)(1 zLL
−
)(ˆ zSR
)(1 zLR
−
)(zLR
)(zHLL
)(zHRR
)(zHLR
)(zHRL
Presentación con altavoces
Altavoces vs. Auriculares
ALTAVOCES AURICULARES
Ergonomía
Usuario “liberado” Incómodos tras un tiempo
No aislan al usuario Aislan al usuario
Requieren instalación Sin instalación
Calidad dependiente de la posición del oyente
Calidad independiente de la posición del oyente
Entorno acústico Sala preparada acústicamente Sala sin requisitos
AlgorítmicaCorrección diafonía
Canales independientesFiltros muy largos en posiciones alejadas
Altavoces vs. Auriculares
ALTAVOCES AURICULARES
Calidad obtenida
Experiencias espaciales muy realistas
Mejor forma de presentar el sonido en 3D
Muy sensible a la posición del oyente
Independiente de la posición del oyente
Las posiciones virtuales lejanas de las líneas de los altavoces
son difíciles de conseguirMuy versátil
Externalización y sensación de distancia sencillas de conseguir
Suelen generar sensaciones demasiado
cercanas
Otras aplicaciones
Palabras clave
• Criptografía: Proteger el contenido de los mensajes
• Esteganografía: Ocultar la información
• Watermarking: Proteger la información oculta.
• El objetivo es proteger el contenido de un mensaje, haciéndolo ilegible para todo el mundo excepto emisor y receptor.
• Métodos:
• Clave simétrica
• Clave pública
• La clave pública se utiliza para el encriptado
• La privada para el desencriptado
• La criptografía es la base de los sistemas DRM (Digital Rights Management)
Criptografía
DRM en el mundo de la música
• CDs -> No son CDs, sino CD-ROM. No se usa desde 2007
• Online: iTunes, Google Play y Amazon actualmente libres de DRM
• Sí que se usan metadatos con la información del comprador
Limitaciones
• El “agujero analógico”
• Obsolescencia. ¿Qué pasa cuando la tecnología cambia?
• ¿Es legal grabar un CD con música?
• No toda la piratería es indeseada (p.e. Microsoft)
• El DRM puede aumentar la piratería
Watermarking
• Son técnicas que persiguen introducir información en una señal digital
• Se puede marcar un fichero para luego poder rastrearlo
• Dos tipos:
• Visible
• Invisible
Tipos de sistemas
• Ciegos: La señal original no es necesaria para la detección final.
• No ciegos: Se necesita la señal original para poder detectar la marca
• Frágiles: Son sensibles a modificaciones sobre la señal que lleva la marca. Se usan para detectar cambios en la señal (autenticidad)
• Robustos: Son muy resistentes a modificaciones. Se usan para protección de copias o control del copyright.
Esteganografía
• El objetivo es ocultar información de modo que nadie pueda ser capaz de saber que existe un “mensaje oculto”. Es una aplicación del watermarking.
• Técnicas típicas:
• Ocultar mensajes en los bits menos significativos de una imagen ruidosa
• Tinta invisible
• Cifrado nulo:News Eight Weather: Tonight increasing snow. Unexpected precipitation smothers eastern
towns. Be extremely cautious and use snowtires especially heading east. The [highway is not] knowingly slippery. Highway evacuation is suspected. Police report emergency situations in
downtown ending near Tuesday
Newt is upset because he thinks he is President
Ejemplo
Si eliminamos todos menos los 2 últimos bits de cada componente de
color y aumentamos el brillo