Principios de audio digital

Codificación de audio

Enrique Alexandre (@e_alexandre)

¿Con o sin pérdidas?

• Codificadores con pérdidas (mp3, aac, wma, etc.):

• Utilizan modelos perceptuales para eliminar la información irrelevante.

• Es imposible reconstruir exactamente la señal original a partir de la codificada.

• Codificadores sin pérdidas (.flac, .alac, .ape, etc.):

• Se limitan a eliminar la información redundante.

• Se puede reconstruir de forma exacta la señal original a partir de la codificada.

ATC

ATC-ABS PXFMOCF

ATAC ASPECMUSICAM

Layer I, Layer II Layer III

ATRAC PASC

AC-3

TWIN-VQ

PAC

ASC

MPEG-2 AAC

MPEG-4 AUDIO

1977

1992

1994

1995

1997

1999

ISO/IEC MPEG-1

• Estándar “semi-abierto”:

• Partes normativas e informativas.

• Uno o dos canales:

• Un solo canal monofónico

• Dos canales monofónicos independientes

• Dos canales stereo

• Joint-stereo

• Frecuencias de muestreo: 32 kHz (broadcast), 44.1 kHz (consumer) y 48 kHz (professional).

• Bitrates: 32-192 kbps (mono) y 64-384 kbps (stereo).

ISO/IEC MPEG-1

• Tres capas independientes con distintas complejidades:

• Capa I:

• Proporciona transparencia a 384 kbps.

• Complejidad media-baja.

• Aplicaciones: Philips Digital Compact Cassette (DCC).

• Capa II:


• Complejidad media.

• Aplicaciones: DAB, DVB, radiodifusión

ISO/IEC MPEG-1

• Capa III (mp3)


• Complejidad alta.

• Aplicaciones: ISDN (RDSI), Internet.

Otras variantes

• mp3PRO

• Proporciona el doble de rendimiento que el mp3

• Compatible hacia atrás con mp3

• mp3HD

• Codificador sin pérdidas compatible hacia atrás con mp3

mp3: Licencias

ISO/IEC MPEG-2 BC

• Ampliación compatible hacia atrás con MPEG-1.

• Características añadidas:

• Frecuencias de muestreo mitad (24, 22.05 y 16 kHz) para aplicaciones con menor ancho de banda.

• Codificación multicanal (5.1).

• Existe un MPEG-2.5, formato propietario del Fraunhofer, que permite frecuencias de muestreo inferiores (8, 11.025 y 12 kHz).

ISO/IEC MPEG-2 NBC / AAC

• Nuevo esquema, no compatible con los anteriores, que proporciona mejor rendimiento de codificación.

• Tres modos de operación:

• LC (Low Complexity)

• Main Profile

• SSR (Scalable Sampling Rate)

• Proporciona transparencia a 128 kbps (stereo) y 320 kbps (5.1)

• Aplicaciones comerciales:

• Apple iTunes, Sony PSP, Operadoras móviles (Movistar, Orange, etc,), DRM (Digital Radio Mondiale), DVB, etc.

Variante: HE-AAC ó aacPlus

• La misma idea que el mp3PRO

• Buena calidad de sonido estéreo a 48 kbps

ISO/IEC MPEG-4

• No es un nuevo esquema de codificación en sí, sino un conjunto de codificadores ya existentes unificados bajo un mismo estándar.

• Un fichero MPEG-4 puede contener audio, video, audio sintético, etc.

• Extensiones .mp4, .m4a y .3gp

Otros codificadores

Ogg VorbisMusepackOtros

Ogg Vorbis

• Codificador de audio libre

• Proporciona una calidad muy parecida a un MPEG-2 AAC

• Soporta frecuencias de muestreo desde 8kHz hasta 192 kHz

• Soporta desde 1 canal hasta 255

Musepack

• Codec basado en MPEG-1 Capa II

• Pensado para proporcionar muy alta calidad de audio a tasas binarias elevadas

• Extensión: .mpc

Otros codecs propietarios

• Windows Media Audio (WMA)

• Free Lossless Audio Codec (FLAC)

• RealAudio

Resumen: codificadores con pérdidas

Formato Año Gratis Bitrate Canales Latencia

mp3 1993 No 8-320 kbps 2 > 100ms

AAC 1997 No 8-529 kbps 48 20-405ms

AC-3 1992 No 32-640kbps 6 40.6 ms

Musepack 1997 Si 3-1300 kbps 8 ?

Vorbis 2000 Si Variable 255 > 100ms

WMA 1999 Si (Windows) 8-768 kbps 2 > 100ms

Resumen: codificadores sin pérdidas

Formato Velocidad Compresión Híbrido (c/ pérdidas)

Código abierto Multicanal

Wavpack Muy rápido 58 % Si Sí Sí

ALAC Rápido 58.5% No Sí (decod) Sí

FLAC Muy rápido 58.7% No Sí Sí

Monkey’s Rápido 55.5% No Sí Sí

• Formatos estándar

• .aif: AIFF, Audio Interchange File Format

• .wav: Waveform Audio

• . bwf: Broadcast wave (extensión al .wav)

• .raw: Raw audio file (Como un .wav pero sin cabecera)

Diccionario de extensiones


• Codificadores con pérdidas:

• .mp3: MPEG-1 Capa III

• .mp4: MPEG-4 (audio y/o video)

• .m4a: MPEG-4 audio

• .m4p: Ficheros del iTunes con DRM

• .m4v, .mp4v, .cmp, .divx, .xvid: MPEG-4 Video

• .3gp, .3g2: MPEG-4 en móviles

• .wma: Windows Media Audio

• .ogg: Ogg Vorbis


• Codificadores sin pérdidas

• .flac: FLAC, Free Lossless Audio Coder

• .m4a: Apple Lossless audio coder

MIDI

• Es un sistema de control para equipos musicales.

• Tres tipos de equipos:

• Módulo de sonido: Genera sonidos en función de los mensajes MIDI que llegan

• Controlador MIDI: Genera mensajes MIDI al actuar sobre un interfaz (teclado,...)

• Secuenciador MIDI: Dispara eventos MIDI

Conexión hardware

Optoacoplador MIDI IN

Buffer MIDI THRU

Buffer MIDI OUT

Conexión sencilla

Cable MIDI

IN THRU OUTIN

THRU

OUT

Conexión más compleja

Cable MIDI

IN THRU OUTIN

THRU

OUT

IN THRU OUT IN THRU OUTIN THRU OUT

Evaluación de la calidad

Tests objetivosTests subjetivos Modelos objetivos

13

2.1 BACK TO THE BEGINNING: CAPTURING SOUND QUALITY

In terms of basic sound quality, claims of accurate reproduction began early. Edison, in 1901, claimed that the phonograph had no “tone” of its own. To prove it, he mounted a traveling show in which his phonograph was demon-strated in “tone tests” that consisted of presentations with a live performer. Morton (2000) reports, “Edison carefully chose singers, usually women, who could imitate the sound of their recordings and only allowed musicians to use the limited group of instruments that recorded best for demonstrations” (p. 23). Of a 1916 demonstration in Carnegie Hall before a capacity audience of “musi-cally cultured and musically critical” listeners, the New York Evening Mail reported that “the ear could not tell when it was listening to the phonograph alone, and when to actual voice and reproduction together. Only the eye could discover the truth by noting when the singer’s mouth was open or closed” (quoted in Harvith and Harvith, 1985, p. 12).

Singers had to be careful not to be louder than the machine, to learn to imitate the sound of the machine, and to sing without vibrato, which Edison (apparently a musically uncultured person) did not like. There were other con-sequences of these tests on recordings. The low sensitivity of the mechanical recording device made it necessary for the performers to crowd around the mouth of the horn and fi nd instruments that could play especially loud. Because

Back to the Beginning: Capturing Sound Quality

FIGURE 2.1 Singer Frieda Hempel stages a tone test at the Edison studios in New York City, 1918. Care was taken to ensure that the test was “blind,” but it is amusing to see that some of the blindfolds also cover the ears. Courtesy of Edison National Historic Site, National Park Service, U.S. Department of the Interior.

Criterios objetivos

• Existen diversos criterios objetivos para medir la calidad de una señal de audio:

• Relación señal a ruido (SNR)

• Relación señal a ruido segmental (segSNR)

• Sin embargo, en audio la evaluación de la calidad es una tarea fundamentalmente subjetiva, aunque puede aproximarse mediante modelos objetivos.

Criterios subjetivos

• La calidad subjetiva se puede obtener mediante experimentos de escucha, por ejemplo:

• Comparar la señal con una referencia de calidad “perfecta”

• Comparar varios sonidos y ordenarlos por orden de preferencia

• Dar una “puntuación” global en una escala numérica

Doble test ciego (A-B-X)

• Se dispone de dos señales A y B, siendo una de ellas la referencia y la otra la señal a testear.

• Al oyente se le presenta una tercera señal, X, y se le pide que identifique si se trata de A o de B.

• El resultado tiene que ser estadísticamente significativo para poder ser tenido en cuenta.

Fiabilidad de los resultados

• Para tener un nivel de confianza del 95%:

Número de ensayos 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25Número de aciertos 9 9 10 10 11 12 12 13 13 14 15 15 16 16 17 18

Test A-B-C

• También llamado doble test ciego con triple estímulo y referencia oculta.

• La señal A siempre es la referencia. Las otras dos (B y C) contienen, aleatoriamente, la señal de referencia y la de test.

• El oyente tiene que puntuar las dos señales B y C de acuerdo a su calidad en una escala de 1 a 5.

• El resultado final es la diferencia de las dos puntuaciones (SDG, Subjective Difference Grade)

Tests subjetivos

A tener en cuenta

• Es IMPRESCINDIBLE:

• Que las señales tengan el mismo nivel

• Que estén sincronizadas en tiempo

• Que no se produzcan chasquidos al conmutar entre una y otra

Limitaciones de las pruebas subjetivas

• Los resultados están muy influenciados por factores humanos (nivel de reproducción, ruido de fondo, etc.)

• La habilidad y los gustos del oyente también influyen

• Son muy caros

Modelos objetivos de calidad percibida

• Existen varios estándares internacionales para evaluar de forma objetiva la calidad percibida de una señal de audio:

• PEAQ (Perceptual Evaluation of Audio Quality)

• PESQ (Perceptual Evaluation of Speech Quality)

• SII (Speech Intelligibility Index)

18

AAC LC 96:

Better than MP2 for no items, worse for no items, equivalent for 10 items.

Better than MP3 for 1 item, worse for no items, equivalent for 9 items.

AAC SSR 128:

Better than MP2 for 1 item, worse for no items, equivalent for 9 items.

Better than MP3 for 2 items, worse for no items, equivalent for 9 items.

Thus, we see that only the Main 96 codec is outperformed by any MP2 or MP3 codec for any of

these examples. For many programme items, an AAC coder gives statistically superior results.

Note that for items Tracy Chapman, Ornette Coleman and Dire Straits there were no significant

differences between codecs – all codecs performed the same on these examples.

10.6. Comparison with MPEG-1 codecs

“Is the performance of AAC codecs at the tested bitrate equal to or better than the performance

of MPEG-1 Layer II and Layer III?” The accumulated results by codec are shown in Figure 5

(note the foreshortened vertical scale).

220220220220220220220N =

CODER

MP3 128

MP2 192

AACSSR 128

AAC LC 96

AAC LC 128

AACMain 96

AACMain 128

.2

0.0

-.2

-.4

-.6

-.8

-1.0

-1.2

-1.4

-1.6

-1.8

-2.0

Diffscores

Figure 5. Overall results (averaged across programme items and position) for each coder.

We see from this figure that overall, AAC Main 128, AAC LC 128, and AAC SSR 128 give

significantly better performance than do MP2 192 or MP3 128. In addition, AAC Main 96

gives better results than MP3 128. There is no statistically significant improvement between

AAC LC 96 and the MPEG-1 codecs.

Within the AAC codec group, AAC Main 128, AAC LC 128, and AAC SSR 128 are all

superior to AAC LC 96. In addition, AAC Main 128 and AAC LC 128 are superior to AAC

Main 96.

Comparativa

Audio 3D

Audición espacial: pistas de detección

• Diferencias interaurales:

• ITD (Interaural Time Differences)

• IID (Interaural Intensity Differences)

• Movimiento relativo cabeza-fuente

• Influencia fisiológica (HRTF)

• Percepción de la distancia (entorno anecoico)

• Influencia de la reverberación

ITD e IID

Efecto de la cabeza y torso

x y

z

a d

c

b e

Cono de

confusión

Cono de confusión

HRTFs

• Función de Transferencia fisiológica (HRTF, Head Related Transfer Function)

• Pabellón auditivo

• Torso, hombros, difracción en la cabeza, ...

• Canal auditivo, concha

• Plano medio (z-y): casi simétricas

• Plano frontal (x-z) y horizontal (x-y): asimetrías

• Frecuencias afectadas:

• Longitud de onda 8 cm: 4.3 KHz

• Longitud de onda 4 cm: 8.6 KHz

• Longitud de onda 2 cm: 17 KHz

Percepción de la distancia (entorno anecoico)

• La pista primaria es la intensidad de la fuente, que se corresponde en el oyente con la sonoridad (loudness) percibida

• Existe una dependencia frecuencial de la sonoridad percibida

• Otras pistas: coloración del sonido, asociaciones cognoscitivas

Atenuación a

10 m (dB)

Porcentaje de humedad

2

20 40 60 80

3

1

4

2 KHz

4 KHz

8 KHz

10 KHz

12 KHz

Percepción de la distancia

dBSPL

Distancia (m)

91

88

85

82

79

76

73

70 2 4 6 8

Anecoico

Primeras

reflexiones (ER)

ER+reverberación

Detección

ITD

Detección

IID

Información

frecuencial

Convergencia

ITD+IID por bandas de

frecuencia

Localización

espacial

Localización

espacial DEFINITIVA

Datos

visuales

Memoria

previa (cognoscitiva)

Datos de otros

sentidos

Movimientos

cabeza

Percepción espacial

Elevación 0º, azimut 0º

HRIRL

HRIRR

• 0 • 0.5 • 1 • 1.5 • 2 • 2.5

• x 10 • 4

• 15

• 20

• 25

• 30

• 35

• 40

• 45

• 50

• 55

HRTFs

Elevación 0º, azimut 45º

HRIRL

HRIRR

• 0 • 0.5 • 1 • 1.5 • 2 • 2.5

• x 10 • 4

• 10

• 15

• 20

• 25

• 30

• 35

• 40

• 45

• 50

• 55

HRTFs

Medida de las HRTFs

)(zSL

)(zHPL

)(zSR

)(zHPR

)(ˆ zSR

)(1 zHPR

−

)(ˆ zSL

)(1 zHPL

−

Presentación con auriculares

)(zSR

)(zSL

)(zLL

)(ˆ zSL

)(1 zLL

−

)(ˆ zSR

)(1 zLR

−

)(zLR

)(zHLL

)(zHRR

)(zHLR

)(zHRL

Presentación con altavoces

Altavoces vs. Auriculares

ALTAVOCES AURICULARES

Ergonomía

Usuario “liberado” Incómodos tras un tiempo

No aislan al usuario Aislan al usuario

Requieren instalación Sin instalación

Calidad dependiente de la posición del oyente

Calidad independiente de la posición del oyente

Entorno acústico Sala preparada acústicamente Sala sin requisitos

AlgorítmicaCorrección diafonía

Canales independientesFiltros muy largos en posiciones alejadas

Altavoces vs. Auriculares

ALTAVOCES AURICULARES

Calidad obtenida

Experiencias espaciales muy realistas

Mejor forma de presentar el sonido en 3D

Muy sensible a la posición del oyente

Independiente de la posición del oyente

Las posiciones virtuales lejanas de las líneas de los altavoces

son difíciles de conseguirMuy versátil

Externalización y sensación de distancia sencillas de conseguir

Suelen generar sensaciones demasiado

cercanas

Otras aplicaciones

Palabras clave

• Criptografía: Proteger el contenido de los mensajes

• Esteganografía: Ocultar la información

• Watermarking: Proteger la información oculta.

• El objetivo es proteger el contenido de un mensaje, haciéndolo ilegible para todo el mundo excepto emisor y receptor.

• Métodos:

• Clave simétrica

• Clave pública

• La clave pública se utiliza para el encriptado

• La privada para el desencriptado

• La criptografía es la base de los sistemas DRM (Digital Rights Management)

Criptografía

DRM en el mundo de la música

• CDs -> No son CDs, sino CD-ROM. No se usa desde 2007

• Online: iTunes, Google Play y Amazon actualmente libres de DRM

• Sí que se usan metadatos con la información del comprador

Limitaciones

• El “agujero analógico”

• Obsolescencia. ¿Qué pasa cuando la tecnología cambia?

• ¿Es legal grabar un CD con música?

• No toda la piratería es indeseada (p.e. Microsoft)

• El DRM puede aumentar la piratería

Watermarking

• Son técnicas que persiguen introducir información en una señal digital

• Se puede marcar un fichero para luego poder rastrearlo

• Dos tipos:

• Visible

• Invisible

Tipos de sistemas

• Ciegos: La señal original no es necesaria para la detección final.

• No ciegos: Se necesita la señal original para poder detectar la marca

• Frágiles: Son sensibles a modificaciones sobre la señal que lleva la marca. Se usan para detectar cambios en la señal (autenticidad)

• Robustos: Son muy resistentes a modificaciones. Se usan para protección de copias o control del copyright.

Esteganografía

• El objetivo es ocultar información de modo que nadie pueda ser capaz de saber que existe un “mensaje oculto”. Es una aplicación del watermarking.

• Técnicas típicas:

• Ocultar mensajes en los bits menos significativos de una imagen ruidosa

• Tinta invisible

• Cifrado nulo:News Eight Weather: Tonight increasing snow. Unexpected precipitation smothers eastern

towns. Be extremely cautious and use snowtires especially heading east. The [highway is not] knowingly slippery. Highway evacuation is suspected. Police report emergency situations in

downtown ending near Tuesday

Newt is upset because he thinks he is President

Ejemplo

Si eliminamos todos menos los 2 últimos bits de cada componente de

color y aumentamos el brillo

Principios de audio digital

Technology

Transcript of Principios de audio digital