Volker Schillings informatik.uni-trier.de/~schillings [email protected]
2.2 Kompressionsverfahren für...
Transcript of 2.2 Kompressionsverfahren für...
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-39
2.2 Kompressionsverfahren fürStandbilder
2.2.1 Fax-Kompression
Standards in der Telekommunikation werden von derInternational Telecommunications Union (ITU-T) entwik-kelt (früher: CCITT = Commitée Consultatif Internationalde Téléphonie et Télégraphie).
Der Standard für verlustlose Kompression von Faksimi-le-Anwendungen war einer der ersten Standards zurBildkompression.
Bilder werden von Faxalgorithmen der Gruppe 3 als bi-tonal betrachtet, d.h. jedes Pixel kann entwederschwarz oder weiß sein. So kann jedes Pixel mit einemBit repräsentiert werden. In jedem bitonalen Bild gibt esin der Regel größere Bitfolgen (Runs), die entwedervollkommen schwarz oder vollkommen weiß sind.
Beispiel:
Lauflängencodierung: 4w 3s 1w 1s 2w 1s
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-40
Fax-Standards der ITU (vormals CCITT)
Standard T.4 erstmals verabschiedet 1980, überarbeitet1984 und 1988 (Fax Gruppe 3) für fehleranfällige Lei-tungen, insbesondere Telefonleitungen.
A4-Dokumente in schwarz/ weiß.
100 dots per inch (DPPI) oder 3,85 Zeilen/mmvertikal
1728 Pixels pro Zeile
Ziel:Übertragung einer Seite in einer Minute bei 4800 bit/s
Standard T.6 erstmals verabschiedet 1984 (Fax Gruppe4) für fehlerfreie Leitungen oder digitale Speicherung.
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-41
Standards für die Fax-Kompression
Fax Gruppe 3, ITU-T Recommendation T.4:
Kodierungsansatz 1: Modified Huffman Code (MH)
• Bild wird als Folge von Pixel-Zeilen betrachtet.
• Für jede Zeile wird eine Lauflängencodierung ermittelt.
• Die (Lauflänge,Wert)-Beschreibung wird dann Huff-man-kodiert, mit standardisierter, festgeschriebenerTabelle
• Dabei werden schwarze und weiße Runs mit separa-ten Huffman-Codes behandelt, da die Auftrittswahr-scheinlichkeiten der Lauflängen recht unterschiedlichsind.
• Zur Fehlererkennung wird nach jeder Zeile ein EOL(end-of-line=)-Codewort eingefügt. Dies ermöglichtdas Wiederaufsetzen nach Bitübertragungsfehlern.
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-42
Fax-Kompression
Kodierungsansatz 2: Modified Read (MR) Code
• Pixelwerte der vorangehenden Zeile werden für dieVorhersage der aktuellen Zeile verwendet.
• Anschließend wird eine Lauflängencodierung und einstatischer Huffman-Code wie bei MH eingesetzt.
• Auch hier wird ein EOL-Codewort verwendet.
Die Kodierungsansätze MH und MR werden regelmäßigabgewechselt, um die Fortpflanzung von Fehlern zuvermeiden.
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-43
Huffman-Tabelle für Fax Gruppe 3 (Ausschnitt)
White runlength
Code word Black runlength
Code word
0 00110101 0 00001101111 000111 1 0102 0111 2 113 1000 3 104 1011 4 0115 1100 5 00116 1110 6 00107 1111 7 000118 10011 8 0001019 10100 9 00010010 00111 10 000010011 01000 11 000010112 001000 12 000011113 000011 13 0000010014 110100 14 0000011115 110101 15 00001100016 101010 16 000001011117 101011 17 000001100018 0100111 18 000000100019 0001100 19 0000110011120 0001000 20 00001101000
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-44
Fax Gruppe 4
ITU-T Rec. T.6
Kodierungstechnik: Modified Modified Read Code(MMR)
• Vereinfachung des MR-Codes; es werden keine Feh-lererkennungsmechanismen mehr eingesetzt, um dieKompressionsrate zu erhöhen.
Kompressionsraten:
Geschäftsdokumente
Gruppe 3: 20:1
Gruppe 4: 50:1
Für Fotos u.ä. ist die Kompressionsrate schlecht, weildort nur kurze Lauflängen vorkommen. Eine adaptivearithmetische Codierung wäre beispielsweise bessergeeignet.
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-45
2.2.2 Block Truncation Coding (BTC)
Ein einfaches Verfahren für Graustufen-Bilder. Mannimmt an, daß jedes Pixel im Original mit einem Grau-wert von 0 (schwarz) bis 255 (weiß) beschrieben ist.
Algorithmus BTC
1. Zerlege das Bild in Blöcke der Größe n x m Pixel
2. Berechne Mittelwert und Standardabweichung derPixelwerte für jeden Block
∑ ∑= =
=n
i
m
j
jiYnm 1 1
,1µ
∑ ∑= =
−=n
i
m
j
jiYnm 1
2
1
,21 µσ
mit Yi,j = Helligkeit (Graustufe) des Pixels.
3. Weise dem Block eine Bitmatrix der Größe n x mnach folgender Regel zu:
≤
=sonst
Yfalls
B
ji
ji
�
�
0
1 ,
,
µ
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-46
4. Berechne zwei Graustufenwerte für den Block, a fürden Wert der dunkleren Pixel, b für den Wert derhelleren Pixel:
qpa σµ −=
pqb σµ +=
p ist dabei die Anzahl der Pixel, die heller als derMittelwert µ sind, q die Anzahl der dunkleren Pixel.
5. Ausgabe: (Bitmatrix, a, b) für jeden Block
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-47
Dekompression bei BTC
Für jeden Block werden die Graustufen der einzelnenPixel wie folgt berechnet:
=
=sonstb
BfallsaY
jiji
�
� 1'
,,
Beispiel für die Kompressionsrate
Blockgröße: 4x4Original (Grauwerte) 1 Byte pro Pixelcodierte Darstellung: Bitmatrix mit 16 Bits + 2x8 Bits
für a und b
Ö Reduktion von 16 Bytes auf 4 Bytes
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-48
2.2.3 Color Cell Compression
Ein Verfahren zur Kompression von Farbbildern. ImPrinzip könnte man BTC für jeden der drei FarbkanäleRGB getrennt anwenden. Aber CCC liefert qualitativbessere Ergebnisse.
Algorithmus CCC
1. Zerlege das Bild in Blöcke der Größe m x n Pixels.
2. Berechne für jedes Farbpixel die Helligkeit gemäß:
Y = 0.3Pred + 0.59Pgreen + 0.11Pblue
Y=0 entspricht weiß, Y=1 entspricht schwarz
3. Für c = red, green, blue berechne die mittlerenFarbwerte der Pixel gemäß
∑∑≤
==µµ jiji Y
jicY
cjicc Pp
bPq
a,,
,,,, 1
, 1
p ist die Anzahl der Pixel, die heller als der Mittelwertsind, q die Anzahl der dunkleren Pixel.
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-49
4. Weise dem Block eine Bitmatrix der Größe n x mnach folgender Regel zu:
≤
=sonst
Yfalls
B
ji
ji
�
�
0
1 ,
,
µ
5. Die Werte a = (ared, agreen, ablue) undb = (bred, bgreen, bblue) werden in eine Farbtabelle ab-gebildet, gemäß einem Nähe-Maß. Es ergeben sichdie Werte a’ und b’ als Indizes der Farbtabelle (ColorLooking Table, CLUT).
6. Ausgabe: (Bitmatrix, a’, b’) für jeden Block
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-50
Dekompression bei CCC
Die Dekompression funktioniert für jeden Block wie folgt:
PCLUT a falls B
CLUT b sonsti j
i j
'[ ' ]
[ ' ],
,
==
�
�
1
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-51
Funktionsweise von CCC
a'
b'
RGB
...CCC
CLUT
RGB
RGB
RGB
RGB
RGB
RGB
RGB
RGBRGB RGB RGB
RGB
RGB
RGB
RGB
RGB
RGB
RGB
RGBRGB
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-52
Extended Color Cell Compression (XCCC)
Eine Erweiterung von CCC zur weiteren Verbesserungder Kompressionsrate.
IdeeHierarchie von Blockgrößen. Man versucht zunächst, ei-nen großen Block mit CCC zu codieren. Wenn die Ab-weichung der tatsächlichen Farbwerte im Block von a‘oder b‘ größer ist als ein vorgegebener Schwellenwert,wird der Block in vier Teilblöcke zerlegt. Der Algorithmusarbeitet rekursiv.
3 a b 64 bit
3 a b 64 bit
3 a b 64 bit
2 a b 16 bit
a b 16 bit
a b 16 bit
a b 16 bit
1 2
34 5
67
1 2 3
4 5 6 7
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-53
JPEG
Die Joint Photographic Experts Group (Komitee derISO) hat einen sehr effizienten Kompressionsalgorith-mus entwickelt, der nach ihr benannt ist. JPEG hat bei-spielsweise im WWW eine sehr weite Verbreitung ge-funden.
Kompression in vier Schritten:
1. Bildaufbereitung
2. Diskrete Cosinus-Transformation (DCT)
3. Quantisierung
4. Entropie-Kodierung
Der DCT-basierte Kodierungsprozeß
8 x 8 blocks
Source Image Data
DCT-Based Encoder
FDCT Quantizer EntropyEncoder
CompressedImage Data
TableSpeci-fication
TableSpeci-fication
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-54
JPEG "Baseline" Mode
Ein Kompressionsverfahren auf der Basis einer Trans-formation aus der Zeitdomäne in die Frequenzdomäne
BildtransformationFDCT (Forward Discrete Cosine Transformation). Sehrähnlich der Fourier-Transformation. Wird auf jedenBlock von 8x8 Pixeln einzeln angewendet.
Svu =
14
C C sx u y v
u v yxyx ==∑∑ + +
0
7
0
7 2 116
2 116
cos( )
cos( )π π
mit
C Cu v, = 1
2 für u, v = 0;C Cu v, = 1 sonst
64 mal anwenden, ergibt 64 Koeffizienten in der Fre-quenzdomäne
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-55
Quantisierung
Anzahl der Quantisierungsstufen je DCT-Koeffizient ein-zeln einstellbar (Q-Faktor). Dies geschieht durch Anga-be einer Quantisierungstabelle.
Entropiekodierung
1. DC-Koeffizient sehr wichtig (Grundfarbton). Codie-rung durch Differenzbildung zu vorherigem DC-Koeffizienten.
2. AC-Koeffizienten, Abarbeitung in „Zick-Zack“-Reihenfolge, Lauflängenkodierung
3. Huffman-Codierung
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-56
Quantisierung und Entropie-Codierung
entropyencoder
AC63 AC1
DCi = DCi - DCi-1
quant.
DCT
coeff.
DCi DCi-1zig-zagreordering
Das Zickzack-Auslesen der Koeffizienten ist besser alsein zeilenweises Auslesen. Grund: Nach der Quantisie-rung kommen in der rechten unteren Dreiecksmatrixviele gleiche Werte nacheinander vor, darunter vieleNullen (Amplituden mit zunehmender Frequenz ent-sprechen schärfer werdenden Kanten). Die Zickzack-Anordnung maximiert die Lauflängen für die anschlie-ßende Entropie-Codierung (Lauflängencodierung, ge-folgt von Huffman-Codierung)
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-57
JPEG Decoder
Reconstructed Image Data
DCT-Based Decoder
IDCTDe-quantizer
EntropyDecoder
CompressedImage Data
TableSpeci-fication
TableSpeci-fication
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-58
Verschiedene Modi in JPEG
JPEG Sequential Mode
JPEG Progressive Mode
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-59
Quantisierungsfaktor und Bildqualität
Bildbeispiel 1
Schloß, Original
Schloß, Q=6
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-60
Schloß, Q=12
Schloß, Q=20
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-61
Bildbeispiel 2
Blumen, Original
Blumen, Q=6
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-62
Blumen, Q=12
Blumen, Q=20
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-63
2.2.4 Bildkompression mit Fraktalen
Theorie der Fraktale = Theorie der Selbstähnlichkeit .Mathematisch beschreibbar.
Beispiel: Küstenlinie einer Insel
Idee für die Bildkompression:
• Häufig ist ein Ausschnitt aus einem Bild einem ande-ren Ausschnitt ähnlich. Genauer: Er kann unter An-wendung von einfachen mathematischen Operationenaus dem anderen Ausschnitt errechnet werden(Translation, Rotation, Skalierung)
• Codierung: Ausgabe des ersten Bildausschnitts sowiefür die ähnlichen Bildausschnitte Ausgabe der Trans-formationsoperationen.
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-64
Bildkompression mit Fraktalen
Beispiel
Ave
rage
& S
ubsa
mpl
ing
originalblock
transformedblock
Offset
Rot
ate
Contrast
Literatur:
M.F. Barnsley, L.P. Hurd:Bildkompression mit FraktalenVieweg-Verlag, 1996
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-65
2.3 Kompressionsverfahren für Video
2.3.1 MPEG
Moving Picture Experts Group (Komitee der ISO).MPEG konzentriert sich nicht nur auf Videodaten, son-dern behandelt auch die damit verbundenen Audioströ-me. Ziel von MPEG-I: ein Videosignal soll samt Audiobei annehmbarer Qualität mit 1,5 Mbit/s komprimiertwerden. (Datenrate einer T1-Verbindung in den USA).
Ähnlich wie JPEG sollte MPEG ein möglichst allgemei-ner Standard werden, der viele Anwendungen unter-stützt:
• Generalität
• Flexibilität
• Effizienz
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-66
Entwurfsziele des MPEG-1-Videokompressionsalgorithmus
• Wahlfreier Zugriff innerhalb von 1/2 Sekunde ohne si-gnifikanten Qualitätsverlust
• schnelle Vorwärts-/Rückwärtssuche
• Bildfolge kann rückwärts abgespielt werden
• gute Editierbarkeit
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-67
MPEG - Videokodierung
Vier Frame-Typen in MPEG-1:
I-Frame (Intra Picture)Intra-codiertes Vollbild, sehr ähnlich dem JPEG-Standbild, codiert mit DCT, Quantisierung, Lauflängeund Huffman
P-Bild (Predicted Picture)Bezug auf vorherige I- und P-Bilder.Delta-Codierung, DPCM-kodierte MakroblöckeBewegungsvektoren möglich
B-Bild (Interpolated Picture)"bidirectionally predictive coded pictures", Bezug auchzu nachfolgenden Bildernauch Interpolation zwischen Makroblöcken möglich
D-Bild"DC coded picture", nur DC-Koeffizienten der Blöcke(linke obere Ecke der Koeffizienten-Matrix) für schnellenVorlauf
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-68
„Group of Pictures“ in MPEG
Die Folge von I, P und B-Bildern ist nicht standardisiert,sondern kann von der Anwendung bestimmt werden. Solassen sich Bildqualität und Kompressionsrate anwen-dungsabhängig wählen.
IB
B
PB
B
I
P
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-69
MPEG-Encoder
videoin DCT quantizer entropy
inverse quantizer
IDCT
intra/inter
previouspicture store
motion comp. predictor
futurepicture store
motionestimator
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-70
MPEG-Decoder
bit
stream
buffer entropydecoder
inversequantizer
IDCT
videoout
motioncompens.predictor
previouspicture store
futurepicture store
motionvectors
picturetype
motion vectors
inter/intra
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-71
Zeitliche Redundanz und Bewegungsvektoren
"Motion Compensated Interpolation"
A
B
C
previous frame
current frame
future frame
block-matching technique
1. block B = block A2. block B = block C3. block B = (block A+ block C) / 2
Der Suchradius (search range) kann bei der MPEG-Codierung als Parameter eingestellt werden. Je größerder Suchradius, desto besser das Kompressionspoten-tial, aber desto länger auch die Laufzeit.
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-72
MPEG-1 “Constraint Parameter Set“
Im Prinzip ist der MPEG-Standard sehr flexibel, wasaber die Implementierung standardkonformer Decodererschwert. Deshalb wurde ein „Constraint ParameterSet“ standardisiert. Jeder MPEG-Encoder und -Decodermuß diesen Einschränkungen entsprechend operierenkönnen, auch Hardwareimplementierungen.
horizontal size <= 720 pixelsvertical size <= 576 pixelstotal number of macro-blocks/picture
<= 396
total number of macroblocks/s <= 396*25 = 330*30picture rate <= 30 frames/sbit rate <= 1.86 Mbits/sdecoder buffer <= 376832 bits
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-73
MPEG-2
MPEG-2 erweitert MPEG-1 für höhere Bandbreiten undbesser Bildqualität, bis hin zu HDTV. Es wurde gemein-sam von ISO und ITU entwickelt (H.262).
Erstmals sieht MPEG-2 auch skalierbare Datenströmevor, die zur Bedienung von Empfängern verschiedenerLeistungsklassen effizient eingesetzt werden können.
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-74
MPEG-2 Video-Profil
Simple pro-
file
no B frames
not scalable
Main profile
B frames
not scalable
SNR scalable
profile
B frames
SNR scalable
Spatially
scalable pro-
file
B frames
SNR scalable
High profile
B frames
spatial or
SNR scalable
High level
1920x1152x60
≤80 Mbits/s ≤100 Mbits/s
High-1440 level
1440x1152x60
≤60 Mbits/s ≤60 Mbits/s ≤80 Mbits/s
Main level
720x576x30
≤15 Mbits/s ≤15 Mbits/s ≤15 Mbits/s ≤20 Mbits/s
Low level
352x288x30
≤4 Mbits/s ≤4 Mbits/s
Skalierbare Codierung = Codierung in Schichten (layers)base layer: niedrigste Qualitätenhancement layers: Nachbesserung der QualitätSNR scaling: enhancement layer enthält bei-
spielsweise Chroma-Daten in hö-herer Auflösung
Spatial scaling: Erhöhung der Pixeldichte
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-75
MPEG-4
Ursprünglich planten ISO und ITU einen StandardMPEG-3 für HDTV-Qualität bei sehr hohen Datenraten.Dieser wurde inzwischen in MPEG-2 integriert und somithinfällig.
Für MPEG-4 war zunächst an Video für sehr niedrigeBandbreiten gedacht (z.B. Multimedia für Mobilfunk). In-zwischen wird nach einer radikalen Kehrtwendung imNormungsgremium an einer Einzelobjekt-Codierung ge-arbeitet. Das Bild wird in einzelne Objekte segmentiert.Für jedes Objekt kann die Codierungstechnik getrenntgewählt werden. Die objektorientierte Codierung eröffnetzugleich völlig neue Möglichkeiten zur Weiterverarbei-tung beim Empfänger.
Die Verabschiedung von MPEG-4 als InternationalStandard wird für Ende 1998 erwartet.
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-76
2.3.2 ITU Recommendation H.261
Auch bekannt als „p*64kbit/s“
• Ein Verfahren zur Videokodierung für audiovisuelleDienste bei einer Bitübertragungsrate von p x 64 Kbit/s
• Gedacht für ISDN
• Für den Parameter p gilt:
• p ist aus [1,30]
• p klein (p=1, p=2): Bildtelefon (schlechte Qualität)
• p groß (ab p=6): auch Videokonferenz (mittlereQualität)
• heute gebräuchlich: p=2, p=6
• Intraframe-Coding: DCT-basiert (wie JPEG)
• Interframe-Coding: DPCM-basiert
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-77
Videocodierung in H.261
Die fundamentalen Ideen sind denen in JPEG undMPEG gleich. H.261 ist weniger flexibel, dafür aberleichter standardkonform implementierbar.
Es werden genau drei Komponenten codiert, nämlich Y,Cb und Cr, jeweils blockweise mit 8x8 Pixels pro Block.Die Helligkeit Y wird mit voller Auflösung codiert, diebeiden Chroma-Komponenten jeweils mit halber Auflö-sung in horizontaler und vertikaler Richtung (4:2:0-Modell).
Es gibt nur zwei Bildformate:
CIF (Common Intermediate Format): 352x 288
QCIF (Quarter CIF): 176x144
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-78
Die wichtigsten Parameter von H.261
Die beiden Bildformate
CIF(Breite x Höhe)
QCIF(Breite x Höhe)
Y 352 x 288 176 x 144Cb 176 x 144 88 x 72Cr 176 x 144 88 x 72
Die Hierarchie der Blockstrukturen
Strukturelement Beschreibungpicture one video picture (frame)group of blocks 33 macro blocksmacro block 16 x 16 Y, 8 x 8 Cb, Cr
block 8 x 8 pixels (coding unit forDCT)
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-79
Die Funktionsweise eines H.261-Encoders
CIF or QCIF
block, MB,GOB
block = 8 x 8 pixelsMB = 6 blocksGOB = 3 x 11 MBs
8x8 DCT quantizer entropy
comp.data
inversequantizer
IDCT
motioncompensation
motion vector1 vector/MB
loopfilter
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-80
Status von H.261
Implementierungen in Hardware und Software verfüg-bar. Fast alle Bildtelefon-Hersteller haben inzwischenproprietäre Lösungen aufgegeben und auf H.261 umge-stellt. PC-Lösungen sind auf dem Vormarsch.
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-81
2.4 Audio-Kompression
2.4.1 Grundlagen digitaler Audioströme
Audiosignale sind analoge Wellenverläufe. Die charak-teristischen Eigenschaften werden im wesentlichen vonder Frequenz (Tonhöhe) und von der Amplitude (Laut-stärke) bestimmt.
Vor der weiteren Verarbeitung im Rechner müssen dieanalogen Wellenverläufe in digitale Signale transfor-miert werden. Dies geschieht durch Abtastung .
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-82
Abtastung
Der zum Abtastzeitpunkt vorliegende Momentan-Wertdes Analogsignals wird der Analog-Digital-Umsetzungunterworfen. Praktisch wichtig ist vor allem die periodi-sche Abtastung.
Abtasttheorem von Shannon und Raabe (1939)
Zur fehlerfreien Rekonstruktion des Signalverlaufs derabgetasteten Analogsignale ist eine Mindestabtast-häufigkeit (Abtastfrequenz fA) erforderlich (bei periodi-schem Abtastzyklus).
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-83
Abtasttheorem
Eine Signalfunktion, die nur Frequenzen im Frequenz-band B (bandgegrenztes Signal) enthält, wobei B gleich-zeitig die höchste Signalfrequenz ist, wird durch ihre dis-kreten Amplitudenwerte im Zeitabstand
t0 = 1
2B
vollständig bestimmt.
Andere Formulierung:Die Abtastfrequenz fA muß doppelt so hoch sein wie diehöchste im abzutastenden Signal vorkommende Fre-quenz fS
fA = 2 fS
Abtastung und Quantisierung sind voneinander unab-hängig zu betrachten. Eine exakte Rekonstruktion desZeitverlaufs (bzw. des Frequenzspektrums) sagt nichtsüber den Fehlergrad bei der Signalwertdiskretisierung(Quantisierung) aus.
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-84
Verschiedene Abtastfrequenzen
i n p u tw a v e fo rm
( a ) S am p l in g ra te is m u ch h ig h e r th a n s ig n a l f re q u en c y
in p u tw a v e fo r m
c lo c k
c lo c k
sa m p le do u tp u t
sa m p le do u tp u t
(b ) S a m p ling r a te is l o w e r tha n s ig n a l f re qu e n c y
in p u tw a v e fo r m
c lo c k
sa m p le do u tp u t
(c ) S a m p l in g ra te i s a t t h e N yq u is t l im it
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-85
Quantisierung
Der gesamte Wertebereich des Analogsignals wird ineine endliche Anzahl von Intervallen Quantisierungsin-tervallen) eingeteilt, denen jeweils ein fester diskreterWert zugeordnet wird. Da alle in ein Quantisierungsin-tervall fallenden Analogwerte demselben diskretenWert zugeordnet werden, entsteht ein Quantisierungs-fehler.
obere Entscheidungsgrenze
Quantisierungs-intervallgröße a
untere Entscheidungsgrenze
a
a/2
a/2
Quantisierungintervall für die Zuordnung eines diskretenWertes zu allen zwischen + a/2 und - a/2 liegendenWerten einer Analogdarstellung.Rückwandlung:Beim Empfänger wird ein Analogwert rückgewonnen(Digital-Analog-Umsetzung), der dem in der Mitte desQuantisierungsintervalls liegenden Analogwert ent-spricht.Maximaler Quantisierungsfehler: a/2
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-86
Codierung
Die Quantisierungsintervalle werden durch die Zuord-nung eines - im Prinzip frei wählbaren - (Binär-) Codesgekennzeichnet und unterschieden. Anstelle des ur-sprünglichen Analogsignals wird die - mit dem Quanti-sierungsfehler behaftete - digitale Darstellung übertra-gen.
Im einfachsten Fall wird ein reiner Binärcode Darstel-lung als Binärzahl) als Codierung des diskreten Digital-wertes gewählt.
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-87
2.4.2 Pulse Code Modulation
Die Zusammenfassung der Schritte
AbtastungQuantisierungCodierung
und die Darstellung der gewonnenen Codewörter als di-gitale Basisbandsignale am Ausgang des PCM-A/D-Umsetzers ist Grundlage der in großem Umfang einge-setzen PCM-Technik .
Die A/D-Umsetzung (Abtastung/Quantisierung) und Co-dierung sowie die Rückkonvertierung erfolgt im soge-nannten CODEC (Codierer/ Decodierer) .
Analog-signale
CODEC
PCM-SignaleAnalog-signale
CODEC
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-88
PCM-Fernspechkanal
Ausgangspunkt: Analoger CCITT-FernsprechkanalFrequenzlage 300-3400 HzBandbreite 3100 Hz
Abtastfrequenz: fA = 8 kHz
Abtastperiode: TA = 1/ fA = 1/8000 Hz =125µs
Die vom CCITT gewählte Abtastfrequenz ist höher alsnach Shannon-Abtasttheorem erforderlich: 3400Hz obe-re Bandgrenze ergibt 6800 Hz Abtastfrequenz.Für die höhere Abtastfrequenz gibt es technische Grün-de (Filtereinfluß, Kanaltrennung usw.).
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-89
Frequenzspektrum eines Signals
Bandbegrenztes SignalSignale können ein „natürlich“ begrenztes - kontinuierli-ches - Frequenzspektrum umfassen oder durch techni-sche Mittel auf einen Ausschnitt ihres Spektrums be-grenzt werden (Filter).
2000 4000 6000 8000 10000 12000
10
20
30
40
0
Energie (dezibel)
Frequenzen (Hz)3100 Hz
300 Hz 3400 Hz
Kontinuierliches Frequenzspektrum der menschlichenStimme und Bandbreite des CCITT-Standardtelefonka-nals.
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-90
Amplitudenquantisierung
Die Zahl der benötigten Quantisierungsintervalle wirdbei der akustischen Sprachkommunikation (Fernspre-chen) durch den Grad der Silbenverständlichkeit beimEmpfänger bestimmt.
Mit „Sicherheitszuschlag“ wurden vom CCITT 256Quantisierungsintervalle genormt.
Bei binärer Codierung ergibt dies 8 Bits pro Abtastung.
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-91
Die Übertragungsgeschwindigkeit (Bitrate) für einen di-gitalisierten PCM-Fensprechkanal ist demnach
Bitrate = Abtastfrequenz x Codewortlängekbit/s = 8000/s x 8 bit
= 64 kbit/s
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-92
Ungleichförmige Quantisierung
Bei gleichförmiger Quantisierung sind alle Intervallegleich groß und vom Momentanwert des Signals unab-hängig. Quantisierungsfehler machen sich bei gleich-förmiger Quantisierung bei kleinen Signalwerten sehrstark bemerkbar (Quantisierungsrauschen).
Bei ungleichförmiger Quantisierung sind die Quantisie-rungsintervalle bei großer Signalamplitude größer undbei kleiner Amplitude kleiner.
Die ungleichförmige Intervallgröße wird durch einendem Quantisierer vorgeschalteten (Signal-) Kompressorerzielt. Auf der Empfangsseite wird in inverser Funktionein Expander eingesetzt. Er dient zur Wiederherstellungder ursprünglichen Größenverteilung der Signale (Dy-namik der Signale).
Als Kompressionskennlinien werden logarithmischeKennlinien verwendet, die schaltungstechnisch durch li-neare Teilstücke approximiert werden.
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-93
13-Segment-Kompressorkennlinie
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-94
Delta-ModulationStatt der Absolutwerte der Amplitude werden die Wert-differenzen codiert.
15
14
13
12
11
10 9 8
7
6
5
4
3
2
1 0
Signal ändertsich zu schnell;Kodierung kommt nichtnach
Aufeinander-folgendeAbtast-werte ändernsich immer um +/- 1
Dig
italis
ieru
ngss
tufe
1 0 1 1 1 1 0 0 0 0 0 0 0 1 1 1 1
Abtast-intervall
Zeit
Bitstrom
Codierung:
1 = steigendes Signal
0 = fallendes Signal
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-95
Differentielle PCM (DPCM)
Differenz zweier PCM-Werte wird codiert. Ergibt kleinereWerte, geringere Bitrate, aber Quantisierungsfehler beischnellen Signalschwankungen.
Adaptive DPCM (ADPCM)
Die Quantisierungstabelle ändert sich mit den tatsächli-chen Signalschwankungen. Der Empfänger kann dieseTabellenänderung dynamisch nachvollziehen. Bei klei-nen Signalschwankungen wird mit weniger bit/s übertra-gen als bei großen Signalschwankungen. Dadurch kannbeispielsweise eine Kompression von 1,4 Mbit/s auf 0,2Mbit/s bei vergleichbarer Qualität möglich werden.
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-96
Gebräuchliche Sampling-Parameter
8 kHz Telefon-Standard, µ-law encoding, SUN Audio32 kHz Digital Radio, NICAM, (DAT)44,1 kHz CD48 kHz Digital Audio Tape (DAT)
Sampling-Breite:
8 bit 256 Amplituden-Stufen (Sprache)16 bit 65536 Amplituden-Stufen (HiFi)
A U D IOIN
L ow -P a ssF ilte r C o m p u te r D /A L o w -P a ss
F ilte rA U D IO
O U T
E x te rn a l M e m o ry
A /D
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-97
Beispiel für Audio-Parameter
Signal: 20 kHz Bandbreite (HiFi)Sampling Rate: 44,1 kHzSampling Breite: 15 bit
Datenrate:
mono 0,7 M bit/sstereo 1,4 M bit/s
Das ist die Datenrate des CD-Players!
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-98
Beispiel für eine Audio-Codierung
Puls-Code-Modulation (PCM)üblich: nichtlineare QuantisierungA/D Wandler: 13 (14) bitAbbildung auf 8 bit mit logarithmischer Kennlinie: A-law(µ-law)
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-99
2.4.3 Psycho-akustische Modelle
"Irrelevanzreduktion"
Ausnutzung des Auflösungsvermögens des menschli-chen Ohres
Verdeckungseffekt
• Mithörschwelle, frequenz- und pegelabhängig
80 dB
60
40
20
0
LT
f T
0,020,05
0,10,2
0,51 2 5 10 20 kHz
f = 0,25m 4 kHz1
1, 2
Daten, die das Ohr sowieso nicht hören würde, werdenschon an der Quelle herausgefiltert.
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-
100
Beispiel: MPEG Audio
Merkmale
Kompression auf 32, 64, 96, 128 oder 192 kBit/s
Audiokanäle:
• Mono oder
• 2 unabhängige Kanäle oder
• "Joint Stereo"
Verfahren
• Abtastrate 32 kHz, 44,1 kHz oder 48 kHz
• 16 Bits pro Abtastwert
• Verzögerung durch Codieren und Decodieren höch-stens 80 ms bei 128 kbit/s
• psychoakustisches Modell steuert die Quantisie-rung
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-
101
Zwei Verfahren in MPEG-Audio
MUSICAM ASPEC
Masking Pattern UniversalSubband Integrated CodingAnd Multiplexing
Advanced spectralEntropy Coding
Institut für RundfunktechnikMünchen
FhG Erlangen
Teilbandcodierung dynamische Frequenz-bänder (überlappend)Entropiecodierung(Huffman)
einfacher Aufbau sehr gute Ergebnisse beiniedrigen Bitraten
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-
102
Funktionsweise eines MPEG-Audio-Encodersund -Decoders
Digital AudioSignal (PCM)
Time/Frequency
Quantizer and Coding
FramePacking
Psychoacoustic Model
ISO/MPEG/AUDIO Bitstream
Mapping
Digital AudioSignal (PCM)
ISO/MPEG/AUDIO Bitstream
FrameUnpacking
ReconstructionFrequency/ T i m eMapping
Multimedia
Technik
Prof. Dr. W.
Effelsberg
Kompressionsverfahren Kapitelnummer 2-
103
Drei Schichten in MPEG Audio
I Teilbandcodierung mit 32 Bändern nach MUSICAM
• hohe DatenrateII Teilbandcodierung nach MUSICAM,
aufwendigeres psycho-akustisches Modellbessere Bestimmung der Skalierungsfaktoren
• mittlere DatenrateIII Transformationscodierung mit max. 512 dynami-
schen Fenstern und Entropiecodierung nachASPEC
• niedrigste Datenrate