Fächer

Betriebswirtschaftslehre
Biologie
Chemie
Deutsch
Englisch
Erdkunde
Erziehungswissenschaften
Ethik
Französisch
Geschichte
Informatik
- Biografien
- Facharbeiten
- Referate
Italienisch
Kunst
Latein
Mathematik
Musik
Philosophie
Physik
Politik
Psychologie
Rechtswissenschaften
Religion
Sozialwissenschaften
Spanisch
Sport

Software-Ergonomie

1.Einleitung Im folgendem mÃ¶chte ich den Artikel von S. MaaÃŸ Ã¼ber Software-Ergonomie, der in der Zeitschrift "Informatik Spektrum" 1993 im Heft Nr. 16 erschienen ist,...

2920 Worte in "deutsch" als "hilfreich" bewertet
Angewandte Statistik

IT im Statistikunterricht Zusammenfassung Der erste Teil dieser Hausarbeit befaÃŸt sich mit den Anforderungen an einen (guten) IT-UnterstÃ¼tzten Unterricht und den...

5269 Worte in "deutsch" als "hilfreich" bewertet
Electronic Cash und Kryptologie

Vorwort Einkaufen und Bezahlen per Electronic Cash Mehr Sicherheit durch VerschlÃ¼sselung Smartcards mit Kryptoprozessor Elektronisches Geld auf der Chipkarte Sicherheitpaket fÃ¼r das Internet...

8115 Worte in "deutsch" als "hilfreich" bewertet

Videocodierung

Inhaltsverzeichnis

1 Grundlagen 1.1 Warum Codierung ? 1.2 Bilddarstellungen 1.3 MÃ¶glichkeiten der Codierung 1.3.1Huffman-Codierung 1.3.2Arithmetische Codierung 2 Bildcodierungsformate 2.1 GIF 2.2 JPEG 2.2.1Diskrete Cosinus-Transformation (DCT) 2.2.2Quantisierung 2.2.3Entropiecodierung 2.3 Fraktale Kompression 2.4 Wavelet-Kompression 3 Videocodierungsformate 3.1 H.261 3.1.1DPCM 3.1.2Funktionsweise von H.261 3.2 MPEG 3.2.1MPEG-Versionen 3.2.2Verfahrensablauf 3.3 Motion-JPEG 4 Fazit: Welche Bildcodierung wofÃ¼r?

Grundlagen

Warum Codierung ?

Besonders durch die gestiegene PopularitÃ¤t des Internet durch die MÃ¶glichkeiten der PrÃ¤sentation im World Wide Web hat die Bildcodierung enorm an Wichtigkeit gewonnen.

Zum einen locken besonders bunte Bilder und ansprechende Illustrationen die Menschen auf bestimmte Webseiten, zum anderen bewirken gerade groÃŸe Bilder erhÃ¶hte Wartezeiten durch die im Vergleich zu Festplatten oder CD-ROMs kÃ¼mmerlich kleine Bandbreite einer NetzÃ¼bertragung.

Kaum dass die GrÃ¶ÃŸe eines digitalen Bildes auf der Festplatte durch eine mittlerweile MindestgrÃ¶ÃŸe neuer Platten von 1 GB fast unerheblich geworden ist, bedeutet die Reduzierung der Ãœbertragungszeit durch Bildkompression von z.B. 5 Minuten auf 20 Sekunden (BMP auf JPEG bei einem 1024x768 TrueColor Landschaftsbild) einen erheblichen Zeitgewinn.

Unkomprimierte digitale Videos dagegen beanspruchen so viel Speicherplatz, dass auch heutige Festplatten schnell am Ende sind, von der Ãœbertragungsrate ganz zu schweigen.

Bei der Codierung unterscheidet man grundsÃ¤tzlich zwischen verlustbehafteter (lossy) und verlustfreier Codierung.

Bei verlustfreier Codierung werden nur die Redundanzen eines Bildes zusammengefaÃŸt, z.B. wird bei aufeinanderfolgenden Pixeln gleicher Farbe nur einmal die Farbe und die Anzahl der Pixel gespeichert (variable LauflÃ¤ngencodierung - variable length coding, VLC). Die Wiederherstellung des Ursprungsbildes ist jederzeit vollstÃ¤ndig mÃ¶glich. Man spricht hierbei von Datenkompression.

ZusÃ¤tzlich werden bei verlustbehafteter Codierung die (theoretisch vollstÃ¤ndig) irrelevanten Informationen entfernt, also Informationen, die das menschliche Auge sowieso nicht erkennen oder unterscheiden kann. Es ist dabei mÃ¶glich, den Fehlergrad einzustellen, so dass zur besseren Datenreduktion auch Informationen weggelassen werden kÃ¶nnen, die kaum wahrnehmbar sind. In der RealitÃ¤t gibt es allerdings kein Verfahren, das absolut keine StÃ¶rungen erzeugt. Diese BildstÃ¶rungen, Artefakte genannt, verstÃ¤rken sich natÃ¼rlich bei steigender Kompressionsrate. Bei diesen Methoden ist eine Rekonstruktion des Ausgangsbildes natÃ¼rlich nicht mÃ¶glich, dafÃ¼r sind im Allgemeinen die Kompressionsraten erheblich hÃ¶her als bei verlustfreier Codierung.

Weitere wichtige Zielsetzungen sind nach Le Galle:

- Bildfehlerkorrektur: Die Codierung soll in der Lage sein, Fehler, die beim Abspielen, Speichern oder Kopieren auftreten kÃ¶nnen, zu erkennen und zu korrigieren.

- Skalierbarer Codier-/Decodieraufwand: Es soll mÃ¶glich sein die Codierung/Decodierung auch auf qualitativ schlechteren Systemen, eventuell unter QualitÃ¤tsverlust, durchzufÃ¼hren.

- Format- und AuflÃ¶sungsvielfalt: Unterschiedliche Formate und AuflÃ¶sungen sollen unterstÃ¼tzt werden.

- Der Algorithmus soll kostengÃ¼nstig, also mit vertretbarem Aufwand in Hardware realisierbar sein.

Bei der Codierung von Videosequenzen ergeben sich weitere Anforderungen:

- Wahlfreier Zugriff: Es muss mÃ¶glich sein, auf einzelne Bilder innerhalb der Sequenz zuzugreifen.

- Schneller Vor-/RÃ¼cklauf: Bildsuchlauf innerhalb der Sequenz durch Anzeigen nur jedes n-ten Bildes.

- RÃ¼ckwÃ¤rtsabspielen: insbesondere fÃ¼r Videospiele, Lernsoftware und andere interaktive Anwendungen von Bedeutung.

- Audiovisuelle Synchronisation: Audio- und Videosequenz eines Films sollen synchronisierbar sein.

Bilddarstellungen

Wie wird ein Bild Ã¼berhaupt digital dargestellt?

Das menschliche Auge (genauer gesagt die Rezeptoren auf der Netzhaut) empfÃ¤ngt Lichtwellen verschiedener WellenlÃ¤ngen, die vom Gehirn als Farben interpretiert werden.

Am Computer gibt es verschiedene Schemata um diese Farbwerte darzustellen. Die wichtigsten fÃ¼r die Bildcodierung sind RGB (Rot, GrÃ¼n, Blau) und YUV (Helligkeit, 2 Farbbalancen) .

Bei der Bildschirmdarstellung lÃ¤sst sich jede Farbe durch ihre Rot-, GrÃ¼n- und Blauanteile reprÃ¤sentieren. Da das menschliche Auge nicht mehr als jeweils 256 Abstufungen dieser drei Farben, also insgesamt ca. 16 Millionen Farbwerte, unterscheiden kann, werden beim RGB-Schema 24 Bit fÃ¼r jeden Bildpunkt (Pixel) belegt (je 8 Bit fÃ¼r Rot-, GrÃ¼n-, Blauwert). Genau genommen kann das Auge sogar nur 60.000 Farbstufen erkennen, es wÃ¼rden also 17 Bit fÃ¼r die Darstellung ausreichen, aber das sind leider 2 Byte und 1 Bit, so dass 3 Byte benutzt werden mÃ¼ssen.

Allerdings liegt das AuflÃ¶sungsvermÃ¶gen des Auges fÃ¼r Helligkeit weit Ã¼ber dem fÃ¼r Farbunterschiede. Bis zu 600 Helligkeitsstufen kÃ¶nnen unterschieden werden, also mehr als durch ein Byte darstellbar. Darauf beruht das YUV-Schema, bei dem Y die Helligkeit (Luminanz), U und V die Farbigkeit (Chrominanz) darstellen. U beschreibt die Balance zwischen Rot und GrÃ¼n und V die zwischen Gelb und Blau. Daher wird manchmal auch statt U CR(ColorRed) und statt V CB(ColorBlue) verwendet. Durch diese Aufteilung kÃ¶nnen, entsprechend des menschlichen SehvermÃ¶gens, mehr Bit (hÃ¶here Genauigkeit) fÃ¼r die Helligkeit als fÃ¼r die Farbigkeit benutzt werden. AuÃŸerdem kÃ¶nnen Grauwertebilder nur durch ihren Luminanzwert beschrieben werden.

Die Transformation von RGB zu YUV kann Ã¼ber eine einfache Matrizenmultiplikation erfolgen:

Das CMY-Schema (Cyan, Magenta, Gelb) hat sich fÃ¼r die Farbmischung bei Druckern als vorteilhaft erwiesen, ist aber fÃ¼r dieses Thema bedeutungslos.

MÃ¶glichkeiten der Codierung

Wie schon oben erwÃ¤hnt beruht jede Kompression auf der Reduzierung oder sogar Beseitigung von Redundanzen.

Diese kÃ¶nnen rÃ¤umlich, spektral oder bei Filmen zusÃ¤tzlich noch zeitlich sein.

RÃ¤umliche Redundanz bedeutet, dass die gleiche oder zumindest eine Ã¤hnliche Bildinformation mehrfach vorkommt, etwa bei sich wiederholenden Mustern.

Die spektrale Redundanz bezieht sich auf Ã„hnlichkeiten der Farbkomponenten, z.B. bei einem einfarbigen Bildausschnitt.

Bei Filmen verÃ¤ndert sich oft nur ein Ausschnitt, z.B. eine Person, wÃ¤hrend das restliche Bild, der Hintergrund, unverÃ¤ndert bleibt. Dieses bezeichnet man mit zeitlicher Redundanz.

Die Kompressionsverfahren entfernen die gefundenen Redundanzen, idealerweise ohne dass der Betrachter eine BeeintrÃ¤chtigung der BildqualitÃ¤t feststellt.

GrundsÃ¤tzlich lÃ¤sst sich jeder Kompressionsvorgang in vier Phasen aufteilen, wobei nicht jede Phase bei jedem Verfahren vorhanden sein muss:

- Vorverarbeitung

- reversible Transformation

- Quantisierung

- Umcodierung zur Kompression

Die Vorverarbeitung dient dazu die Bildparameter so zu verÃ¤ndern, dass nachfolgend eine bessere Kompression mÃ¶glich ist. Das wird durch Filterung, LÃ¶schen unerwÃ¼nschter Bildabschnitte oder auch Transformation der Bildelemente erreicht.

Die reversible Transformation stellt den verlustfreien Teil der Umcodierung dar. Hier werden die Bildelemente bijektiv, daher reversibel, auf eine andere Menge von Bildelementen abgebildet.

Die dritte Phase, Quantisierung, fÃ¼hrt die Irrelevanzreduktion durch. Sie ist bei den verlustfreien Verfahrenen nicht vorhanden.

Zum AbschluÃŸ werden die transformierten und evtl. quantisierten Bildelemente umcodiert, so dass idealerweise hÃ¤ufig vorkommende Elemente kurze, selten vorkommende Elemente lange Codes erhalten. Dies wird Entropiecodierung genannt. Dabei ist Entropie definiert als die untere Schranke fÃ¼r die CodelÃ¤nge einer Codekomprimierung ohne Beachtung eines Kontextes, also nach vollstÃ¤ndiger Entfernung aller Redundanzen. Dies wird durch Huffman- oder arithmetische Codierung erreicht.

Diese Codierungsverfahren werden bei fast allen Graphikformaten benutzt, darum werden sie schon im Folgenden erlÃ¤utert:

Huffman-Codierung

Die Idee der Huffman-Codierung geht auf das Prinzip des Morsealphabets zurÃ¼ck. Dort werden den hÃ¤ufig vorkommenden Symbolen (in diesem Fall sind das Buchstaben) kÃ¼rzere Codes zugeordnet als den seltener vorkommenden. Der Code fÃ¼r das Symbol 'e' zum Beispiel besteht nur aus einem einzigen Morsezeichen.

Nach Huffman ordnet man alle Symbole zunÃ¤chst nach ihrer HÃ¤ufigkeit in einer Tabelle. Die beiden seltensten erhalten als letzte Codeziffer eine 0 und eine 1. Beide werden in der Tabelle mit der Summe ihrer Wahrscheinlichkeiten zusammengefaÃŸt. Die HÃ¤ufigkeitstabelle hat damit ein Element weniger. Wieder sucht man die beiden seltensten Elemente und stellt ihrem Code eine 0 und eine 1 vor. Nach Zusammenfassen ihrer Wahrscheinlichkeiten beginnt das Spiel von vorn. Alle Symbole sind codiert, wenn nur noch ein Element in der Tabelle Ã¼brig ist.

Arithmetische Codierung

Bei diesem Schema werden die Symbole zunÃ¤chst in einem Intervall von 0 bis 1 angeordnet. Die Wahrscheinlichkeit eines Symbols entspricht dabei der LÃ¤nge seines zugehÃ¶rigen Unterintervalls. Besteht eine Datei aus zehn Symbolen, so gibt es daher zehn Unterintervalle. Je kleiner das zu einem Symbol gehÃ¶rige Unterintervall ist, desto lÃ¤nger wird sein Codewort, und umgekehrt.

Die Codierung erfolgt dadurch, dass jedem Symbol eine binÃ¤re FlieÃŸkommazahl zugeordnet wird, die dem Anfang der Position des Unterintervalls entspricht. Aus den FlieÃŸkommazahlen wird mit Hilfe der Unterintervalle eine einzige Zahlenfolge gebildet, die letztlich in einen Code umgesetzt wird.

Im Vergleich zur Huffman-Codierung, die jedem Zeichen einen Code zuordnet, ist die arithmetische Codierung mit Codes fÃ¼r Zeichenfolgen effizienter.

Bildcodierungsformate

GIF

GIF (Graphics Interchange Format) ist sicherlich das bekannteste Bildkompressionsverfahren. Es wurde von Compuserve entwickelt, um die Ãœbertragungszeiten im eigenen Online-Dienst gering zu halten. GIF arbeitet verlustfrei, kann aber nur acht Bits pro Pixel speichern, was eine maximale Farbenzahl von 256 ergibt. Ein GIF-Bild besitzt eine Farbpalette, die bis zu 256 Farben enthalten kann. Je kleiner die Tabelle, desto geringer ist auch der Platzbedarf der Datei. Durch diese Reduzierung der Farben ergibt sich allerdings praktisch doch ein QualitÃ¤tsverlust, der sich besonders bei langsamen FarbverlÃ¤ufen bemerkbar macht. GIF verwendet zur Kompression einen LZW-Codierer, der sich wiederholende Symbolfolgen vergleicht. Da dieser Codierer zeilenweise arbeitet, bleibt er z.B. bei waagerechten FarbverlÃ¤ufen wirkungslos.

Die Kompressionsrate erreicht maximal 5:1, etwas mehr fÃ¼r einfarbige Bilder.

Als Erweiterung bieten sich interlaced GIFs an: Seit 1987 sieht die GIF-Spezifikation die MÃ¶glichkeit vor, die Zeilen eines Bildes nicht nacheinander darzustellen, sondern Ã¤hnlich der FernsehrÃ¶hre versetzt. Wenn in der Datei festgelegt ist, dass zuerst jede zehnte Zeile gezeigt wird, verringert sich die Ladezeit bis zu einer unscharfen Vorschau entsprechend.

AuÃŸerdem gibt es seit GIF 89a die MÃ¶glichkeit mehrere GIFs in einer Datei zu speichern und hintereinander abzuspielen. Trotz Farbreduzierung auf das notwendigste MaÃŸ und guter Kompression neigen animierte GIFs jedoch dazu, unertrÃ¤glich groÃŸ zu werden. Daher eignen sich animierte GIFs lediglich fÃ¼r kleine bewegte Icons.

Als Nachfolger von GIF versucht sich das relativ neue Format PNG (gesprochen 'ping'; Portable Network Graphics Format) durchzusetzen. PNG codiert ebenfalls verlustfrei, kann aber bei besseren Kompressionsraten als GIF auch TrueColor codieren.

JPEG

JPEG ist ein standardisiertes, verlustbehaftetes Bildkompressionsverfahren, das von der Joint Photographic Experts Group entwickelt wurde. Der zugrundeliegende Algorithmus (DCT - Diskrete Cosinus-Transformation) ermÃ¶glicht eine Reduzierung der Daten, ohne dass die Wahrnehmung erheblich beeintrÃ¤chtigt wird.

Diskrete Cosinus-Transformation (DCT)

Die DCT basiert auf der Fourier-Transformation, die beliebige Signale darstellt als Ãœberlagerung von Sinuswellen verschiedener Frequenzen und Amplituden. Aus der Ã¶rtlichen Verteilung von Pixelwerten in einem Bild wird nach der Fourier-Transformation eine Frequenz- und Amplitudenverteilung. GroÃŸe, regelmÃ¤ÃŸige FlÃ¤chen im Bild schlagen sich dabei in den niedrigen Frequenzanteilen nieder, feine Details in den hohen.

ZunÃ¤chst wird jede Komponente des Bildes in YUV-Darstellung in BlÃ¶cke aufgeteilt. Meist werden hierzu quadratische BlÃ¶cke einer GrÃ¶ÃŸe von 8x8 Bildpunkten verwendet. AnschlieÃŸend wird auf jeden dieser BlÃ¶cke die zweidimensionale FDCT (Forward Descrete Cosine Transformation) angewandt. Dadurch werden die Pixelwerte aus dem zweidimensionalen Bereich in den Frequenzbereich transformiert.

Dabei enthÃ¤lt der Wert in der linken oberen Ecke der Matrix die niedrigsten Frequenzanteile. Dieser Koeffizient an der Stelle (0,0) wird normalerweise als DC-Koeffizient, die anderen 63 Koeffizienten als AC-Koeffizienten bezeichnet. Da normalerweise ein starker Zusammenhang zwischen den DC-Koeffizienten zweier aufeinanderfolgender 8x8-BlÃ¶cke existiert, wird der DC-Koeffizient als Differenz zum VorgÃ¤nger codiert. Die restlichen 63 AC-Koeffizienten werden entsprechend dem Zick-Zack-Muster sortiert.

Die DCT konzentriert die Signalenergie eines Blockes in den 'niedrigen' Koeffizienten, vor allem im DC-Koeffizienten. Die hÃ¶heren AC-Koeffizienten sind meist 0 oder fast 0, da der Ã¼berwiegende Anteil der visuellen Information eines Bildes mit kontinuierlich verteilten Werten im Bereich niedriger Frequenzen liegt, da Kanten prozentual nur einen geringen Anteil des Bildes ausmachen.

Quantisierung

Darum werden in der anschlieÃŸenden Quantisierung zur Irrelevanzreduktion die hÃ¶herfrequenten Anteile des Bildes geringer gewichtet, als die niederfrequenten, und deren Amplituden gleich null gesetzt.

Der Sinn der Quantisierung besteht u.a. darin, die QualitÃ¤t des Bildes dem gewÃ¼nschten Kompressionsfaktor anzugleichen. Durch Quantisierung werden verschiedene eng beieinander liegende Werte auf ein Level zusammengefaÃŸt. Hierbei wird der Wert aus der DCT durch die QuantisierungsschrittgrÃ¶ÃŸe Q geteilt und zur nÃ¤chsten ganzen Zahl gerundet. Dabei kann fÃ¼r jeden der Koeffizienten eine eigene QuantisierungsschrittgrÃ¶ÃŸe vorgegeben werden.

Da groÃŸe FlÃ¤chen stÃ¤rker auffallen als Bereiche, in denen auf kleinstem Raum viele Farbwechsel stattfinden, werden der DC-Koeffizient und die niedrigen AC-Koeffizienten mit kleinen QuantisierungsschrittgrÃ¶ÃŸen quantisiert. Daraus folgt eine relativ groÃŸe Genauigkeit, wÃ¤hrend die hohen AC-Koeffizienten bei der durchgefÃ¼hrten Quantisierung fast alle zu 0 werden.

Je detaillierter die Bilddaten sind, desto grÃ¶ber werden dadurch die Amplituden der zugehÃ¶rigen Frequenzen aufgezeichnet. Der optimale Satz von Quantisierungskoeffizienten ist noch nicht gefunden. Die meisten Anwendungen benutzen die von der JPEG herausgegebenen Beispielwerte.

Der dadurch entstehende QualitÃ¤tsverlust wirkt sich bei Zeichnungen oder textbehafteten Bilder viel stÃ¤rker aus, als z.B. bei digitalisierten Fotos, da die scharfen Kanten hohe Frequenzen erzeugen, die gerade minimiert werden. Dadurch verwischen bei der JPEG-Kompression vor allem diese scharfen Kanten.

Entropiecodierung

Die Entropiecodierung besteht aus einer Huffman-Codierung. Die Reihenfolge der Codierung hÃ¤ngt davon ab, welche der folgenden 3 Methoden gewÃ¤hlt wurde:

Sequentielle Codierung: Jede Bildkomponente wird in einem Durchgang von links oben nach rechts unten codiert. Dieses Verfahren wird auch als 'Baseline Method' bezeichnet.

Progressive Codierung: Das Bild wird in mehreren DurchgÃ¤ngen codiert, so dass zuerst die wichtigen (DC- und niedrige AC-Koeffizienten) Komponenten codiert werden. Dies ermÃ¶glicht durch Nachlieferung der unwichtigen Koeffizienten eine schrittweise Verbesserung der zunÃ¤chst recht schlechten QualitÃ¤t. Besonders im Web ist dieses Verfahren sehr beliebt, da das Bild bereits wÃ¤hrend des Ladevorgangs sichtbar wird.

Hierarchische Codierung: Das Bild wird in mehreren AuflÃ¶sungen codiert, so dass zuerst die niedrigen AuflÃ¶sungen decodiert und angezeigt werden kÃ¶nnen, ohne das Bild komplett zu decodieren. Statt jedes einzelnen Bildes speichert man deren Differenzen ab, was erheblich weniger Speicherplatz benÃ¶tigt.

In der JPEG-Spezifikation ist auch eine MÃ¶glichkeit zur verlustfreien JPEG-Kompression vorgesehen. Sie erreicht aber nur Kompressionsraten von 2:1 und wird deshalb kaum eingesetzt.

Fraktale Kompression

Die fraktale Bildkompression beruht auf der Tatsache, dass in der Natur, wie bei Bildern fraktaler Berechnungen, SelbstÃ¤hnlichkeiten bestehen. Damit ist gemeint, dass scheinbar zufÃ¤llige Formen im GroÃŸen aussehen wie im kleinen. Zum Beispiel treten die Umrisse einer Pflanze auch wieder im Rand ihrer BlÃ¤tter auf. Eine KÃ¼stenlinie zeigt vergrÃ¶ÃŸert immer neue Einbuchtungen und Rinnsale, die denen eines groÃŸen KÃ¼stenabschnittes Ã¤hneln. Solche Ã„hnlichkeiten innerhalb von digitalen Bildern versucht man durch Vergleiche groÃŸer mit kleinen Bildbereichen zu ermitteln. DafÃ¼r wird das gesamte Bild gleichmÃ¤ÃŸig in kleine Range Blocks eingeteilt. ZusÃ¤tzlich werden, je nach Verfahren, grÃ¶ÃŸere Domain Blocks gebildet, die sich auch Ã¼berschneiden kÃ¶nnen und nicht das ganze Bild abdecken mÃ¼ssen. Ziel ist es, einen mÃ¶glichst Ã¤hnlichen groÃŸen Bildbereich fÃ¼r jeden kleineren zu finden. Je grÃ¶ÃŸer die Domain Blocks dabei gewÃ¤hlt werden, desto stÃ¤rker die Kompression - desto stÃ¤rker leidet aber auch die QualitÃ¤t des komprimierten Bildes.

Die Ã„hnlichkeit zwischen Domain- und Range Block muss nicht offensichtlich sein, sondern stellt sich oft erst nach Transformationen wie Spiegelung oder Streckung ein. Insgesamt gibt es acht Typen dieser affinen Transformationen. Mit dazu gehÃ¶ren Spiegelungen und Rotationen. Jeder Domain Block wird unter Anwendung dieser acht Transformationen mit jedem Range Block verglichen. Da jedoch zwei BlÃ¶cke selten perfekt Ã¼bereinstimmen, wird zusÃ¤tzlich die Distanz (als Quadratsumme der Differenz korrespondierender Pixel) zwischen Domain- und transformierten Range Blocks berechnet. Zwei BlÃ¶cke passen dann zueinander, wenn die Distanzwerte zwischen ihnen am geringsten sind. Das transformierte Bild besteht am Ende aus vielen mathematischen Gleichungen, welche die fraktalen Teilbilder darstellen.

FÃ¼r die Bildung der Domain Blocks und die Vergleichsmethodik gibt es allerdings viele verschiedene Verfahren:

Das Quad-Tree-Verfahren teilt das Bild auf in groÃŸe quadratische BlÃ¶cke. Wenn zu den Domain Blocks kein passender Range Block existiert, findet eine weitere Aufspaltung eines Quadratblocks in vier gleich groÃŸe quadratische UnterblÃ¶cke statt. Dieser ProzeÃŸ wiederholt sich, bis zueinander passende BlÃ¶cke gefunden werden. Vorteil der Methode: Die Zuordnung grÃ¶ÃŸerer Areale mit wenig Detailinformation passiert schneller bei nur geringem Speicherverbrauch.

Eine andere Alternative, die HV-Methode, beginnt damit, das gesamte Bild als einen einzigen Domain Block zu interpretieren. Einen korrespondierenden Range Block gibt es zu Anfang noch nicht. Die Bildaufteilung erfolgt entlang eines Sprungs in der Helligkeitsverteilung (also einer Kante) entweder in horizontaler oder vertikaler Richtung. Die so kreierten Domain Blocks werden genauso immer weiter aufgeteilt, bis zueinander passende BlÃ¶cke erscheinen.

Ã„hnliches geschieht bei der Aufteilung durch Triangulation, einem weiteren Verfahren, das ein Anfangsbild rekursiv in Dreiecke entlang der Kanten im Bild aufspaltet. Mit dieser Methode findet man besser zueinander passende BlÃ¶cke, die Transformationen wie Rotation und Spiegelung erfordern jedoch einigen Rechenaufwand.

Die Suche nach dem besten Verfahren ist noch Gebiet der Forschung. Die existierenden Strategien bieten allerdings schon hohe Kompressionsraten bei Realbildern und SchwarzweiÃŸgraphiken.

Die Vielzahl der Vergleiche bei allen diesen Verfahren erfordern allerdings viel Zeit bei der Codierung. Anfangs dauerte ein fraktaler KompressionsprozeÃŸ Stunden bis Tage, mittlerweile schaffen das clevere Algorithmen in Minuten. Die Dekompression ist dagegen rasend schnell: In weniger als 16 Iterationen ist die Bildrekonstruktion abgeschlossen. Die Transformationen werden in umgekehrter Richtung abgearbeitet, indem das BÃ¼ndel mathematischer Gleichungen immer wieder auf das Bild angewendet wird. Dadurch stellt sich das ursprÃ¼ngliche VerhÃ¤ltnis von Domain zu Range Blocks wieder ein. Dieses Verfahren wird so lange wiederholt, bis das nach einigen Iterationen erzeugte Bild sich nicht mehr vom Ergebnis der nÃ¤chsten Iteration unterscheidet.

Wavelet-Kompression

Die Struktur des Wavelet-Verfahrens ist der von JPEG sehr Ã¤hnlich, allerdings kÃ¶nnen anstatt Sinus- und Cosinuswellen verschiedene Wellenformen (Wavelets) als Grundlage benutzt werden. Eine Wavelet-Transformation wandelt das Originalbild in Wavelet-Koeffizienten um, aus denen man Schritt fÃ¼r Schritt immer grÃ¶bere Bildstrukturen herausfiltern kann. Diese Koeffizienten bestehen aus hoch- und tiefpaÃŸgefilterten Versionen der Bilder und sind in hohem MaÃŸe redundant.

Die Wavelet-Transformation zerlegt das Bild in hoch- und tiefpaÃŸgefilterte Anteile. Nach einer Iteration steckt die wesentliche Bildinformation im tiefpaÃŸgefilterten Teilbild, da auch hier der grÃ¶ÃŸte Teil der Bildinformation in den niedrigen Frequenzen liegt. Auf dieses Teilbild wird das Verfahren dann erneut angewendet.

Die Filterpaare teilen die Bandbreite des Bildes in zwei HÃ¤lften, die eine hoch-, die andere tiefpaÃŸgefiltert. Beide HÃ¤lften sind so beschaffen, dass sich bei beiden Bildern jeweils jede zweite Pixelspalte entfernen lÃ¤sst.

Das Ergebnis: zwei insgesamt 'schmalere' Bilder.

Die gleiche Filterung wird nochmals auf die beiden Bilder angewendet, jetzt allerdings entlang der Vertikalen. Am Ende liegen dann vier gefilterte Bilder vor. Statt jeder zweiten Spalte kann nun jede zweite Zeile entfernt werden. Aus dem Ausgangsbild sind vier verkleinerte Bilder entstanden, wobei eines davon eine Sonderstellung einnimmt: Dieses eine Bild entspricht dem Durchschnittssignal, die anderen drei sind dagegen Detailsignale. Das Durchschnittssignal-Bild lÃ¤sst sich genauso weiter transformieren und reduzieren - theoretisch so lange, bis es nur noch ein Pixel groÃŸ ist. Das ist allerdings nur mÃ¶glich, wenn die KantenlÃ¤ngen des Bildes Zweierpotenzen sind. Da das im Allgemeinen nicht der Fall ist, ist es praktischer, bei einer bestimmten Iteration aufzuhÃ¶ren.

Nach dieser Wavelet-Transformation in VorwÃ¤rtsrichtung liegen die Teilbilder in Form einer Matrix von Koeffizienten vor.

Die eigentliche Kompression erfolgt dann wie bei JPEG im Quantisierungsschritt. Verschiedene Strategien fassen dabei unwichtige Bilddetails zusammen, sofern man nicht gleich auf sie verzichtet. Koeffizienten mit Werten nahe Null werden je nach Toleranzschwelle gelÃ¶scht. Nach einer anschlieÃŸenden Codierung, zum Beispiel mit dem Huffman-Verfahren, liegt das Ergebnis vor. Dieses Verfahren arbeitet im Gegensatz zu allen anderen hier vorgestellten Codierungen global, teilt das Bild also nicht in BlÃ¶cke auf. Um aus den Daten wieder ein Bild zu erhalten, werden alle Schritte in umgekehrter Reihenfolge, mit denselben gespiegelten Hoch- und TiefpaÃŸfiltern ausgefÃ¼hrt.

Ein Aspekt dabei, der sich vor Allem bei der NetzÃ¼bertragung positiv auswirkt ist, dass sehr schnell ein grobes Bild vorhanden ist, dessen QualitÃ¤t sich wÃ¤hrend der DatenÃ¼bertragung stetig verbessert.

Die Vielzahl der mÃ¶glichen Grundwellenformen bewirkt allerdings auch hier, wie bei der Fraktalen Codierung, dass die Suche nach der besten Methode sehr schwierig ist und ein wirkliches Optimum wahrscheinlich nie gefunden wird.

Bei geeignetem Wavelet und Filtern ergeben sich allerdings schon jetzt bessere Kompressionsraten, als bei JPEG.

Videocodierungsformate

H.261

H.261 ist ein Standard fÃ¼r Videokonferenzen und Videotelefonie Ã¼ber das ISDN-Netz. Diese Anwendungsgebiete setzen voraus, dass sowohl Codierung als auch Decodierung gleichmÃ¤ÃŸig schnell ablaufen.

H.261 beruht auf einer Hybridcodierung (Verwendung mehrerer Codierverfahren) aus der bei JPEG beschriebenen Diskreten Cosinus Transformation (DCT) und der Differenziellen Puls Code Modulation (DPCM).

DPCM

Die DPCM ist eine PrÃ¤diktionstransformation, d.h. es wird aus der Kenntnis bereits abgetasteter Bildpunkte eine Vorhersage (PrÃ¤diktion) fÃ¼r den aktuellen Punkt gemacht. Der transformierte Wert ergibt sich als Differenz zwischen PrÃ¤diktion und tatsÃ¤chlichem Wert und wird als PrÃ¤diktionsfehler bezeichnet. Bei der Videocodierung findet diese Vorhersage auf der zeitlichen Ebene statt, d.h. es werden die Unterschiede zum vorhergehenden Bild gespeichert.

Durch die PrÃ¤diktionstransformation entsteht eine Matrix gleicher Dimension, deren Werte aber nur eine kleine Varianz aufweisen, so dass eine abschlieÃŸende Entropiecodierung hÃ¶here Kompressionsraten erzielen kann.

Funktionsweise von H.261

Bei der Hybridcodierung von H.261 wird die durch DPCM erstellte PrÃ¤diktion DCT-codiert und quantisiert. ZusÃ¤tzlich kann noch eine vektorielle BewegungsabschÃ¤tzung fÃ¼r Bildteile eingesetzt werden.

Der Codierer erzeugt zwei verschiedene Arten von Bildern: Inter- und Intra-Frames. Die Intra-Frames benÃ¶tigen keine weiter Information, um decodiert zu werden, sie sind (im Prinzip) Standbilder. Die Inter-Frames sind 'Zwischen-Bilder', d.h. in Inter-Frames wird nicht das Bild selbst, sondern nur die Differenz zum vorigen Intra-Frame Ã¼bertragen. Intra-Frames werden (optimalerweise) bei Beginn einer Ãœbertragung und bei einem Szenenwechsel verwendet. Inter-Frames ermÃ¶glichen eine kÃ¶here Kompressionsrate, da nicht nur die rÃ¤umliche, sondern auch die zeitliche Redundanz ausgenutzt werden.

Analog zu JPEG wird das hereinkommende Bild in 8x8-BlÃ¶cke aufgeteilt. AnschlieÃŸend werden vier Luminanz- und die beiden entsprechenden ChrominanzblÃ¶cke zu einem Makroblock zusammengefaÃŸt.

H.261 ermÃ¶glicht eine Anpassung der BildqualitÃ¤t an die Ãœbertragungsleistung durch eine Coding-Control-Einheit. Bei fast vollem Ausgabe-Puffer kann durch Wahl eines grÃ¶ÃŸeren Q-Faktors eine groÃŸzÃ¼gigere Quantisierung erreicht werden. AuÃŸerdem kann die Bewegungskompensation ausgeschaltet und auch ganze Bilder ausgelassen werden.

AnschlieÃŸend wird vom Videomultiplexcodierer die Entropiecodierung durchgefÃ¼hrt, wobei extrem unwahrscheinliche, d.h. lange Codes, nicht Ã¼bertragen, sondern durch Escape-Sequenzen ersetzt werden.

Die gepufferte Ausgabe durch den Ãœbertragungscodierer erfolgt dann mit konstanten Bitraten von nÂ·64 kbit/s fÃ¼r n ISDN B-KanÃ¤le.

MPEG

MPEG steht fÃ¼r Moving Picture Experts Group. Hier werden nicht nur Videobilder, sondern auch Audiosignale komprimiert. AuÃŸerdem sorgt das Verfahren fÃ¼r die Synchronisation zwischen Bild und Ton.

MPEG sollte eine Weiterentwicklung des H.261-Standards sein, die bei besseren Ãœbertragungsraten eine erheblich bessere QualitÃ¤t bietet und auch asymmetrische Videoanwendungen, d.h. Filme, die einmal mit einigem Aufwand codiert und oft wiedergegeben werden, unterstÃ¼tzt. Beispiele hierfÃ¼r sind Unterhaltungsvideos, PrÃ¤sentationen, Animationen in Lexika, etc.

MPEG-Versionen

Es gibt verschiedene MPEG-Standards; alle derzeit geltenden basieren auf zwei Techniken: Zum einen gibt es die Bewegungskompensation fÃ¼r die Redundanz der Einzelbilder, die Unterschiede zwischen den einzelnen Bildern der Bildsequenz aufspÃ¼rt. Zum anderen verwendet MPEG eine Kompression auf DCT-Basis - ganz nach Art von JPEG.

Das Ziel der stufenweisen Entwicklung von aufeinander aufbauenden Standards waren hauptsÃ¤chlich die unterschiedlichen Anforderungen von Video- und Fernseh-Anwendungen. So wurde MPEG-1 fÃ¼r CD-ROM Video-Anwendungen mit Datenraten um 1,5 Mbit/s optimiert. MPEG-2 wurde dann entworfen fÃ¼r Anwendungen in der Fernsehtechnik bei hÃ¶heren Ãœbertragungsraten und einem Bildaufbau mit Zeilensprung (interlaced), dessen spezielle Eigenschaften auch besondere Verarbeitungsweisen erfordern.

MPEG-3 zielte ursprÃ¼nglich auf HDTV-Anwendungen. Bei der Entwicklung von MPEG-2 wurde dann jedoch erkannt, dass die MPEG-2 Verfahren mit geringer Verbesserung ihrer LeistungsfÃ¤higkeit imstande sind, Videodaten auch von hochauflÃ¶senden Bildern gut zu verarbeiten. Daher wurde MPEG-3 in den MPEG-2-Standard eingebettet.

Neben Entwicklungen von Test- und Simulationsstandards fÃ¼r die bestehenden Verfahren wird im Rahmen von MPEG-4 an einer neuen Technologie gearbeitet, deren Ziel u.a. die UnterstÃ¼tzung folgender Anwendungen ist:

Â· Videotelefon auf herkÃ¶mmlichen analogen Telefonleitungen

Â· Videotelefon Ã¼ber Funkverbindungen

Â· Datentransfer auf bzw. von Multimedia-Datenbanken

Â· FernÃ¼berwachung und Fernsteuerung von Industrieanlagen

Die Entwickler von MPEG-4 legen bei ihren Forschungen das Hauptaugenmerk zusÃ¤tzlich auf eine Reihe von Verbesserungen gegenÃ¼ber den beiden bisherigen MPEG Verfahren. Dazu gehÃ¶ren:

Â· erhÃ¶hte Codiereffizienz zur Realisierung niedriger Ãœbertragungsraten

Â· inhaltsbezogene Manipulierbarkeit der Bilder und Bildobjekte

Â· inhaltsbezogene Skalierbarkeit von Bildobjekten

Â· erweiterte Fehlerrobustheit

Trotz der massiven multinationalen Forschungen in diesem Bereich ist fÃ¼r MPEG-4 aufgrund der hochgesteckten Ziele das Erreichen eines Internationalen Standards nicht vor 1998 zu erwarten.

Verfahrensablauf

Um sowohl eine hohe Kompressionsrate, als auch wahlfreien Zugriff zu ermÃ¶glichen, verwendet man wie bei H.261 eine Mischform aus Intra- und Interframe-Codierung.

Allerdings werden bei MPEG neben Intra-Frames (I-Frames) zwei verschiedene Arten von Inter-Frames verwendet:

Â· Forward-Predicted Frames (P-Frames) werden durch Differenzbildung zum vorherigen Referenzbild berechnet. Sie werden ebenso wie die I-Frames als Referenzbilder verwendet.

Â· Bidirectional-Predicted Frames (B-Frames) erreichen die hÃ¶chste Kompressionsrate, benÃ¶tigen aber zur Berechnung sowohl ein vorheriges als auch ein zukÃ¼nftiges Bild. Sie interpolieren also das Bild aus zwei Referenzen.

Um B-Frames zu ermÃ¶glichen werden zuerst ein I-Frame, dann der nÃ¤chste P-Frame und erst anschlieÃŸend die dazwischenliegenden B-Frames Ã¼bertragen. Allerdings entscheidet die Anwendung selbst, in welchem VerhÃ¤ltnis I-, P- und B-Frames generiert werden, so dass Parameter wie CodierungsverzÃ¶gerung oder Anzahl der MÃ¶glichkeiten fÃ¼r wahlfreien Zugriff gesteuert werden kÃ¶nnen.

Zur Bewegungskompensation verwendet MPEG 16x16-Pixel groÃŸe LuminanzblÃ¶cke, deren OrtsÃ¤nderung zum vorherigen (und bei B-Frames auch nÃ¤chsten) Referenzbild berechnet wird.

Diese BlÃ¶cke und die zugehÃ¶rigen ChrominanzblÃ¶cke werden als Makroblock bezeichnet. Die LÃ¤nge der Bewegungsvektoren ist jedoch nicht wie bei H.261 auf 15 Pixel pro Block beschrÃ¤nkt, sondern erlaubt eine Verschiebung Ã¼ber das gesamte Bild. Die Bewegungsvektoren werden als Differenz zu dem Bewegungsvektor des vorherigen Makroblocks codiert, da nah beieinanderliegende MakroblÃ¶cke mit hoher Wahrscheinlichkeit nur geringfÃ¼gig unterschiedliche Bewegungsvektoren besitzen.

Das Ergebnis der BewegungsschÃ¤tzung kann dafÃ¼r verwendet werden, zu entscheiden, auf welche der drei Arten ein Bild codiert wird. Finden zu viele Ã„nderungen statt (z.B. bei einem Szenenwechsel) muss ein I-Frame erzeugt werden. Sonst genÃ¼gt, je nach LÃ¤nge des Bewegungsvektors, ein P- oder B-Frame.

Der Gesamtablauf besteht wie bei JPEG aus einer Cosinustransformation, einer Quantisierung und einer Entropiecodierung.

Bei der Quantisierung kann jeder Koeffizient einzeln behandelt werden, wobei auch die Bildart (I, P- oder B-Frame) berÃ¼cksichtigt werden kann. MPEG stellt dafÃ¼r vordefinierte Matrizen fÃ¼r intra- und nonintra-kodierte MakroblÃ¶cke zur VerfÃ¼gung, jedoch besteht die MÃ¶glichkeit, neue, unabhÃ¤ngige Tabellen zur Quantisierung zu verwenden. Diese werden dann direkt im Videostrom zu Beginn eines jeden Bildes eingetragen.

Die Entropiecodierung erfolgt wie bei H.261. Die Codes bilden sogar eine Ãœbermenge der von H.261 verwendeten, so dass eine Hardwareimplementierung beider Standards mÃ¶glich ist.

Um das Abspielen der Videos auch auf langsamerer Hardware, oder Ã¼ber langsamere Verbindungsleitungen zu ermÃ¶glichen, besteht bei MPEG-2 die MÃ¶glichkeit der geschichteten Bildcodierung. Dabei kann das Video zeitlich, rÃ¤umlich oder qualitativ skaliert werden.

Bei der zeitlichen Skalierung wird nur ein Teil der Bilder des Videos Ã¼bertragen, was ein stÃ¤rkeres Ruckeln im Ablauf bewirkt.

Bei der rÃ¤umlichen Skalierung wird die BildgrÃ¶ÃŸe verkleinert, so dass eine geringere Datenmenge pro Bild Ã¼bertragen werden muss.

Qualitative oder SNR-Skalierbarkeit (Signal-to-Noise Ratio) wird z.B. durch eine Reduzierung der Farben des Videos durchgefÃ¼hrt.

Um das zu erreichen, wird das Signal mit mehreren niedrigeren AuflÃ¶sungen abgetastet. Aus dem Signal mit der niedrigsten AuflÃ¶sung wird ein Signal mit hÃ¶herer AuflÃ¶sung interpoliert, und die Differenz zwischen dem interpolierten und dem tatsÃ¤chlichen Signal wird als zweite Schicht zusÃ¤tzlich zu der niedrigsten AuflÃ¶sung Ã¼bertragen. Dieser ProzeÃŸ wird mehrmals wiederholt, um verschiedene Stufen zu erhalten.

FÃ¼r Spezialanwendungen (TV, HDTV, ...) wurden aber auch einige dieser Parameter (AuflÃ¶sung, Frames per Second, Codierungsverfahren) in 'Levels' festgelegt. Dabei wurden die Codierungsverfahren je nach Anforderungen (Geschwindigkeit gegen Kompressionsrate) fÃ¼r die verschiedenen Anwendungen in unterschiedliche Profiles eingeteilt.

Durch diese Einteilung wird es einfacher, fÃ¼r eine spezielle Anwendung die besten Einstellungen auszusuchen.

Motion-JPEG

Motion-JPEG ist quasi eine Zwischenstufe zwischen Bild- und Videocodierung, da einfach eine Sequenz von JPEG-Bildern als Video aufgefaÃŸt wird. Diese Methode nutzt zwar die zeitliche Redundanz nicht aus, ermÃ¶glicht dafÃ¼r aber beliebige Filmschnitte und verlangt weniger Aufwand an Hard- oder Software. MÃ¶glichkeiten zur Synchronisation mit Audiodaten sind allerdings nicht vorgesehen. Es bietet daher nur eine schlechte, dafÃ¼r aber kostengÃ¼nstige Alternative zu MPEG.

Erfolgversprechend sind auch Verfahren, bei denen die Intra-Frames der Videos mit Fraktaler- oder Wavelet-Kompression codiert werden sollen. Diese befinden sich aber noch in der Entwicklung.

Fazit: Welche Bildcodierung wofÃ¼r?

Das JPEG-Verfahren kommt bei fotografischen Motiven der menschlichen Sichtweise entgegen. Es eignet sich daher fÃ¼r Portraits, Landschaftsaufnahmen und Ã¤hnliches.

Bei niedrigen Kompressionsraten ist JPEG sÃ¤mtlichen auf Fraktalen basierenden Verfahren Ã¼berlegen. Das Blatt wendet sich ab Kompressionsraten von 25:1, denn hÃ¶here Raten ergeben grobe Rasterungen. Bedingt durch das Weglassen ganzer Frequenzbereiche des Ausgangsbildes durch die Diskrete Cosinus-Transformation hat JPEG auÃŸerdem mit starken Kontrasten Probleme. Dadurch liefert das JPEG-Format aber bei Strichzeichnungen oder Text in Bildern eine wesentlich schlechtere QualitÃ¤t als GIF.

GIF ist nur fÃ¼r Bilder mit weniger als 256 Farben sehr gut. Die Kompressionsrate von maximal 5:1 ist zwar im Vergleich zu den anderen Verfahren gering, aber dafÃ¼r ist es verlustfrei.

Die Wavelet-Kompression zeigt im Vergleich die besten Ergebnisse mit der niedrigsten Fehlerrate bei grÃ¶ÃŸtmÃ¶glicher Kompression eines natÃ¼rlichen Bildes. Wann ein Wavelet-Verfahren geeignet ist, lÃ¤sst sich nicht eindeutig sagen. Es gibt eine Vielzahl von Basisfunktionen, die fÃ¼r verschiedene Bildtypen unterschiedlich gut geeignet sind. Die Kompressions- und Dekompressionszeiten fÃ¼r Wavelet-Verfahren sind mit denen von JPEG vergleichbar.

Die StÃ¤rke der Fraktal-Kompressoren sind Realbilder. Auch mit hohen Kompressionsraten ist die QualitÃ¤t gut bis sehr gut. Bei abstrakter Computergrafik liefert ein Fraktal-Kompressor dagegen eher mittlere QualitÃ¤t. Unerreicht ist die QualitÃ¤t von fraktal gepackten SchwarzweiÃŸgrafiken mit harten Kontrasten. Allerdings erfordert die Kompression ungleich mehr Zeit, als die Dekompression. Verbesserte Algorithmen verkÃ¼rzen die fraktale Kompressionszeit auf teilweise unter eine Minute. Sie kann zusÃ¤tzlich durch den Einsatz spezieller Hardware beschleunigt werden.

Sowohl fÃ¼r Fraktal- als auch fÃ¼r Wavelet-Verfahren gibt es allerdings noch eine Menge Forschungsarbeit zu tun.

Quellen:

Heinrichs, Bernd: Multimedia im Netz S.39ff: Bildcodierung und Videokommunikation

c't 11/1996 S.222ff: Handlich bunt - Kompressionstechniken ... im Vergleich

c't 7/1996 S.206ff: Mischobst - Grafikformate fÃ¼r WWW-Dokumente

c't 11/1994 S.258ff: Flinkes Wellenspiel - Signalverarbeitung mit Wavelets

The JPEG Payground II

The Almighty JPEG FAQ

Introduction to JPEG

Beschreibung des Wavelet-Verfahrens

Wavelets

MPEG (I+II)

MPEG

MPEG-FAQ 4.1

4695 Worte in "deutsch" als "hilfreich" bewertet

Software-Ergonomie

Angewandte Statistik

Electronic Cash und Kryptologie

Videocodierung