Informations- visualisierung - IfI: Startseite · offensichtliche Methode Daten entlang ......
-
Upload
duongduong -
Category
Documents
-
view
220 -
download
0
Transcript of Informations- visualisierung - IfI: Startseite · offensichtliche Methode Daten entlang ......
Informations-
visualisierung
Thema: 3. Mehrdimensionale Daten
Dozent: Dr. Dirk Zeckzer [email protected]
Sprechstunde: nach Vereinbarung
Umfang: 2
Prüfungsfach: Modul Fortgeschrittene Computergraphik Medizininformatik, Angewandte Informatik
Informationsvisualisierung 3-2
Übersicht
1. Einleitung
2. Datentypen
3. Uni-Variate Data
4. Bi-Variate Data
5. Tri-Variate Data
6. Multi-Variate Data
7. Dimension Sortierung (Anordnung)
Informationsvisualisierung 3-3
3.1. Einleitung
Informationsvisualisierung dient vor allem drei Zielen:
Präsentation
Zu präsentierenden Fakten sind a priori festgelegt.
Visualisierungsprozess besteht aus Auswahl geeigneter
Präsentationstechniken.
Ergebnis stellt eine hochqualitative Visualisierung der Daten
dar, welche die ausgewählten Fakten präsentiert.
Informationsvisualisierung 3-4
3.1. Einleitung
Informationsvisualisierung dient vor allem drei Zielen:
Überprüfende Analyse
Es existieren zu überprüfende Hypothesen über Daten.
Visualisierungsprozess führt eine zielorientierte Untersuchung
der Hypothesen durch.
Als Ergebnis entsteht eine Visualisierung der Daten, welche die
Hypothesen bestätigt oder verwirft.
Informationsvisualisierung 3-5
3.1. Einleitung
Informationsvisualisierung dient vor allem drei Zielen:
Erkundende Analyse
Es gibt keine Hypothesen zu den Daten.
Visualisierungsprozess zeichnet sich durch eine interaktive,
ungerichtete Suche nach Strukturen aus.
Im Ergebnis führt dies zu Visualisierungen der Daten, aus
denen Hypothesen über Daten abgeleitet werden können.
Informationsvisualisierung 3-6
3.2. Datentypen
Unterteilung von möglichen Daten in Klassen hängt eng mit Klassifikation von Wissen zusammen.
Problem kann deshalb bislang nicht endgültig gelöst werden.
Orientieren an Ideen aus Softwaremodellierung und Datenbanken - Unterscheidung nach folgenden Elementen
Objekte, Dinge, Einheiten, Instanzen (engl. entity)
Relationen (zwischen Objekt)
Attribute (von Objekten oder Relationen)
Operationen (auf Objekten oder Relationen)
Metadaten (Ergebnisse von Datenanalysen – abgeleitete Objekte und Relationen ggf. mit Attributen)
Informationsvisualisierung 3-7
3.2. Datentypen
Attribute spielen für Visualisierung oft besondere Rolle, da
ihre Transformation in grafische Elemente oft die
Auswahl der Visualisierungstechnik dominiert.
Folgende Kategorien werden bei Attributen unterschieden:
Nominale Attribute: Reine Aufzählungen bzw. Mengen
ohne Ordnung (z.B. Früchte)
Ordinale Attribute: Diskrete, zuweilen endliche Mengen
mit einer Ordnung (z.B. natürliche oder ganze Zahlen,
Schulnoten)
Kontinuierliche Attribute (quantitative): Teilmenge der
rationalen, meist der reellen Zahlen (z. B. Temperatur,
Geschwindigkeit)
Informationsvisualisierung 3-8
3.2. Datentypen
Informationsvisualisierung wird in vielen
Anwendungsdomänen genutzt.
Im Prinzip kann jede Datei oder Sammlung von Dateien im
Rechner Ausgangspunkt einer Informationsvisualisierung sein,
einschließlich von Algorithmen und Prozessen
(Softwarevisualisierung).
Folgende Liste enthält wesentliche Datenquellen und ihre
Einordnung gemäß der Einteilung der Datentypen:
Tabellen = Objekte mit Attributen
Graphen = Objekte mit Relationen, möglicherweise mit Attributen
Mediadaten = Objekte mit Attributen, teilweise auch Relationen
Prozesse = Objekte mit Relationen und Operationen, oft mit Attributen
Informationsvisualisierung 3-9
3.2. Datentypen
Tabellen
Tabellarische Daten wurden noch vor Graphen bislang am
häufigsten visualisiert.
Sie bestehen aus mehreren Datensätzen (Objekte) d1,...,dm
Enthalten jeweils einen Wert für eine feste Menge von
Attributen x1,...,xn
Die meisten Anwendungen im kaufmännischen Bereich und
viele Statistikanwendungen sind tabellarische Daten.
Die meisten Datenbanken sind so organisiert.
Informationsvisualisierung 3-10
3.2. Datentypen
Graphen
Filesysteme, Internetverbindungen, Straßennetze und
Kommunikationssysteme sind Beispiele für
Verbindungsstrukturen.
Lassen sich durch Graphen mit unterschiedlichen
Spezialisierungen abbilden
Graphen bestehen aus Objekten (Knoten) und Relationen
(Kanten).
Beiden Elementtypen können Attribute zugeordnet sein.
Informationsvisualisierung 3-11
3.2. Datentypen
Mediadaten
Textdokumente, Musikstücke und Filme passen nicht gut in
obigen Formate
Da sich auch ihre Visualisierung von den anderen Bereichen
unterscheidet, sind sie hier getrennt aufgeführt Textdokumente. Jedes Dokument d ist formal ein Wort über einem Alphabet A,
d A*. Dokumente sind noch in Kapitel, Abschnitte, Paragraphen, Sätze und
Worte (Worte im üblichen Sinn ohne Leerzeichen und Interpunktionen)
untergliedert
Bilder. Bilddaten können in verschiedenen Formaten vorliegen, beschreiben
jedoch letztlich ein 2 oder 3-dimensionales Array von Pixeln mit Farbwerten.
Sounddaten. Folge von Amplitudenwerten mit konstanter zeitlicher Abfolge
Filmdaten. Folge von Einzelbildern mit konstanter zeitlicher Abfolge
Multimediadateien. Hier sind Filmdaten, Sounddaten, Bilder und Texte mit
zeitlichen und räumlichen Angaben verknüpft.
Informationsvisualisierung 3-12
3.2. Datentypen
Prozesse
Auch Prozesse lassen sich darstellen.
Neben Objekten und Relationen auch Operationen
Häufig mit Attributen
Beispiele
Algorithmen
Softwaresysteme
Geschäftsprozessmodellierungen
Ablaufplanungen für Fabriken oder Kliniken
Informationsvisualisierung 3-13
3.2. Datentypen
Die Transformation in visuelle Strukturen hängt von der
Dimension der Daten ab:
Dimension: Anzahl der Attribute (Variablen)
1D → Uni-Variate Daten
2D → Bi-Variate Daten
3D → Tri-Variate Daten
≥4D → Multi-Variate Daten (Hyper-Variate Daten)
Informationsvisualisierung 3-14
3.2. Datentypen
In der Informationsvisualisierung werde diese Daten in
einem 2- oder 3-dimensionalen visuellen Raum dargestellt
(visuelle Abbildung)
Im Folgenden sind die Daten meistens quantitativ
Uni-, Bi- und Tri-Variate Daten werden normalerweise über
die Position von Markierungen auf orthogonalen Achsen
dargestellt
Multi-Variate Daten sind schwieriger darzustellen
Wahrnehmung ist sehr wichtig für die visuelle Abbildung
und die Bildung von visuellen Strukturen
Informationsvisualisierung 3-15
3.3. Uni-Variate Daten
Folge eindimensionaler numerischer
Attribute (idR. nominale Attribute zur
Bezeichnung der Objekte vorhanden)
Visualisierungen nutzen fast alle die
offensichtliche Methode Daten entlang
einer Achse abzutragen
Wobei in der dritten Spalte die 25%,
50% und 75% - Prozentteile als Boxen,
die 10%- und 90%- Perzentile als
Balken und die Ausnahmen als
Datenpunkte gezeichnet sind.
Man kann Perzentile auch nur
zusätzlich einzeichnen oder nur
Mittelwert und Varianz angeben
Werte werden dargestellt als
Punkte
Balken
Segment
[R. Spence. Information Visualization. ACM Press/Addison Wesley, New York, ISBN 0-201-59626-1, 2001, page 35]
Informationsvisualisierung 3-16
3.3. Uni-Variate Daten
Plot Plot mit Bezeichungen Tukey Box Plot
[Spence 2001]
Informationsvisualisierung 3-17
3.3. Uni-Variate Daten
[Spence 2001]
Informationsvisualisierung 3-18
3.3. Uni-Variate Daten
Histogramme
Können mit statistischen Angaben angereichert werden
[Spence 2001]
Informationsvisualisierung 3-19
3.3. Uni-Variate Daten
Pie-Chart (Tortendiagramm, Kreisdiagramm)
[R. Spence. Information Visualization. ACM Press/Addison Wesley, New York, ISBN 0-201-59626-1, 2001, page 35]
Informationsvisualisierung 3-20
Pie Charts
Zeigen relative/anteilige Verteilung
Kaum Verwendung im wissenschaftlichen Bereich, dafür für Geschäftsgraphiken
Probleme:
Fläche und Winkel sind schwieriger zu interpretieren als Länge
Schwierig für (numerische) Vergleiche
Nutzung von vielen Pie Charts gleichzeitig ist sehr schwierig
3.3. Uni-Variate Daten
Informationsvisualisierung 3-21
Semantische Vergrößerung
3.3. Uni-Variate Daten
[R. Spence. Information Visualization. ACM Press/Addison Wesley, New York, ISBN 0-201-59626-1, 2001, page 39]
Informationsvisualisierung 3-22
Bi-Variate Daten bestehen offensichtlich aus einer Menge von Objekten mit zwei Attributen.
In der Regel wird ein Zusammenhang der beiden Attribute gesucht.
Punktdarstellungen in einem kartesischen Koordinatensystem gehört zu den bekannten Standards: Scatterplot
Beispiel: Hauspreise und Anzahl der Schlafzimmer werden gegenübergestellt.
3.4. Bi-Variate Daten
[Spence 2001]
Informationsvisualisierung 3-23
3.4. Bi-Variate Daten
Bei präsentativer Visualisierung können Statistische
Analyseergebnisse eintragen werden
Informationsvisualisierung 3-24
Man kann auch Histogramme wieder nutzen
Müssen allerdings gekoppelt werden (linked)
Farbe
Pattern (Textur)
Interaktion
3.4. Bi-Variate Daten
[Spence 2001]
Informationsvisualisierung 3-25
3.5. Tri-Variate Daten
Hier sind jedem Objekt drei kontinuierliche Attribute
zugeordnet.
IdR. wird Zusammenhang zwischen den Attributen gesucht.
Punktdarstellung (Kugeln) gehört zu den offensichtlichen
Lösungen.
Logische oder geometrische 2D-Projektion der 3D Darstellung
Verdeckungsproblem
Informationsvisualisierung 3-26
3.5. Tri-Variate Daten
Probleme
2D-Darstellung eines 3D-Raumes
Wie bestimmt man die Werte?
[Spence 2001]
Informationsvisualisierung 3-27
3.5. Tri-Variate Daten
Lösung: Betrachtung aller achsenparallelen Projektionen hilft oft
weiter
Alle drei möglichen 1-1 Beziehungen können untersucht werden
[Spence 2001]
Informationsvisualisierung 3-28
3.5. Tri-Variate Daten
Scatterplot-Matrix: Übersichtlichere Anordnung
Brushing: Markierung gleicher Punkte
Scatter Plot Matrix mit Brushing Scatter Plot Matrix
[Spence 2001]
Informationsvisualisierung 3-29
3.5. Tri-Variate Daten
Alternative: Repräsentation einer Dimension durch Größe oder
Farbe
Nachteil: Unterschiedliche Qualität in der Darstellung macht es
schwieriger, Korrelationen zu sehen
[Inspired by a lecture of J. Stasko]
Informationsvisualisierung 3-30
3.5. Tri-Variate Daten
Mit Hilfe von Interpolation kann man auch Flächen zur Darstellung
verwenden.
Schnitt-Ebenen können bei der Festlegung von Werten helfen („Flooding“).
In diesem Bereich treffen sich Informationsvisualisierung und
wissenschaftliche Visualisierung.
[Spence 2001]
Informationsvisualisierung 3-31
3.6. Multi-Variate Daten
Wenn mehr als drei kontinuierliche Attribute gegeben
sind, können diese nicht mehr nur über die Position
repräsentiert werden.
Alternativen (Tri-Variate Darstellung):
Scatterplot-Matrizen
Repräsentation mittels Farbe oder Größe
Neue Methoden
Informationsvisualisierung 3-32
3.6. Multi-Variate Daten
Geometrische Ansätze (Projektion)
Scatterplot-Matrizen
Auch für n-dimensionalen Fall nutzbar
Es ergeben sich 𝑛2−𝑛
2 verschiedene Koordinatenpaare
[Ankerst et al. 2002] [Cleveland W. S.: „Visualizing Data“ AT&T Bell Labortories, Murray Hill, NJ, revised edition]
Informationsvisualisierung 3-33
3.6. Multi-Variate Daten
Hyperslice
Ohne strikte Festlegung auf orthogonale Projektionen
n² Schnitte fester Breite durch Daten legen
[van Wijk, van Liere, Hyperslice, Proc. Vis 1993] [Ankerst et al. 2002]
Informationsvisualisierung 3-34
3.6. Multi-Variate Daten
Prosection Views Auswahl einer n-dimensionaler Teilmenge (Hyperwürfel)
Wird bei Projektion mit anderer Farbe dargestellt
[Ankerst et al. 2002]
[Su H., Dawkes H., Tweedie L., Spence R.: „An Interactive Visualization Tool for Tolerance Design“, Technical Report, Imperial College, London, 1995]
[Furnas G. W., Buja A.: „Prosections Views: Dimensional Inferecel through Sections and Projections“, Journal of Computational and Graphical Statistics, Vol. 3, No. 4, 1994, pp. 323-353]
Informationsvisualisierung 3-35
3.6. Multi-Variate Daten
Hyperbox
Oberfläche eines dreidimensionalen Polytops wird gezeichnet
Sichtbare Polygone bestehen aus Vierecken, die genau allen auftretenden
Attributpaaren entsprechen
Knoten entsprechen in den beiden benachbarten Vierecken stets dem
gleichen Attribut.
Dies gilt auch für gegenüberliegenden Seiten jedes Viereck
Werte können auf die Overfläche abgebildet werden
Farbe
Textur
[Spence 2001] [Alpen und Carten, Hyperbox, Proc. IEEE Visualization, pp. 133-139, 1991]
6D-Hyperbox
Informationsvisualisierung 3-36
3.6. Multi-Variate Daten
Koordinatenachsenbasierte Ansätze
Parallele Koordinaten
Es werden n parallele Achsen gezeichnet, gehören zu n Attributen.
Jede Achse wird auf das [Minimum, Maximum]-Intervall der auftretenden
Werte skaliert.
Jeder Datensatz wird als Polygon dargestellt.
[Spence 2001] [Inselberg 1985, Inselberg 1998, Wegman 1990]
Informationsvisualisierung 3-37
3.6. Multi-Variate Daten
Parallele Koordinaten
[Spence 2001] [Inselberg 1985, Inselberg 1998, Wegman 1990]
Informationsvisualisierung 3-38
3.6. Multi-Variate Daten
Beispiele
[http://www.amitgoel.com/pcoord/stf/table1.stf] [Amit Goel. Parallel Coordinates Visualization Applet. Virginia Tech. http: //csgrad.cs.vt.edu/˜agoel/parallel_coordinates/. (Cited on page 12.) 1995]
Informationsvisualisierung 3-39
3.6. Multi-Variate Daten
Beispiele
[http://davis.wpi.edu/~xmdv/]
Informationsvisualisierung 3-40
3.6. Multi-Variate Daten
Linienzüge zeigen lineare Abhängigkeiten der Daten.
Die Polygonzüge schneiden sich zwischen zwei Achsen in maximal einem
Punkt.
Man kann Regeln für k-dimensionale Unterräume ableiten.
[Inselberg 1998]
[Ankerst et al. 2002]
Informationsvisualisierung 3-41
3.6. Multi-Variate Daten
Leichtes Rauschen verursacht Probleme.
[Ankerst et al. 2002]
Informationsvisualisierung 3-42
3.6. Multi-Variate Daten
Nachteile von parallelen Koordinaten
Bei einer großen Anzahl von Datensätzen gibt es viele Überlappungen
Relativ unflexibel (anfangs)
Viele Erweiterungen
Um die Nachteile zu beseitigen, wurden Techniken wie Fokus und Kontext
(siehe spätere Kapitel) eingesetzt
Beispiel: Parvis
Informationsvisualisierung 3-43
3.6. Multi-Variate Daten
Parvis – Beispiele
[http://old.vrvis.at/via/research/ang-brush/]
Brushing
Informationsvisualisierung 3-44
3.6. Multi-Variate Daten
Parvis – Beispiele
[http://old.vrvis.at/via/research/ang-brush/]
Brushing + Histogram
Informationsvisualisierung 3-45
3.6. Multi-Variate Daten
Parvis – Beispiele
Auswahl über Achsenabschnitte und Winkel (in rot) → Fokus
[http://old.vrvis.at/via/research/ang-brush/]
Informationsvisualisierung 3-46
3.6. Multi-Variate Daten
[Jimmy Johansson, Revealing Structure within Clustered Parallel Coordinates
Displays, InfoVis 2005]
Informationsvisualisierung 3-47
3.6. Multi-Variate Daten
[Jimmy Johansson, Revealing Structure within Clustered Parallel Coordinates
Displays, InfoVis 2005]
Informationsvisualisierung 3-48
3.6. Multi-Variate Daten
[Jimmy Johansson, Revealing Structure within Clustered Parallel Coordinates
Displays, InfoVis 2005]
Informationsvisualisierung 3-49
3.6. Multi-Variate Daten
[Jimmy Johansson, Revealing Structure within Clustered Parallel Coordinates
Displays, InfoVis 2005]
Informationsvisualisierung 3-50
3.6. Multi-Variate Daten
Star Plot
Wenn man Achsen nicht parallel, sondern sternförmig anordnet, erhält man
den Star Plot.
Einzelne Sterne pro Objekt erzeugen
Ein Stern für alle Datensätze
[Spence 2001]
Informationsvisualisierung 3-51
3.6. Multi-Variate Daten
Star Plot – Beispiele
http://seamonkey.ed.asu.edu/~behrens/asu/reports/compre/comp1.html
Informationsvisualisierung 3-52
3.6. Multi-Variate Daten
Star-Koordinaten
Kombination von Star Plots und
Scatterplots
Initial haben alle Achsen die
gleiche Länge
Die Punkten werden wie in der
Abbildung gezeigt positioniert
Interaktion
Skalierung der Achsen
Rotieren der Achsen
Auswahl von Punkten
8D-Star Coordinate
[http://people.cs.vt.edu/~north/infoviz/starcoords.pdf]
[E. Kandogan, “Visualizing multi-dimensional clusters, trends, and outliers using star coordinates”, Proc. of ACM SIGKDD Conference, 2001, pp.107-116.]
Informationsvisualisierung 3-53
3.6. Multi-Variate Daten
Star-Koordinaten
[http://people.cs.vt.edu/~north/infoviz/starcoords.pdf]
[E. Kandogan, “Visualizing multi-dimensional clusters, trends, and outliers using star coordinates”, Proc. of ACM SIGKDD Conference, 2001, pp.107-116.]
Informationsvisualisierung 3-54
RadVizTM
Bei RadViz werden Achsen ebenfalls radial aufgespannt
Werte der einzelnen Attribute werden jedoch als Federkonstanten
interpretiert, die Punkt, der ein Objekt darstellt, zu einem Eckpunkt zieht
Dabei werden alle Attribute über ihr jeweiliges Min-Max-Intervall skaliert und
in den nichtnegativen Raum verschoben (etwa alle auf [0, 1]).
3.6. Multi-Variate Daten
[Ankerst et al. 2002]
Informationsvisualisierung 3-55
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung 3-56
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung 3-57
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung 3-58
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung 3-59
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung 3-60
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung 3-61
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung 3-62
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung 3-63
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung 3-64
[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate
Data Visualization, InfoVis 2011]
3.6. Multi-Variate Daten
Informationsvisualisierung 3-65
[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis
2013]
3.6. Multi-Variate Daten
Informationsvisualisierung 3-66
[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis
2013]
3.6. Multi-Variate Daten
Informationsvisualisierung 3-67
[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis
2013]
3.6. Multi-Variate Daten
Informationsvisualisierung 3-68
[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis
2013]
3.6. Multi-Variate Daten
Informationsvisualisierung 3-69
[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis
2013]
3.6. Multi-Variate Daten
Informationsvisualisierung 3-70
[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis
2013]
3.6. Multi-Variate Daten
Informationsvisualisierung 3-71
[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis
2013]
3.6. Multi-Variate Daten
Informationsvisualisierung 3-72
[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis
2013]
3.6. Multi-Variate Daten
Informationsvisualisierung 3-73
3.6. Multi-Variate Daten
Dimensional Stacking
Unterteilung in Untergruppen für Dimensionen
Auf den Hauptachsen die „Hauptdimensionen“
In Teilabschnitten die „Nebendimensionen“
Gut bei einer geringen Kardinalität (Anzahl von Datenpunkten)
Beschränkt in Anzahl der Dimensionen
Informationsvisualisierung 3-74
Dimensional Stacking
Längengrad
Breitengrad
Steinqualität
Bohrtiefe
3.6. Multi-Variate Daten
Informationsvisualisierung 3-75
3.6. Multi-Variate Daten
Stacked Histogram
Viele Ansätze versuchen mehr Variablen in Histogramm zu packen
Zwei Variablen
Absolutes Histogramm
Relatives Histogramm
[Wikipedia.de]
[Hauser, 2006]
Informationsvisualisierung 3-76
3.6. Multi-Variate Daten
ThemeRiver
Sammlung wird in einzelne Zeitscheiben aufgeteilt (Dokumenten mit Zeitstempel)
Informationsvisualisierung 3-77
3.6. Multi-Variate Daten
Für sehr große Objektzahlen und/oder viele Attribute kommt
man mit bisherigen Verfahren sehr schnell an Grenze der
Bildschirmauflösung
Pro Objekt und Attribut werden viele Pixel verwendet
Überschneidungen verhindern schnell klare Sicht auf Daten
Pixelbasierte Verfahren (Dense Pixel Displays) verwenden
Darstellungs-kapazität das Bildschirms optimal
Verwenden pro Attributwert eines Objektes genau ein Pixel
Farbe des Pixels gibt Wert an
Werte der einzelnen Attribute für alle
Datensätze, also die Spalten der Tabelle,
bilden eigene Teilfenster (subwindows)
[Ankerst et al. 2002]
Informationsvisualisierung 3-78
3.6. Multi-Variate Daten
[Ankerst et al. 2002]
Informationsvisualisierung 3-79
3.6. Multi-Variate Daten
Folgende Fragen stellen sich
Wie werden die Pixel innerhalb der Teilfenster positioniert?
Sind neben Rechtecken andere Teilfensterformen möglich?
Wie können die Attribute (Dimensionen, Teilfenster) angeordnet
werden?
Informationsvisualisierung 3-80
3.6. Multi-Variate Daten
Anordnung der Pixel
Suchen einer bijektiven Abbildung 𝑓: 1, … ,𝑚 → 1,… , 𝑏 × {1,… , ℎ}, 𝑚
Objekte, 𝑏 Teilfensterbreite, ℎ Teilfensterhöhe, so dass die Funktion
𝑑 𝑓 𝑖 , 𝑓 𝑗 − 𝑑 0,0 , 𝑏𝑖 − 𝑗
𝑚, ℎ𝑖 − 𝑗
𝑚
𝑚
𝑗=1
𝑚
𝑖=1
minimiert wird.
Dabei ist 𝑑(𝑓 𝑖 , 𝑓 𝑗 ) eine 𝐿𝑝-Norm (𝑝 = 1, 2), der Abstand von Pixel 𝑑𝑖 zu 𝑑𝑗.
Informationsvisualisierung 3-81
3.6. Multi-Variate Daten
[Ankerst et al. 2002]
Informationsvisualisierung 3-82
3.6. Multi-Variate Daten
[Ankerst et al. 2002]
Informationsvisualisierung 3-83
3.6. Multi-Variate Daten
Rekursive Muster
Man kann ein Muster der Ebene i-1 wi-mal in horizontaler Richtung
und dann hi fach in vertikaler Richtung zeichnen.
[Ankerst et al. 2002]
Informationsvisualisierung 3-84
3.6. Multi-Variate Daten
[Ankerst et al. 2002]
Informationsvisualisierung 3-85
3.6. Multi-Variate Daten
[Ankerst, Keim, Kriegel: Circle segments: A technique for visually exploring large dimensional datasets. IEEE Visualization Hot Topics 1996]
Informationsvisualisierung 3-86
3.6. Multi-Variate Daten
Form der Teilfenster
Für Teilfenster eignen sich 2D-Arrays von Rechtecken und Kreissegmente.
[Ankerst et al. 2002]
Informationsvisualisierung 3-87
3.6. Multi-Variate Daten
Circle segments – Example
Circle segment of
visualization of 50 stocks in
the past 20 years
The arrangement of the pixels
starts at the center of the
circle and continues to the
outside by plotting on a line
orthogonal to the segment
halving line
All “older” values lie near the
center and they are close to
each other so that the visual
comparison is enhanced
[Ankerst, Keim, Kriegel: „Circle segments: A technique for visually exploring large dimensional datasets“. IEEE Visualization Hot Topics 1996] [Ankerst et al. 2002]
Informationsvisualisierung 3-88
3.6. Multi-Variate Daten
[Ankerst et al. 2002]
Informationsvisualisierung 3-89
3.6. Multi-Variate Daten
VisDB wurde zur Visualisierung und Erforschung von Datenbanken
entwickelt [Keim D. A., Kriegel H.-P. “VisDB: Database Exploration using Multidimensional
Visualization,” Computer Graphics & Applications Journal, 1994]
Motivation:
Datenbanken enthalten ein große Menge von Elementen in jeweils n
Dimensionen
n-dimensionale Abfrage der Datenbank
Problem: oft keine exakte Übereinstimmung
Lösung: finden von „nahen“ Elementen
Informationsvisualisierung 3-90
3.6. Multi-Variate Daten
Wie nahe ist ein Eintrag zu einer Anfrage?
Datensätze haben oft numerische Werte
Jeder Wert einer Dimension hat einen gewissen Abstand zur
Anfrage
Aufsummieren der Abstände
Relevanz ist der Kehrwert des Abstandes:
Kleiner Abstand → hohe Relevanz
Großer Abstand → geringe Relevanz
Beispiel (5D, Integer von 0 bis 255)
Anfrage: 6, 210, 73, 45, 92
Datensatz: 8, 200, 73, 50, 91
Abstand: 2 + 10 + 0 + 5 + 1 = 18
Relevanz: 1275 – 18 = 1267
Informationsvisualisierung 3-91
3.6. Multi-Variate Daten
Kodierung
Berechne Relevanz aller Datensätze
Sortiere sie nach ihrer Relevanz
Verwende Spiraltechnik zur Anordnung der Werte – von Innen
nach Außen
Verwende Farben zur Kodierung der Relevanz
Informationsvisualisierung 3-92
3.6. Multi-Variate Daten
Spiraltechnik
Höchste Relevanz im Zentrum
Absteigende Relevanz nach außen
Informationsvisualisierung 3-93
3.6. Multi-Variate Daten
Spiraltechnik
5 Dimensionen
Informationsvisualisierung 3-94
3.6. Multi-Variate Daten
Gruppierung
Anstelle von mehreren Fenstern
Gruppiere alle Dimensionen eines Datensatzes
Informationsvisualisierung 3-95
3.6. Multi-Variate Daten
VisDB – Beispiele
8 Dimensionen und
1000 Datensätze
Mehrere Fenster Gruppierung
Informationsvisualisierung 3-96
3.6. Multi-Variate Daten
VisDB – Beispiele
Informationsvisualisierung 3-97
3.6. Multi-Variate Daten
Ordinale Attribute lassen sich gut mit Farben darstellen
Pixeltechniken sind sogar eher für ordinale Variablen
geeignet
Mischungen von ordinalen und kontinuierlichen Attributen
sind in der Regel ebenfalls möglich
Aber: Bei koordinatenachsenorientierten Verfahren
führen die ordinalen Attribute mit einer kleiner Wertmenge
zu auffälligen Clustern
Diese springen dem Anwender ins Auge und überbetonen
damit diese Attribute
Informationsvisualisierung 3-98
3.6. Multi-Variate Daten
Projektions- und Koordinatenachsenansätze eignen sich
nur sehr begrenzt für nominale Attribute, da die
Reihenfolge der Werte künstlich erzeugt werden muss.
Pixelbasierte Verfahren können dagegen gut mit
kategorischen Variablen umgehen, da Farben nach Kapitel
2 im Allgemeinen nicht geordnet sind.
Verwendung der Verfahren für kontinuierliche Attribute
Einige Techniken sind für ordinale und nominale
Attribute besonders geeignet.
Informationsvisualisierung 3-99
3.6. Multi-Variate Daten
Iconbasierte Techniken
Bei den iconbasierten (icon = Bildelement) Techniken werden
kleine Graphikelemente aufgrund der Werte eines oder
mehrerer Attribute verändert.
Werden auf dem Bildschirm dargestellt mit Hilfe
Von Werten weiterer Variablen
Geometrischer Lage
Per ebenenfüllender Kurve (VisDB)
Informationsvisualisierung 3-100
3.6. Multi-Variate Daten
Chernoff Faces
Bei den Chernoff Faces [Chernoff 1973] wird die Tatsache
ausgenutzt, dass Menschen Gesichter besonders gut
unterscheiden können. [H. Chernoff. The Use of Faces to Represent Points in k-dim‘ Space Graphically, J. of American
Statistical Association 68:361-368, 1973]
[Spence 2001] [http://bradandkathy.com/software/faces.html]
Informationsvisualisierung 3-101
3.6. Multi-Variate Daten
Chernoff Faces
Bei den Chernoff Faces [Chernoff 1973] wird die Tatsache
ausgenutzt, dass Menschen Gesichter besonders gut
unterscheiden können. [H. Chernoff. The Use of Faces to Represent Points in k-dim‘ Space Graphically, J. of American
Statistical Association 68:361-368, 1973]
[Spence 2001]
Informationsvisualisierung 3-102
3.6. Multi-Variate Daten
[Ankerst et al. 2002]
Informationsvisualisierung 3-103
3.6. Multi-Variate Daten
Stick Figures Bei Strichfiguren (Stick Figures) werden zwei kontinuierliche oder ordinale
Attribute (falls vorhanden) zur Positionierung in der Ebene verwendet
Übrigen Attribute werden für Winkel und/oder Längen der Striche verwendet
[Ankerst et al. 2002] [Tufte E. R.: „The Visual Display of Quantitative Information“', Graphics Press, Cheshire, CT, 1983]
[Pickett R. M.: „Visual Analyses of Texture in the Detection and Recognition of Objects“ in: Picture Processing and Psycho-Pictorics, Lipkin B. S., Rosenfeld A. (eds.), Academic Press, New York, 1970]
Informationsvisualisierung 3-104
3.6. Multi-Variate Daten
Texturen aus diesen Figuren ergeben dann Datencharakteristika
[Ankerst et al. 2002]
Informationsvisualisierung 3-105
3.6. Multi-Variate Daten
Shape Coding
Nutzt kleine Rechtecke um die einzelnen Datensätze anzuzeigen
Hält für jedes Attribut ein Teilquadrat bereit
Rechtecke werden dann geeignet angeordnet, wozu häufig die Zeit (bei
Zeitreihen) verwendet wird
[Ankerst et al. 2002]
[Beddow J.: „Shape Coding of Multidimensional Data on a Mircocomputer Display“, Proc. IEEE Visualization, pp. 238-246, 1990,]
Informationsvisualisierung 3-106
3.6. Multi-Variate Daten
[Ankerst et al. 2002]
Informationsvisualisierung 3-107
3.7. Dimension Ordering
Clutter reduction in Multi-Dimensional Data Visualization [Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization
Using Dimension Reordering, InfoVis 2004]
Informationsvisualisierung 3-108
3.7. Dimension Ordering
Maß für Clutter Measure in Parallelen Koordinaten
Annahme: Ausreißer verschleiern die Struktur
Maß: Verhältnis von Ausreißern zur Gesamtanzahl der
Datenpunkte
𝑆𝑜𝑢𝑡𝑙𝑖𝑒𝑟: Anzahl der Ausreißer zwischen benachbarten
Dimensionen
Anzahl der banachbarten Paare: 𝑛 − 1
𝑆𝑎𝑣𝑔 =𝑆𝑜𝑢𝑡𝑙𝑖𝑒𝑟
𝑛−1
𝑆𝑡𝑜𝑡𝑎𝑙: Gesamtzahl der Datenpunkte
𝐶 =𝑆𝑎𝑣𝑔
𝑆𝑡𝑜𝑡𝑎𝑙=𝑆𝑜𝑢𝑡𝑙𝑖𝑒𝑟𝑛−1
𝑆𝑡𝑜𝑡𝑎𝑙
Informationsvisualisierung 3-109
3.7. Dimension Ordering
[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using
Dimension Reordering, InfoVis 2004]
Informationsvisualisierung 3-110
3.7. Dimension Ordering
[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using
Dimension Reordering, InfoVis 2004]
Informationsvisualisierung 3-111
3.7. Dimension Ordering
[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using
Dimension Reordering, InfoVis 2004]
Informationsvisualisierung 3-112
3.7. Dimension Ordering
[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using
Dimension Reordering, InfoVis 2004]
Informationsvisualisierung 3-113
3.7. Dimension Ordering
[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using
Dimension Reordering, InfoVis 2004]
Informationsvisualisierung 3-114
3.7. Dimension Ordering
[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using
Dimension Reordering, InfoVis 2004]
Visualization Algorithm complexity Dataset Size Dim. Time
(min)
Parallel
Coordinates
𝑂(𝑛 ∙ 𝑛!) AAUP 1161 9 0:03
Cereal 77 10 0:23
Voy 744 11 4:02
Scatterplot
Matrices
𝑂(𝑛2 ∙ 𝑛!) Voy 744 11 (6) 0:05
Star Glyphs 𝑂(𝑚 ∙ 𝑛 ∙ 𝑛!) AAUP 1161 9 3:13
Cars 392 7 0:18
Dimensional
Stacking
𝑂(𝑚2 ∙ 𝑛!) Coal Disaster 191 5 0:10
Detroit 13 7 0:05
Informationsvisualisierung 3-115
Literatur
R. Spence. Information Visualization. Addison-Wesley, Reading, MA, USA, 2001.
M. Ankerst, G. Grinstein, D. Keim. Visual Data Mining, Tutorial at KDD 2002