Informations- visualisierung - IfI: Startseite · offensichtliche Methode Daten entlang ......

Informations-

visualisierung

Thema: 3. Mehrdimensionale Daten

Dozent: Dr. Dirk Zeckzer [email protected]

Sprechstunde: nach Vereinbarung

Umfang: 2

Prüfungsfach: Modul Fortgeschrittene Computergraphik Medizininformatik, Angewandte Informatik

Informationsvisualisierung 3-2

Übersicht

1. Einleitung

2. Datentypen

3. Uni-Variate Data

4. Bi-Variate Data

5. Tri-Variate Data

6. Multi-Variate Data

7. Dimension Sortierung (Anordnung)


3.1. Einleitung

Informationsvisualisierung dient vor allem drei Zielen:

Präsentation

Zu präsentierenden Fakten sind a priori festgelegt.

Visualisierungsprozess besteht aus Auswahl geeigneter

Präsentationstechniken.

Ergebnis stellt eine hochqualitative Visualisierung der Daten

dar, welche die ausgewählten Fakten präsentiert.


3.1. Einleitung


Überprüfende Analyse

Es existieren zu überprüfende Hypothesen über Daten.

Visualisierungsprozess führt eine zielorientierte Untersuchung

der Hypothesen durch.

Als Ergebnis entsteht eine Visualisierung der Daten, welche die

Hypothesen bestätigt oder verwirft.


3.1. Einleitung


Erkundende Analyse

Es gibt keine Hypothesen zu den Daten.

Visualisierungsprozess zeichnet sich durch eine interaktive,

ungerichtete Suche nach Strukturen aus.

Im Ergebnis führt dies zu Visualisierungen der Daten, aus

denen Hypothesen über Daten abgeleitet werden können.


3.2. Datentypen

Unterteilung von möglichen Daten in Klassen hängt eng mit Klassifikation von Wissen zusammen.

Problem kann deshalb bislang nicht endgültig gelöst werden.

Orientieren an Ideen aus Softwaremodellierung und Datenbanken - Unterscheidung nach folgenden Elementen

Objekte, Dinge, Einheiten, Instanzen (engl. entity)

Relationen (zwischen Objekt)

Attribute (von Objekten oder Relationen)

Operationen (auf Objekten oder Relationen)

Metadaten (Ergebnisse von Datenanalysen – abgeleitete Objekte und Relationen ggf. mit Attributen)


3.2. Datentypen

Attribute spielen für Visualisierung oft besondere Rolle, da

ihre Transformation in grafische Elemente oft die

Auswahl der Visualisierungstechnik dominiert.

Folgende Kategorien werden bei Attributen unterschieden:

Nominale Attribute: Reine Aufzählungen bzw. Mengen

ohne Ordnung (z.B. Früchte)

Ordinale Attribute: Diskrete, zuweilen endliche Mengen

mit einer Ordnung (z.B. natürliche oder ganze Zahlen,

Schulnoten)

Kontinuierliche Attribute (quantitative): Teilmenge der

rationalen, meist der reellen Zahlen (z. B. Temperatur,

Geschwindigkeit)


3.2. Datentypen

Informationsvisualisierung wird in vielen

Anwendungsdomänen genutzt.

Im Prinzip kann jede Datei oder Sammlung von Dateien im

Rechner Ausgangspunkt einer Informationsvisualisierung sein,

einschließlich von Algorithmen und Prozessen

(Softwarevisualisierung).

Folgende Liste enthält wesentliche Datenquellen und ihre

Einordnung gemäß der Einteilung der Datentypen:

Tabellen = Objekte mit Attributen

Graphen = Objekte mit Relationen, möglicherweise mit Attributen

Mediadaten = Objekte mit Attributen, teilweise auch Relationen

Prozesse = Objekte mit Relationen und Operationen, oft mit Attributen


3.2. Datentypen

Tabellen

Tabellarische Daten wurden noch vor Graphen bislang am

häufigsten visualisiert.

Sie bestehen aus mehreren Datensätzen (Objekte) d1,...,dm

Enthalten jeweils einen Wert für eine feste Menge von

Attributen x1,...,xn

Die meisten Anwendungen im kaufmännischen Bereich und

viele Statistikanwendungen sind tabellarische Daten.

Die meisten Datenbanken sind so organisiert.


3.2. Datentypen

Graphen

Filesysteme, Internetverbindungen, Straßennetze und

Kommunikationssysteme sind Beispiele für

Verbindungsstrukturen.

Lassen sich durch Graphen mit unterschiedlichen

Spezialisierungen abbilden

Graphen bestehen aus Objekten (Knoten) und Relationen

(Kanten).

Beiden Elementtypen können Attribute zugeordnet sein.


3.2. Datentypen

Mediadaten

Textdokumente, Musikstücke und Filme passen nicht gut in

obigen Formate

Da sich auch ihre Visualisierung von den anderen Bereichen

unterscheidet, sind sie hier getrennt aufgeführt Textdokumente. Jedes Dokument d ist formal ein Wort über einem Alphabet A,

d A*. Dokumente sind noch in Kapitel, Abschnitte, Paragraphen, Sätze und

Worte (Worte im üblichen Sinn ohne Leerzeichen und Interpunktionen)

untergliedert

Bilder. Bilddaten können in verschiedenen Formaten vorliegen, beschreiben

jedoch letztlich ein 2 oder 3-dimensionales Array von Pixeln mit Farbwerten.

Sounddaten. Folge von Amplitudenwerten mit konstanter zeitlicher Abfolge

Filmdaten. Folge von Einzelbildern mit konstanter zeitlicher Abfolge

Multimediadateien. Hier sind Filmdaten, Sounddaten, Bilder und Texte mit

zeitlichen und räumlichen Angaben verknüpft.


3.2. Datentypen

Prozesse

Auch Prozesse lassen sich darstellen.

Neben Objekten und Relationen auch Operationen

Häufig mit Attributen

Beispiele

Algorithmen

Softwaresysteme

Geschäftsprozessmodellierungen

Ablaufplanungen für Fabriken oder Kliniken


3.2. Datentypen

Die Transformation in visuelle Strukturen hängt von der

Dimension der Daten ab:

Dimension: Anzahl der Attribute (Variablen)

1D → Uni-Variate Daten

2D → Bi-Variate Daten

3D → Tri-Variate Daten

≥4D → Multi-Variate Daten (Hyper-Variate Daten)


3.2. Datentypen

In der Informationsvisualisierung werde diese Daten in

einem 2- oder 3-dimensionalen visuellen Raum dargestellt

(visuelle Abbildung)

Im Folgenden sind die Daten meistens quantitativ

Uni-, Bi- und Tri-Variate Daten werden normalerweise über

die Position von Markierungen auf orthogonalen Achsen

dargestellt

Multi-Variate Daten sind schwieriger darzustellen

Wahrnehmung ist sehr wichtig für die visuelle Abbildung

und die Bildung von visuellen Strukturen


3.3. Uni-Variate Daten

Folge eindimensionaler numerischer

Attribute (idR. nominale Attribute zur

Bezeichnung der Objekte vorhanden)

Visualisierungen nutzen fast alle die

offensichtliche Methode Daten entlang

einer Achse abzutragen

Wobei in der dritten Spalte die 25%,

50% und 75% - Prozentteile als Boxen,

die 10%- und 90%- Perzentile als

Balken und die Ausnahmen als

Datenpunkte gezeichnet sind.

Man kann Perzentile auch nur

zusätzlich einzeichnen oder nur

Mittelwert und Varianz angeben

Werte werden dargestellt als

Punkte

Balken

Segment

[R. Spence. Information Visualization. ACM Press/Addison Wesley, New York, ISBN 0-201-59626-1, 2001, page 35]



Plot Plot mit Bezeichungen Tukey Box Plot

[Spence 2001]



[Spence 2001]



Histogramme

Können mit statistischen Angaben angereichert werden

[Spence 2001]



Pie-Chart (Tortendiagramm, Kreisdiagramm)



Pie Charts

Zeigen relative/anteilige Verteilung

Kaum Verwendung im wissenschaftlichen Bereich, dafür für Geschäftsgraphiken

Probleme:

Fläche und Winkel sind schwieriger zu interpretieren als Länge

Schwierig für (numerische) Vergleiche

Nutzung von vielen Pie Charts gleichzeitig ist sehr schwierig



Semantische Vergrößerung




Bi-Variate Daten bestehen offensichtlich aus einer Menge von Objekten mit zwei Attributen.

In der Regel wird ein Zusammenhang der beiden Attribute gesucht.

Punktdarstellungen in einem kartesischen Koordinatensystem gehört zu den bekannten Standards: Scatterplot

Beispiel: Hauspreise und Anzahl der Schlafzimmer werden gegenübergestellt.

3.4. Bi-Variate Daten

[Spence 2001]



Bei präsentativer Visualisierung können Statistische

Analyseergebnisse eintragen werden


Man kann auch Histogramme wieder nutzen

Müssen allerdings gekoppelt werden (linked)

Farbe

Pattern (Textur)

Interaktion


[Spence 2001]


3.5. Tri-Variate Daten

Hier sind jedem Objekt drei kontinuierliche Attribute

zugeordnet.

IdR. wird Zusammenhang zwischen den Attributen gesucht.

Punktdarstellung (Kugeln) gehört zu den offensichtlichen

Lösungen.

Logische oder geometrische 2D-Projektion der 3D Darstellung

Verdeckungsproblem



Probleme

2D-Darstellung eines 3D-Raumes

Wie bestimmt man die Werte?

[Spence 2001]



Lösung: Betrachtung aller achsenparallelen Projektionen hilft oft

weiter

Alle drei möglichen 1-1 Beziehungen können untersucht werden

[Spence 2001]



Scatterplot-Matrix: Übersichtlichere Anordnung

Brushing: Markierung gleicher Punkte

Scatter Plot Matrix mit Brushing Scatter Plot Matrix

[Spence 2001]



Alternative: Repräsentation einer Dimension durch Größe oder

Farbe

Nachteil: Unterschiedliche Qualität in der Darstellung macht es

schwieriger, Korrelationen zu sehen

[Inspired by a lecture of J. Stasko]



Mit Hilfe von Interpolation kann man auch Flächen zur Darstellung

verwenden.

Schnitt-Ebenen können bei der Festlegung von Werten helfen („Flooding“).

In diesem Bereich treffen sich Informationsvisualisierung und

wissenschaftliche Visualisierung.

[Spence 2001]


3.6. Multi-Variate Daten

Wenn mehr als drei kontinuierliche Attribute gegeben

sind, können diese nicht mehr nur über die Position

repräsentiert werden.

Alternativen (Tri-Variate Darstellung):

Scatterplot-Matrizen

Repräsentation mittels Farbe oder Größe

Neue Methoden



Geometrische Ansätze (Projektion)

Scatterplot-Matrizen

Auch für n-dimensionalen Fall nutzbar

Es ergeben sich 𝑛2−𝑛

2 verschiedene Koordinatenpaare

[Ankerst et al. 2002] [Cleveland W. S.: „Visualizing Data“ AT&T Bell Labortories, Murray Hill, NJ, revised edition]



Hyperslice

Ohne strikte Festlegung auf orthogonale Projektionen

n² Schnitte fester Breite durch Daten legen

[van Wijk, van Liere, Hyperslice, Proc. Vis 1993] [Ankerst et al. 2002]



Prosection Views Auswahl einer n-dimensionaler Teilmenge (Hyperwürfel)

Wird bei Projektion mit anderer Farbe dargestellt

[Ankerst et al. 2002]

[Su H., Dawkes H., Tweedie L., Spence R.: „An Interactive Visualization Tool for Tolerance Design“, Technical Report, Imperial College, London, 1995]

[Furnas G. W., Buja A.: „Prosections Views: Dimensional Inferecel through Sections and Projections“, Journal of Computational and Graphical Statistics, Vol. 3, No. 4, 1994, pp. 323-353]



Hyperbox

Oberfläche eines dreidimensionalen Polytops wird gezeichnet

Sichtbare Polygone bestehen aus Vierecken, die genau allen auftretenden

Attributpaaren entsprechen

Knoten entsprechen in den beiden benachbarten Vierecken stets dem

gleichen Attribut.

Dies gilt auch für gegenüberliegenden Seiten jedes Viereck

Werte können auf die Overfläche abgebildet werden

Farbe

Textur

[Spence 2001] [Alpen und Carten, Hyperbox, Proc. IEEE Visualization, pp. 133-139, 1991]

6D-Hyperbox



Koordinatenachsenbasierte Ansätze

Parallele Koordinaten

Es werden n parallele Achsen gezeichnet, gehören zu n Attributen.

Jede Achse wird auf das [Minimum, Maximum]-Intervall der auftretenden

Werte skaliert.

Jeder Datensatz wird als Polygon dargestellt.

[Spence 2001] [Inselberg 1985, Inselberg 1998, Wegman 1990]



Parallele Koordinaten

[Spence 2001] [Inselberg 1985, Inselberg 1998, Wegman 1990]



Beispiele

[http://www.amitgoel.com/pcoord/stf/table1.stf] [Amit Goel. Parallel Coordinates Visualization Applet. Virginia Tech. http: //csgrad.cs.vt.edu/˜agoel/parallel_coordinates/. (Cited on page 12.) 1995]



Beispiele

[http://davis.wpi.edu/~xmdv/]



Linienzüge zeigen lineare Abhängigkeiten der Daten.

Die Polygonzüge schneiden sich zwischen zwei Achsen in maximal einem

Punkt.

Man kann Regeln für k-dimensionale Unterräume ableiten.

[Inselberg 1998]




Leichtes Rauschen verursacht Probleme.




Nachteile von parallelen Koordinaten

Bei einer großen Anzahl von Datensätzen gibt es viele Überlappungen

Relativ unflexibel (anfangs)

Viele Erweiterungen

Um die Nachteile zu beseitigen, wurden Techniken wie Fokus und Kontext

(siehe spätere Kapitel) eingesetzt

Beispiel: Parvis



Parvis – Beispiele

[http://old.vrvis.at/via/research/ang-brush/]

Brushing





Brushing + Histogram




Auswahl über Achsenabschnitte und Winkel (in rot) → Fokus




[Jimmy Johansson, Revealing Structure within Clustered Parallel Coordinates

Displays, InfoVis 2005]



Star Plot

Wenn man Achsen nicht parallel, sondern sternförmig anordnet, erhält man

den Star Plot.

Einzelne Sterne pro Objekt erzeugen

Ein Stern für alle Datensätze

[Spence 2001]



Star Plot – Beispiele

http://seamonkey.ed.asu.edu/~behrens/asu/reports/compre/comp1.html



Star-Koordinaten

Kombination von Star Plots und

Scatterplots

Initial haben alle Achsen die

gleiche Länge

Die Punkten werden wie in der

Abbildung gezeigt positioniert

Interaktion

Skalierung der Achsen

Rotieren der Achsen

Auswahl von Punkten

8D-Star Coordinate

[http://people.cs.vt.edu/~north/infoviz/starcoords.pdf]

[E. Kandogan, “Visualizing multi-dimensional clusters, trends, and outliers using star coordinates”, Proc. of ACM SIGKDD Conference, 2001, pp.107-116.]



Star-Koordinaten

[http://people.cs.vt.edu/~north/infoviz/starcoords.pdf]

[E. Kandogan, “Visualizing multi-dimensional clusters, trends, and outliers using star coordinates”, Proc. of ACM SIGKDD Conference, 2001, pp.107-116.]


RadVizTM

Bei RadViz werden Achsen ebenfalls radial aufgespannt

Werte der einzelnen Attribute werden jedoch als Federkonstanten

interpretiert, die Punkt, der ein Objekt darstellt, zu einem Eckpunkt zieht

Dabei werden alle Attribute über ihr jeweiliges Min-Max-Intervall skaliert und

in den nichtnegativen Raum verschoben (etwa alle auf [0, 1]).




[Jarry H.T. Claessen, Jarke J. van Wijk, Flexible Linked Axes for Multivariate

Data Visualization, InfoVis 2011]



[Stef van den Elzen, Jarke J. van Wijk, Small Multiples, Large Singles, EuroVis

2013]




2013]




Dimensional Stacking

Unterteilung in Untergruppen für Dimensionen

Auf den Hauptachsen die „Hauptdimensionen“

In Teilabschnitten die „Nebendimensionen“

Gut bei einer geringen Kardinalität (Anzahl von Datenpunkten)

Beschränkt in Anzahl der Dimensionen


Dimensional Stacking

Längengrad

Breitengrad

Steinqualität

Bohrtiefe




Stacked Histogram

Viele Ansätze versuchen mehr Variablen in Histogramm zu packen

Zwei Variablen

Absolutes Histogramm

Relatives Histogramm

[Wikipedia.de]

[Hauser, 2006]



ThemeRiver

Sammlung wird in einzelne Zeitscheiben aufgeteilt (Dokumenten mit Zeitstempel)



Für sehr große Objektzahlen und/oder viele Attribute kommt

man mit bisherigen Verfahren sehr schnell an Grenze der

Bildschirmauflösung

Pro Objekt und Attribut werden viele Pixel verwendet

Überschneidungen verhindern schnell klare Sicht auf Daten

Pixelbasierte Verfahren (Dense Pixel Displays) verwenden

Darstellungs-kapazität das Bildschirms optimal

Verwenden pro Attributwert eines Objektes genau ein Pixel

Farbe des Pixels gibt Wert an

Werte der einzelnen Attribute für alle

Datensätze, also die Spalten der Tabelle,

bilden eigene Teilfenster (subwindows)




Folgende Fragen stellen sich

Wie werden die Pixel innerhalb der Teilfenster positioniert?

Sind neben Rechtecken andere Teilfensterformen möglich?

Wie können die Attribute (Dimensionen, Teilfenster) angeordnet

werden?



Anordnung der Pixel

Suchen einer bijektiven Abbildung 𝑓: 1, … ,𝑚 → 1,… , 𝑏 × {1,… , ℎ}, 𝑚

Objekte, 𝑏 Teilfensterbreite, ℎ Teilfensterhöhe, so dass die Funktion

𝑑 𝑓 𝑖 , 𝑓 𝑗 − 𝑑 0,0 , 𝑏𝑖 − 𝑗

𝑚, ℎ𝑖 − 𝑗

𝑚

𝑚

𝑗=1

𝑚

𝑖=1

minimiert wird.

Dabei ist 𝑑(𝑓 𝑖 , 𝑓 𝑗 ) eine 𝐿𝑝-Norm (𝑝 = 1, 2), der Abstand von Pixel 𝑑𝑖 zu 𝑑𝑗.



Rekursive Muster

Man kann ein Muster der Ebene i-1 wi-mal in horizontaler Richtung

und dann hi fach in vertikaler Richtung zeichnen.




[Ankerst, Keim, Kriegel: Circle segments: A technique for visually exploring large dimensional datasets. IEEE Visualization Hot Topics 1996]



Form der Teilfenster

Für Teilfenster eignen sich 2D-Arrays von Rechtecken und Kreissegmente.




Circle segments – Example

Circle segment of

visualization of 50 stocks in

the past 20 years

The arrangement of the pixels

starts at the center of the

circle and continues to the

outside by plotting on a line

orthogonal to the segment

halving line

All “older” values lie near the

center and they are close to

each other so that the visual

comparison is enhanced

[Ankerst, Keim, Kriegel: „Circle segments: A technique for visually exploring large dimensional datasets“. IEEE Visualization Hot Topics 1996] [Ankerst et al. 2002]



VisDB wurde zur Visualisierung und Erforschung von Datenbanken

entwickelt [Keim D. A., Kriegel H.-P. “VisDB: Database Exploration using Multidimensional

Visualization,” Computer Graphics & Applications Journal, 1994]

Motivation:

Datenbanken enthalten ein große Menge von Elementen in jeweils n

Dimensionen

n-dimensionale Abfrage der Datenbank

Problem: oft keine exakte Übereinstimmung

Lösung: finden von „nahen“ Elementen



Wie nahe ist ein Eintrag zu einer Anfrage?

Datensätze haben oft numerische Werte

Jeder Wert einer Dimension hat einen gewissen Abstand zur

Anfrage

Aufsummieren der Abstände

Relevanz ist der Kehrwert des Abstandes:

Kleiner Abstand → hohe Relevanz

Großer Abstand → geringe Relevanz

Beispiel (5D, Integer von 0 bis 255)

Anfrage: 6, 210, 73, 45, 92

Datensatz: 8, 200, 73, 50, 91

Abstand: 2 + 10 + 0 + 5 + 1 = 18

Relevanz: 1275 – 18 = 1267



Kodierung

Berechne Relevanz aller Datensätze

Sortiere sie nach ihrer Relevanz

Verwende Spiraltechnik zur Anordnung der Werte – von Innen

nach Außen

Verwende Farben zur Kodierung der Relevanz



Spiraltechnik

Höchste Relevanz im Zentrum

Absteigende Relevanz nach außen



Spiraltechnik

5 Dimensionen



Gruppierung

Anstelle von mehreren Fenstern

Gruppiere alle Dimensionen eines Datensatzes



VisDB – Beispiele

8 Dimensionen und

1000 Datensätze

Mehrere Fenster Gruppierung



VisDB – Beispiele



Ordinale Attribute lassen sich gut mit Farben darstellen

Pixeltechniken sind sogar eher für ordinale Variablen

geeignet

Mischungen von ordinalen und kontinuierlichen Attributen

sind in der Regel ebenfalls möglich

Aber: Bei koordinatenachsenorientierten Verfahren

führen die ordinalen Attribute mit einer kleiner Wertmenge

zu auffälligen Clustern

Diese springen dem Anwender ins Auge und überbetonen

damit diese Attribute



Projektions- und Koordinatenachsenansätze eignen sich

nur sehr begrenzt für nominale Attribute, da die

Reihenfolge der Werte künstlich erzeugt werden muss.

Pixelbasierte Verfahren können dagegen gut mit

kategorischen Variablen umgehen, da Farben nach Kapitel

2 im Allgemeinen nicht geordnet sind.

Verwendung der Verfahren für kontinuierliche Attribute

Einige Techniken sind für ordinale und nominale

Attribute besonders geeignet.



Iconbasierte Techniken

Bei den iconbasierten (icon = Bildelement) Techniken werden

kleine Graphikelemente aufgrund der Werte eines oder

mehrerer Attribute verändert.

Werden auf dem Bildschirm dargestellt mit Hilfe

Von Werten weiterer Variablen

Geometrischer Lage

Per ebenenfüllender Kurve (VisDB)



Chernoff Faces

Bei den Chernoff Faces [Chernoff 1973] wird die Tatsache

ausgenutzt, dass Menschen Gesichter besonders gut

unterscheiden können. [H. Chernoff. The Use of Faces to Represent Points in k-dim‘ Space Graphically, J. of American

Statistical Association 68:361-368, 1973]

[Spence 2001] [http://bradandkathy.com/software/faces.html]



Chernoff Faces

Bei den Chernoff Faces [Chernoff 1973] wird die Tatsache

ausgenutzt, dass Menschen Gesichter besonders gut

unterscheiden können. [H. Chernoff. The Use of Faces to Represent Points in k-dim‘ Space Graphically, J. of American

Statistical Association 68:361-368, 1973]

[Spence 2001]



Stick Figures Bei Strichfiguren (Stick Figures) werden zwei kontinuierliche oder ordinale

Attribute (falls vorhanden) zur Positionierung in der Ebene verwendet

Übrigen Attribute werden für Winkel und/oder Längen der Striche verwendet

[Ankerst et al. 2002] [Tufte E. R.: „The Visual Display of Quantitative Information“', Graphics Press, Cheshire, CT, 1983]

[Pickett R. M.: „Visual Analyses of Texture in the Detection and Recognition of Objects“ in: Picture Processing and Psycho-Pictorics, Lipkin B. S., Rosenfeld A. (eds.), Academic Press, New York, 1970]



Texturen aus diesen Figuren ergeben dann Datencharakteristika




Shape Coding

Nutzt kleine Rechtecke um die einzelnen Datensätze anzuzeigen

Hält für jedes Attribut ein Teilquadrat bereit

Rechtecke werden dann geeignet angeordnet, wozu häufig die Zeit (bei

Zeitreihen) verwendet wird


[Beddow J.: „Shape Coding of Multidimensional Data on a Mircocomputer Display“, Proc. IEEE Visualization, pp. 238-246, 1990,]


3.7. Dimension Ordering

Clutter reduction in Multi-Dimensional Data Visualization [Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization

Using Dimension Reordering, InfoVis 2004]



Maß für Clutter Measure in Parallelen Koordinaten

Annahme: Ausreißer verschleiern die Struktur

Maß: Verhältnis von Ausreißern zur Gesamtanzahl der

Datenpunkte

𝑆𝑜𝑢𝑡𝑙𝑖𝑒𝑟: Anzahl der Ausreißer zwischen benachbarten

Dimensionen

Anzahl der banachbarten Paare: 𝑛 − 1

𝑆𝑎𝑣𝑔 =𝑆𝑜𝑢𝑡𝑙𝑖𝑒𝑟

𝑛−1

𝑆𝑡𝑜𝑡𝑎𝑙: Gesamtzahl der Datenpunkte

𝐶 =𝑆𝑎𝑣𝑔

𝑆𝑡𝑜𝑡𝑎𝑙=𝑆𝑜𝑢𝑡𝑙𝑖𝑒𝑟𝑛−1

𝑆𝑡𝑜𝑡𝑎𝑙



[Wei Peng et al., Clutter Reduction in Multi-Dimensional Data Visualization Using

Dimension Reordering, InfoVis 2004]





Visualization Algorithm complexity Dataset Size Dim. Time

(min)

Parallel

Coordinates

𝑂(𝑛 ∙ 𝑛!) AAUP 1161 9 0:03

Cereal 77 10 0:23

Voy 744 11 4:02

Scatterplot

Matrices

𝑂(𝑛2 ∙ 𝑛!) Voy 744 11 (6) 0:05

Star Glyphs 𝑂(𝑚 ∙ 𝑛 ∙ 𝑛!) AAUP 1161 9 3:13

Cars 392 7 0:18

Dimensional

Stacking

𝑂(𝑚2 ∙ 𝑛!) Coal Disaster 191 5 0:10

Detroit 13 7 0:05


Literatur

R. Spence. Information Visualization. Addison-Wesley, Reading, MA, USA, 2001.

M. Ankerst, G. Grinstein, D. Keim. Visual Data Mining, Tutorial at KDD 2002

Informations- visualisierung - IfI: Startseite · offensichtliche Methode Daten entlang ......

Documents

Transcript of Informations- visualisierung - IfI: Startseite · offensichtliche Methode Daten entlang ......