数据可视化基础高维数据可视化技术
http://www.cad.zju.edu.cn/home/chenwei/visclass
数据模型
• 3 个特征 对象
感兴趣项学生,课程,学期,… . )
属性数据的特征或属性(name, age, GPA, number, date, …) (姓名,
年龄, GPA ,学号,日期,…)
关系两个对象是如何联系的?(学生上课,学期的课程,…)
属性变量类型
• 变量的三种主要类型
N-Nominal( 类型的 ) ( 等或不等于其他值 )例如 : 性别
O-Ordinal (有序的) ( 服从 < 关系 , 有序的集合 )例如 : fr,so,jr,sr
Q-Quantitative (量化的) ( 可以进行数学操作 )例如 : 年龄
值间关系 : 排序 比率 相互关系
高维数据
Based on slide from Stasko
3 维散点图是可以的
每个变量都独立显示
仍然是二维的,但使用标记属性来表示第三个变量
多维视图
高维数据可视化 -- 散点图矩阵在二元变量对的散点图中表达其二元关系
对什么有用?丢失什么?
高维数据可视化 -- 数据表格 面向特征的类别用户界面
继续调整电子数据表的原语
列代表数据项,行表示属性
使用条形盒或其他的方式描述属性值
高维数据可视化 -- 平行坐标
高维数据可视化 -- 星型散点图 空间变量围绕着一个圆心
使用“辐条”编码数据值
数据点是一个形状
星型散点图
高维数据可视化—切尔诺夫脸谱图 (Chernoff Faces)
用人脸特征编码不同变量的值
切尔诺夫脸谱图
类别数据
多元的类别数据如何表示? 学生
性别:男,女 眼睛颜色:棕、蓝、绿、淡褐色 头发颜色:黑、红、棕、亚麻色、灰 祖国:美国、中国、意大利、印度…
马赛克图 (Mosaic Plot)
马赛克图 (Mosaic Plot)
女 男
马赛克图 (Mosaic Plot)
女 男
棕
淡褐
绿
蓝色
马赛克图 (Mosaic Plot)
女 男
棕
淡褐
绿
蓝色
黑 红 棕 亚麻色
属性直方图 多直方图视点,每个属性一个 ( 像格子 )
每个数据实例用一个方格描述
根据实例的对应的属性值确定方格的位置
从一个视点选择数据实例,其他视点也会做出反应
查询控件缩小范围
使用着色来表示查询匹配的程度 ( 全匹配时最深 )
特征 属性直方图
在所有属性范围的所有对象
通过属性限制来交互
特征属性笔刷间的相互联系
特征 颜色编码的敏感度
总结 总结
属性直方图 属性关系 敏感度信息 零单击情况或当你一点也不熟悉数据时特别
有用
局限性 属性的数量是有限的
散点图 : 灰尘 & 磁铁 不同原语的聚集
数据实例多如铁粉屑
不同的属性如磁铁般给出物理显示
对象交互来挖掘数据
界面
交互 铁屑 ( 数据 )依据磁铁 ( 属性 ) ,按其值排列
显示的所有磁铁影响铁屑的位置
磁铁的个体影响可能被改变
铁屑的颜色和尺寸也连接到磁铁 ( 属性 )
移动一个磁铁使所有的铁屑移动
移动铁屑的命令
如何放置磁铁来挖掘数据的不同策略
高维数据可视化 --紧凑的像素显示
• 用像素代表数据样本或变量
• 同时显示上百万或更多的像素
• 可能依赖于颜色的使用
• 容纳大量数据
• 挑战:布局是什么?
大规模例子
数据库的应用• 多个数据项组成一个 n 维的数据库
• 发出请求一个规定维度的目标执行的查询请求
• 通常,得不到精确的匹配
• 考虑发现相近的匹配
D. Keim, H-P Kriegel, “VisDB Database ExplorationUsing Multid Vis”, IEEE CG&A, 1994.
问题• 如果维度的数据类型是浮点数或字符串,怎么做?
• 如果每一维的数据类型相同,但不同的数据规模?
• 必须定义某种距离,然后,乘以权重因子
技术• 计算所有数据点的相关性
• 根据相关性排序数据项
• 使用螺旋技术排序—从中心散开
• 基于相关性给数据项着色
相关性色彩——经验设计
高 低
螺旋法
图 1. 某一个维度的螺旋形布局
高度相关的数据在中心,随着线形向外延伸,相关性降低
样例显示
8 维1000 项
多窗口 分组
关联的数据
Dx--- x轴属性
Dy--- y轴属性
Ox--- 规定 x轴排序规则
Oy--- 规定 y轴排序规则
C--- 颜色映射规则
应用实例
图 13. 挖掘 405 , 000 个销售记录的多条形图 ( 例如, Dx=产品类型 , Dy=⊥, Ox=浏览次数 , Oy=金额 , C)。 (a) 颜色 :金额 (b) 颜色 : 参观次数, (c) 颜色:数量
1. 7 号产品和 10 号产品有消费额高的客户群 ( 图 13a 中条形 7和条形10)
2. 花费的金额和浏览的次数是明显相关的,特别是 4 号产品 ( 图 13b 的 4号条形的顶部的深颜色线性增加 )
3. 4 号和 11 号产品销售数量最高 ( 图 13c 的条形 4和条形 11 的深颜色 )4. 单击像素 A 显示那个客户的具体细节
可视映射
把量化的值变成条形
实例化
细节
聚焦于数据项,同时可以显示内容
http://www.open-video.org/details.php?videoid=8304
低维嵌入
降维
• 使用线性或非线性变换把高维数据投影到低维空间
• 投影保留重要的关系 ( 例如,没有信息损失、数据区分 )
•••
•••
•
•
降维线性方法
主成分分析 (PCA) – Hotelling[33]
多维尺度分析 (MDS) – Young[38]
非负矩阵分解 (NMF) – Lee[99]
非线性方法局部线性嵌套 (LLE)– Roweis[00]
IsoMap – Tenenbaum[00]
Charting – Brand[03]
多维尺度分析(MDS)
MDS• 输入: H 维数据点的彼此间的距离组成的
矩阵 M
• 输出:一个 L 维空间的数据的投影,投影空间中的两两点的距离尽量和原始空间 距离保持一致
实例