统计图可视化 · 2018-09-30 · 数据变换 目的 更好地解决特定问题....

100
统计图可视化

Transcript of 统计图可视化 · 2018-09-30 · 数据变换 目的 更好地解决特定问题....

  • 统计图可视化

  • 目录

    数据变换

    统计图表

    统计图表工具

  • 数据变换

  • 数据变换

    目的

    更好地解决特定问题

    提供更多的可视化设计选择

    举例 - 数值型温度发现温度变化的异常值 - 数值型温度

    分析全球温度是否升高 - 数值型温度差

    判断水温是否适合洗澡 - 序数型(hot, warm, cold)

  • 数据变换

    线性变换

    对数变换

    可以自定义变换函数

  • 归一化

    目的

    根据分布映射数据

    颜色/尺寸/坐标位置编码

    归一化区间:

    [-1, 1]

    [0, 1]

  • 指数变换

  • 曲线拟合/光滑目的:展示数据趋势

    不同的拟合方式

    线性回归

    PLSR(partial least squares regression,偏最小二乘拟合)

    LOESS(Locally weighted scatterplot smoothing)

  • 统计采样

    什么是统计采样?

    从统计分布中选出的样本

    用于近似原分布中的特征

    影响采样的因素

    分布本身的特性

    数据的测量精度

    是否需要分析样本细节(样本精细度)

    采样成本

  • 降维*

    主元分析(Principal Components Analysis,PCA)

    多尺度标记(Multidimensional Scaling,MDS)

    自组织网络(Self-Organizing Map,SOM)

  • 聚类

    K-means聚类

    其他聚类方法 *

    Expectation-Maximization Clustering (EM) *

    Gaussian Mixture Model (GMM)*

    Spectral Clustering*

    Hierarchical Clustering*

  • K-Means聚类K-means

    随机产生K个中心位置

    将每个数据点归为距离最近的中心位置所属的类

    根据新的类别划分重新计算中心位置

    回到第二步,直到满足一定约束

    K-medoids – 改进

    中心位置必须在数据点所在位置上

    中心位置满足“到类内所有数据点的距离之和最小”

  • 统计图表

  • 统计图表 - 比较与比例

  • 统计图表 – 趋势与模式

  • 统计图表 –关系

  • 统计图表

    折线图

    柱状图

    饼状图

    散点图

    盒须图

  • 折线图

  • 折线图

  • 宽高比

    Multi-Scale Banking to 45º, 宽高比:左7.87,右1.17

  • 太阳黑斑

  • 45°倾斜

    两条线段在平均绝对角度为45°时能够最大程度被区分

    优化横纵比为45°倾斜

  • 中值斜率倾斜

    a = 1, s = 1

    a = 2, s/a = 1/2

    median|si| / a = 1

  • 平均斜率倾斜

  • 平均方向倾斜

  • 横纵比倾斜

    平均斜率

    中值斜率

    平均方向

    闭合形式

    迭代优化器

  • 多尺度45°倾斜

  • 二氧化碳测量

    William S. ClevelandVisualizing Data

  • 多尺度45°倾斜目标

    为不同的规模优化横纵比

    方法

    鉴别感兴趣数据的尺度

    生成特定规模的趋势线

    把这些线向45°倾斜

    过滤生成的横纵比

  • 多尺度45°倾斜

    使用光谱分析方法确定趋势

    找到频率最高的组件

    使用低通滤波方法生成趋势线

  • 计算能量光谱

    原始数据

    利用离散傅里叶变换计算平方级数

    能量光谱

  • 光滑光谱

    使用高斯滤波计算卷积窗口大小=3, σ=1

    光滑后的能量光谱

    能量光谱

  • 光谱阈值

    阈值设为中值μ保留连续运行中的上一个值

    Threshold Power

  • 生成趋势线

    使用低通滤波生成趋势线

  • 将趋势线倾斜为45°

  • 横纵比过滤

    过滤相似的横纵比

    如果αi+1>cαi则保留(c默认为1.25)

  • 太阳黑斑周期

    从1700-1987年的值

  • 二氧化碳

    Mauna Loa天文台

    在1950-1990每月公

    布的数据

    Aspect Ratio = 1.17

    Aspect Ratio = 7.87

    Power Spectrum

    Aspect Ratios

  • 应用

    趋势浏览器small multiples

    sparkline

  • 尺度 (scales)

  • 哪一幅图比较好?

  • Obama国情咨文2013

    http://www.npr.org/blogs/itsallpolitics/2013/02/13/171935151/chart-check-did-obama-s-graphics-enhance-his-big-speech

  • Obama国情咨文2013全球变暖趋势

    数据来源于NASAY轴”Temperature Anomaly (。C)”Y轴”Global Surface Temperature”

    http://www.npr.org/blogs/itsallpolitics/2013/02/13/171935151/chart-check-did-obama-s-graphics-enhance-his-big-speech

  • 清晰标识尺度的中断

    标识的不好[Cleveland 85]

    标识的非常好[Cleveland 85]

  • 尺度中断与log尺度

    都提高了视觉分辨率

    Log尺度—容易比较所有数据尺度中断—很难跨越中断比较所有数据

  • 线性尺度和log尺度

  • 柱状图

  • 柱状图

    捷克 爱尔兰 德国 澳大利亚 英国 美国

    加拿大 南非 墨西哥 日本 巴西 中国

    每个国家消费了

    多少啤酒?

    每人每周消耗

    的瓶数

  • 排序

  • 标注

    http://www.allanalytics.com/author.asp?section_id=3072&doc_id=262539

  • 尺度

    钚同位素的半衰期

    尺度中断 log尺度尺度截断

  • 尺度

  • 偏离设计

    显示到主集合值的不同

  • 使用零点为基准点

  • Naveen Sinha, 2009

  • 不必要的三维设计

  • http://www.visualisingdata.com/index.php/2012/08/guest-post-how-governments-can-better-use-data-visualization/

  • 堆叠柱状图

  • 对偶柱状图

    平均寿命&

    退休年龄

    http://flowingdata.com

  • “堆叠柱状图”

    (stacked bar chart)

    http://www.lokeshdhakar.com/2007/08/20/an-illustrated-coffee-guide/

  • 堆积图

    http://www.nytimes.com//interactive/2009/07/31/business/20080801-metrics-graphic.html?hp

  • 堆积图How did Green do over this period?

    http://www.leancrew.com/all-this/2011/11/i-hate-stacked-area-charts/

  • 饼状图

  • 饼状图

  • 梵高的可视化

    http://www.arthurbuxton.com/2010/11/van-gogh-visualisation.html

  • 饼状图

    部分与整体关系

    避免3Dhttp://www.perceptualedge.com/articles/08-21-07.pdf

  • 散点图 (scatter plot)

  • 参考线

    http://visualdata.dw.de/specials/bildung/en/index.html

  • 数据转换

    曲线匹配数据的程度如何?

    Y值

  • 残留图

    从最佳匹配曲线的纵向距离划分

    残留图体现了匹配的精度

    Y值

  • 显示数据

    相同的中值,方差,对应系数和线性回归线

  • PositiveNegative

    Significant

    Insignificant

    本拉登之死http://www.nytimes.com/interactive/2011/05/03/us/20110503-osama-response.html

  • 盒须图

  • 盒须图

  • 盒须图变种

  • 盒须图变种

    2D Box Plot Relplot Rangefinder Box Plot Bag Plot

  • Chart Suggestions

  • 其它统计图部件

    坡度图(Slope Graph)

    By Edward Tufte

    易于数据的对比

    奖牌数

  • 其它统计图部件

    Bricks by Stephen FewBricks能更好地进行数值对比但是不能很好地解决bricks重叠覆盖的情况

  • 其它统计图部件

    Bricks by Stephen FewBricks能更好地进行数值对比但是不能很好地解决bricks重叠覆盖的情况

  • 统计图对比

    By Stephen Few

    数据走势 + 模糊分布 数据分布

    折线图

    重量级同时表达数据走势和分布

    Sparkline

    轻量级只表达数据走势

    Bandline

    中量级?表达数据走势和分布

    By Edward Tufte

  • 制作统计图表

  • 用数据讲故事Gapminder Video

    http://www.arthurbuxton.com/2010/11/van-gogh-visualisation.html

  • 目录

    数据变换

    统计图表

    统计图表工具

  • 制作统计图表的工具

    统计领域常用

    R

    SAS

    SPSS

    Stata

    Tableau 8

    Google Charts

    Mathematica 9http://www.tableausoftware.com

    www.r-project.org/

  • Tableau Visualization

  • Google Chart Tools

    https://google-developers.appspot.com/chart/

  • Google Chart Tools

    https://google-developers.appspot.com/chart/

  • Google Charts功能丰富可定制的图表

    自由且与数据一致

    跨浏览器,兼容移动设备

    对动态数据有良好的扩展性

  • Video

  • 课外阅读

    • Google Chartshttps://google-developers.appspot.com/chart/

    • Visual and Statistical Thinking: Displays of Evidence for Making Decisions. Edward R. Tufte

    https://google-developers.appspot.com/chart/

    幻灯片编号 1目录数据变换数据变换数据变换归一化指数变换 曲线拟合/光滑统计采样降维*聚类 K-Means聚类统计图表统计图表 - 比较与比例统计图表 – 趋势与模式统计图表 –关系统计图表折线图折线图宽高比 太阳黑斑 45°倾斜 中值斜率倾斜 平均斜率倾斜 平均方向倾斜横纵比倾斜 多尺度45°倾斜幻灯片编号 28 多尺度45°倾斜 多尺度45°倾斜 计算能量光谱 光滑光谱 光谱阈值 生成趋势线 将趋势线倾斜为45°横纵比过滤太阳黑斑周期二氧化碳应用 尺度 (scales) 哪一幅图比较好?Obama国情咨文2013Obama国情咨文2013 清晰标识尺度的中断尺度中断与log尺度线性尺度和log尺度幻灯片编号 47 柱状图柱状图排序标注尺度尺度 偏离设计 使用零点为基准点 Naveen Sinha, 2009 不必要的三维设计幻灯片编号 58堆叠柱状图对偶柱状图幻灯片编号 61幻灯片编号 62堆积图堆积图饼状图饼状图 梵高的可视化饼状图幻灯片编号 70 散点图 (scatter plot)幻灯片编号 72参考线幻灯片编号 74幻灯片编号 75幻灯片编号 76数据转换残留图显示数据幻灯片编号 80 本拉登之死盒须图盒须图盒须图变种盒须图变种幻灯片编号 86Chart Suggestions其它统计图部件 其它统计图部件 其它统计图部件统计图对比制作统计图表用数据讲故事目录 制作统计图表的工具 Tableau Visualization Google Chart Tools Google Chart Tools Google Charts功能Video 课外阅读