第二节 糖和苷的分类 糖类物质根据其能否水解和分子量的大小分为 单糖、低聚糖和多糖 一、单糖类( monosaccharide )
聚类 (Clustering)
-
Upload
yueshen-xu -
Category
Data & Analytics
-
view
350 -
download
0
Transcript of 聚类 (Clustering)
聚类
2016.3.16
Middleware, CCNT, ZJU3/17/2016 1
(没有数学公式,大家各抒己见)
一堆数据,怎么办
3/17/2016, Yueshen Xu 2 Middleware, CCNT, ZJU
100TB的一堆乱麻,给你一个需求:分析它!你首先想到的是什么?
各式各样,五花八门
你首先想到了什么(小样本后)
3/17/2016, Yueshen Xu 3 Middleware, CCNT, ZJU
我做系统 我做方法
分布式? 降维
MapReduce?
Hadoop?
Spark?
我做可视化
数据可视化?
散点图?
R?
聚类
这个PPT
这里有很多为什么
你呢?
为什么是聚类与降维
3/17/2016, Yueshen Xu 4 Middleware, CCNT, ZJU
M
=
1
0
0
0
0
N=10000
数据
N=10000K
=
5
0
什么可以聚
第一组:(1.2, 1.4, 2.234, 3.231), (8.2, 6.4, 4.243, 5.41),(5.234, 3.56, 4.454, 6.78)
3/17/2016, Yueshen Xu 5 Middleware, CCNT, ZJU
第二组:(1), (0),(1),(0),(1),(1),(1),(0),(1),(0)
第三组:(中国, 现代, 人民, 政府), (政策, 文件, 代表, 天安门),
(报告, 中美, 叙利亚, 联合国)
第四组:(aaaabbbbbcccc), (ddfffgghhhh),
(iiiijjjjjjvvvvvv)
第五组:(▲▼♦), (♣♠█),(■□●)
第六组:(1 65 9
), ( 5 45 2
), (4 10 3
),
没有没不能聚的呢
3/17/2016, Yueshen Xu 6 Middleware, CCNT, ZJU
有,但跟我们没关系
为什么有?什么能聚?
相似度量
线代中的矩阵
拓扑数据都是可聚的
K-Means陷阱
3/17/2016, Yueshen Xu 7 Middleware, CCNT, ZJU
K-Means, K-Medoid,K-XXX有什么缺点?
有几个K?
起始点选在哪?
一定是球形或某种形状么?一定是欧氏距离么?
拓扑
3/17/2016, Yueshen Xu 8 Middleware, CCNT, ZJU
K-XXX到底对什么样的数据可聚呢?
凸面体
K-XXX做不到
以距离度量相似性的方法到底对什么样的数据可聚呢?
问题太小
神奇的凸面体
3/17/2016, Yueshen Xu 9 Middleware, CCNT, ZJU
为什么呢?为什么凹面体就不行呢?
我不知道,我也不关心
现实是残酷的:什么凸凹
我只知道不规则
K-Means是友好的
给个基本结果还是可以的
另一种选择:高斯混合
3/17/2016, Yueshen Xu 10 Middleware, CCNT, ZJU
为什么是高斯大数定理
现实有这么理想么?
那为什么高斯混合还会被用?
因为它给了调参选择的余地
怎么解?最大期望
为什么用最大期望?
你想研究矩阵么
3/17/2016, Yueshen Xu 11 Middleware, CCNT, ZJU
没有闭合解
为什么没有闭合解?
因为有e,有平方
我不想解
矩阵求逆
为什么有e,有平方就没有闭合解?
求根与求指数不是基本运算
矩阵求逆有闭合解么?
有,为什么不用?
太慢
实现中的矩阵很多是没有逆的
不能破的三角关系
3/17/2016, Yueshen Xu 12 Middleware, CCNT, ZJU
你发现了什么?聚类算法没有完美的?
我们想要的只是
不约束数据形状
不假定数据分布
求得闭合解
有么?
为什么有?
为什么没有?
借用分布式
悲观的结论
3/17/2016, Yueshen Xu 13 Middleware, CCNT, ZJU
目前还没有
将来我认为也不会有
不约束形状
不假定分布 闭合解
为什么?
以GMM为代表的生成派
不可能
以K-XXX为代表的度量派
不可能最后的希望:
有没有既不约束形状又不假定分布的呢?
有,矩阵分解类
最后的稻草,矩阵分解类
3/17/2016, Yueshen Xu 14 Middleware, CCNT, ZJU
没有闭合解
已死心,为什么
多子矩阵相乘
为什么?
矩阵乘不是基本运算
乘法是什么?有理数乘法是什么?
不约束形状
不假定分布 闭合解
需求:设计一个聚类学习算法
你能保住几个?
保得越多就越好么?
马尔可夫救场
3/17/2016, Yueshen Xu 15 Middleware, CCNT, ZJU
为什么需要度量约束?
为什么要用大数定理?一大堆问题
文本聚类:
(0,0,0,中国,0,0,0,0,0,0,0,政府,0,0,0,0,0,0,0,0,0,政策,0,0,0,0,0,0,0,会堂,0,0,0 0,0,0,0,0,0,0,….)
我只关心有的
马尔可夫蒙特卡洛
见一个采一个
为什么我看好多项式
3/17/2016, Yueshen Xu 16 Middleware, CCNT, ZJU
这个世界是多项式分布的
什么在一个什么里出现了多少次
关注每一个元素,不关注整体
你想到了什么?
主题建模
有2/3的无监督问题说到底就是聚类
克稀疏性
同时也是狄利克雷的
孪生关系
太稀疏
3/17/2016, Yueshen Xu 17 Middleware, CCNT, ZJU
这是一个稀疏的世界
文本,99%
商品反馈,99.5%
…….
距离度量 矩阵求逆 梯度下降
但我已经用了
加正则,集成学习,主动补全
为什么可能管用?
加正则:限制训练数据发散
集成学习:互相纠正
主动补全:提高密度
这又是一个丰富多彩的世界
3/17/2016, Yueshen Xu 18 Middleware, CCNT, ZJU
四大媒介
文本 图像 语音 视频
都可以聚
而且有很多聚的方式与环境
分布的,并行的,GPU的,FPGA的,多模态的
几个开放的问题
3/17/2016, Yueshen Xu 19 Middleware, CCNT, ZJU
像微博这种极短文本怎么聚?
像网页这种即有文字、又有图片,又有数字的怎么聚?
为什么文本聚类要单独研究?
PPT是不是少了些什么?层次聚类?
像Wordnet这种知识图谱内部怎么聚?
社区发现与聚类是什么关系?
聚类什么时候都有效果么?
研究聚类是研究应用呢,还是理论?
高维数据(>4)在聚类时用R怎么画?
……
Q&A
3/17/2016 Middleware, CCNT, ZJU20