聚类 (Clustering)

20
聚类 徐悦甡 [email protected] [email protected] 2016.3.16 Middleware, CCNT, ZJU 3/17/2016 1 (没有数学公式, 大家各抒己见)

Transcript of 聚类 (Clustering)

Page 1: 聚类 (Clustering)

聚类

徐悦甡[email protected]

[email protected]

2016.3.16

Middleware, CCNT, ZJU3/17/2016 1

(没有数学公式,大家各抒己见)

Page 2: 聚类 (Clustering)

一堆数据,怎么办

3/17/2016, Yueshen Xu 2 Middleware, CCNT, ZJU

100TB的一堆乱麻,给你一个需求:分析它!你首先想到的是什么?

各式各样,五花八门

Page 3: 聚类 (Clustering)

你首先想到了什么(小样本后)

3/17/2016, Yueshen Xu 3 Middleware, CCNT, ZJU

我做系统 我做方法

分布式? 降维

MapReduce?

Hadoop?

Spark?

我做可视化

数据可视化?

散点图?

R?

聚类

这个PPT

这里有很多为什么

你呢?

Page 4: 聚类 (Clustering)

为什么是聚类与降维

3/17/2016, Yueshen Xu 4 Middleware, CCNT, ZJU

M

=

1

0

0

0

0

N=10000

数据

N=10000K

=

5

0

Page 5: 聚类 (Clustering)

什么可以聚

第一组:(1.2, 1.4, 2.234, 3.231), (8.2, 6.4, 4.243, 5.41),(5.234, 3.56, 4.454, 6.78)

3/17/2016, Yueshen Xu 5 Middleware, CCNT, ZJU

第二组:(1), (0),(1),(0),(1),(1),(1),(0),(1),(0)

第三组:(中国, 现代, 人民, 政府), (政策, 文件, 代表, 天安门),

(报告, 中美, 叙利亚, 联合国)

第四组:(aaaabbbbbcccc), (ddfffgghhhh),

(iiiijjjjjjvvvvvv)

第五组:(▲▼♦), (♣♠█),(■□●)

第六组:(1 65 9

), ( 5 45 2

), (4 10 3

),

Page 6: 聚类 (Clustering)

没有没不能聚的呢

3/17/2016, Yueshen Xu 6 Middleware, CCNT, ZJU

有,但跟我们没关系

为什么有?什么能聚?

相似度量

线代中的矩阵

拓扑数据都是可聚的

Page 7: 聚类 (Clustering)

K-Means陷阱

3/17/2016, Yueshen Xu 7 Middleware, CCNT, ZJU

K-Means, K-Medoid,K-XXX有什么缺点?

有几个K?

起始点选在哪?

一定是球形或某种形状么?一定是欧氏距离么?

Page 8: 聚类 (Clustering)

拓扑

3/17/2016, Yueshen Xu 8 Middleware, CCNT, ZJU

K-XXX到底对什么样的数据可聚呢?

凸面体

K-XXX做不到

以距离度量相似性的方法到底对什么样的数据可聚呢?

问题太小

Page 9: 聚类 (Clustering)

神奇的凸面体

3/17/2016, Yueshen Xu 9 Middleware, CCNT, ZJU

为什么呢?为什么凹面体就不行呢?

我不知道,我也不关心

现实是残酷的:什么凸凹

我只知道不规则

K-Means是友好的

给个基本结果还是可以的

Page 10: 聚类 (Clustering)

另一种选择:高斯混合

3/17/2016, Yueshen Xu 10 Middleware, CCNT, ZJU

为什么是高斯大数定理

现实有这么理想么?

那为什么高斯混合还会被用?

因为它给了调参选择的余地

怎么解?最大期望

为什么用最大期望?

Page 11: 聚类 (Clustering)

你想研究矩阵么

3/17/2016, Yueshen Xu 11 Middleware, CCNT, ZJU

没有闭合解

为什么没有闭合解?

因为有e,有平方

我不想解

矩阵求逆

为什么有e,有平方就没有闭合解?

求根与求指数不是基本运算

矩阵求逆有闭合解么?

有,为什么不用?

太慢

实现中的矩阵很多是没有逆的

Page 12: 聚类 (Clustering)

不能破的三角关系

3/17/2016, Yueshen Xu 12 Middleware, CCNT, ZJU

你发现了什么?聚类算法没有完美的?

我们想要的只是

不约束数据形状

不假定数据分布

求得闭合解

有么?

为什么有?

为什么没有?

借用分布式

Page 13: 聚类 (Clustering)

悲观的结论

3/17/2016, Yueshen Xu 13 Middleware, CCNT, ZJU

目前还没有

将来我认为也不会有

不约束形状

不假定分布 闭合解

为什么?

以GMM为代表的生成派

不可能

以K-XXX为代表的度量派

不可能最后的希望:

有没有既不约束形状又不假定分布的呢?

有,矩阵分解类

Page 14: 聚类 (Clustering)

最后的稻草,矩阵分解类

3/17/2016, Yueshen Xu 14 Middleware, CCNT, ZJU

没有闭合解

已死心,为什么

多子矩阵相乘

为什么?

矩阵乘不是基本运算

乘法是什么?有理数乘法是什么?

不约束形状

不假定分布 闭合解

需求:设计一个聚类学习算法

你能保住几个?

保得越多就越好么?

Page 15: 聚类 (Clustering)

马尔可夫救场

3/17/2016, Yueshen Xu 15 Middleware, CCNT, ZJU

为什么需要度量约束?

为什么要用大数定理?一大堆问题

文本聚类:

(0,0,0,中国,0,0,0,0,0,0,0,政府,0,0,0,0,0,0,0,0,0,政策,0,0,0,0,0,0,0,会堂,0,0,0 0,0,0,0,0,0,0,….)

我只关心有的

马尔可夫蒙特卡洛

见一个采一个

Page 16: 聚类 (Clustering)

为什么我看好多项式

3/17/2016, Yueshen Xu 16 Middleware, CCNT, ZJU

这个世界是多项式分布的

什么在一个什么里出现了多少次

关注每一个元素,不关注整体

你想到了什么?

主题建模

有2/3的无监督问题说到底就是聚类

克稀疏性

同时也是狄利克雷的

孪生关系

Page 17: 聚类 (Clustering)

太稀疏

3/17/2016, Yueshen Xu 17 Middleware, CCNT, ZJU

这是一个稀疏的世界

文本,99%

商品反馈,99.5%

…….

距离度量 矩阵求逆 梯度下降

但我已经用了

加正则,集成学习,主动补全

为什么可能管用?

加正则:限制训练数据发散

集成学习:互相纠正

主动补全:提高密度

Page 18: 聚类 (Clustering)

这又是一个丰富多彩的世界

3/17/2016, Yueshen Xu 18 Middleware, CCNT, ZJU

四大媒介

文本 图像 语音 视频

都可以聚

而且有很多聚的方式与环境

分布的,并行的,GPU的,FPGA的,多模态的

Page 19: 聚类 (Clustering)

几个开放的问题

3/17/2016, Yueshen Xu 19 Middleware, CCNT, ZJU

像微博这种极短文本怎么聚?

像网页这种即有文字、又有图片,又有数字的怎么聚?

为什么文本聚类要单独研究?

PPT是不是少了些什么?层次聚类?

像Wordnet这种知识图谱内部怎么聚?

社区发现与聚类是什么关系?

聚类什么时候都有效果么?

研究聚类是研究应用呢,还是理论?

高维数据(>4)在聚类时用R怎么画?

……

Page 20: 聚类 (Clustering)

Q&A

3/17/2016 Middleware, CCNT, ZJU20