汉语语义场网络中的无标度分布现象

汉语语义场网络中的无标度分布现象

杨华 1 姬东鸿 *2 萧国政 1

1 武汉大学文学院武汉 430070

2 武汉大学计算机学院武汉 430070

即时通信： QQ 与微信： 905018910（高品低智）

摘要• 词语在与其密切相关的其它词语处在一个系统中时，能表现

出其系统意义与自身的含义（义位）。这个系统称为语义场。汉语语义场指的是汉语中的词语意义联系在一起构成的语义系统。一门语言的所有子语义场合在一起，就是这门语言的语义场。

• 本文探索用复杂网络来表示汉语的（子）语义场，根据联想场的概念，提出用复杂网络表示汉语的子语义场，并获得了该网络的一些统计特性。

• 无标度分布在复杂网络研究领域的文献中一般描述的是网络的节点度分布。但我们发现，在带权值的语义场网络中，除了节点的度，节点的权值与边的权值均展现了无标度分布。

• 通过观察网络结点的度、结点的权值、边的权值在一定范围内的内容，可以观察到一些仅在网络的视角才能发掘出的语言现象。我们将较为特别的现象展示给语言学界的专家们，期望引起共鸣，或许从专业的语言学家那里，可以得到对这些现象的解释，从而推进其在自然语言处理任务中的应用。

1 引言

• 近年来，复杂网络用来描述现实世界中种种复杂系统。

• 语言是人类进化中长期演化出的高度复杂系统。过去对语言的统计特性研究往往基于一阶统计，比如 Zipf 定理。

• 近年来，学者们将语言建模为网络进行研究，尝试从网络的角度去探索语言的性质及认知过程、模拟人类语言的产生过程。– 观察到了大量在一阶统计上难以察觉的语言和认知心

理的现象，并用于解释语言的根源、认知过程等等。

1 引言

• 汉语是世界最重要的语言之一，其统计规律和性质在语言学上具有重要的参考意义。

• 汉语网络的研究已有一些初步的进展– 如基本词法网络– 汉词语同现网络– 汉词语汇的语法依存句法网络 [5] 。

• 实验表明这些网络拓扑结构表现出复杂网络的许多普适特性，并且与其它语言网络特性非常相似。这说明尽管各种语言有自己的词法和句法，但是它们后面隐藏着内在的、相对固定的规律。也说明网络是挖掘这些规律的有力工具。

一小段文本的单词同现网

一小段文字的单词语法依存网

1 引言

• 汉语语义场指的是汉语中的词语意义联系在一起构成的语义系统。基于联想语义场的思想，我们构建汉语的（子）语义场网络，观察到该网络中的无标度分布，并观察了网络中结点和边的内容，展现了从网络角度探测到的语言现象。

1 引言

• 本文的组织结构如下：–第 2 节概览了目前普遍研究的语言复杂网络；–第 3 节介绍了联想语义场的概念，并基于该概

念介绍了语义场网络的构建方法；–第 4 节描述了在语义场网络中所调查的特性–第 5 节给出了实验结果，即网络中普遍出现的

无标度分布现象，其中对于节点权值、边权值的分布的研究是尤其独特的，并观测了某些特定范围的词语特征。

–第 6 节指出了未来的工作。

2 语言复杂网络一览

• 很多文献中将语言的复杂网络称为语义网络 (Semantic Network) ，这个概念不等同于“语义网 (Semantic Web)” 。

2 语言复杂网络一览

• 单词同现（相邻）网和单词搭配网 • 依存语法网： • 词典网络――专家知识网： • 词汇联想网络： • 中文语言网络的相关工作：

– 共性：小世界效应和无标度特性，并在层次性、居间中心性和混合模式，具有普适特性

3 语义场网络

• 很多研究对以什么单位为网络结点，如何定义结点之间的关系，研究的兴趣何在都未充分回答。

• 然而，尽管各种已研究网络从构建上有区别，但都有一个共同点：结点之间的关系都试图表达词语之间的语义关联。然而，什么样的两个词语算是“具有语义上的关联”呢？

3.1 联想场的概念

• 索绪尔曾说过：“任何一个词在人们的记忆力都可以唤起一切可能跟它有这种或那种联系的词。”联想场的概念是有索绪尔的弟子 Bally 提出的， Bally正式提出了联想场理论认为：包围在已给词周围的能够更细地规定这个词的价值的体系。

• Ullmann把联想场规定为围绕一个词的联想网络，一切都是被联想的网所包围，依此和其他词产生联系，这种联想是有意义关系的，有纯粹根据形态的，也有和形态，意义双方都相关的 [26][27] 。这正是本文的灵感来源。

3.2 如何表达联想

• 为什么给定激发词“奥运会”，大多数人会联想到“金牌”，“世界冠军”等等呢？

• 笔者认为，这种心理过程构建于人共有的背景知识，因而间接地构建于广泛使用的媒体，包括报纸，电视，网络等。更具体来说，是因为这些词语高概率地在同一窗口中同现。词语的同现是重要信息 [28] ，这一观点获得了广泛的应用。

• 注意到常常同现的词语放在一起时能表现它们自己的含义，比如“刘翔”、“跑步”、“冠军”三个词语放在一起的时候，尽管没有句法信息，我们仍能判断这里“刘翔”是著名运动员而非一般人，“跑步”是一种高水平的比赛，而不是普通的“奔跑”。这些词放在一起的时候，即使没有精确的人工义素分析，我们也能比较准确地了解这些词语的指称意义。

3.3 汉语语义场网络的构建方法与特征

• 语义场被定义为义位形成的系统 [31] ，但，如何来表示这个系统？

• 基于上述广义语义场的概念，我们尝试用三种网络来表示汉语的子场，根据语言复杂网络研究领域中的分类，可称为关键词同现网络（ Key Term Concurrence Network ，KTCN ）。

• 这里仅描述在文献 [32] 中用于信息检索任务中的查询扩展技术时中表现最好的网络，– 记为 KTCN-R ，其生成过程如下：以大型语料中所有文档的所有

关键词为结点（采用文献 [33] 中的关键词抽取算法），如果两个关键词同时出现在至少一篇文档的同一段落中，则认为它们可能属于同一语义场，则在这对关键词之间加边。网络中的边上的权值表达的是相应的关键词在语料库中所有文档的所有段落中共同出现的次数。

4 无标度分布及相关概念

• 通过三元组 (N,E,W) 来描述 KTCN-R 的规模 • 结点的度 • 大部分结点的度数很低，而少数结点的度数很高，则称这种分布为无标度分布。“无标度”的本质含义是“无明显特征”，而正态分布则具有绝大部分样本分布在期望附近的明显特征。

• 网络的结点平均权值定义为所有结点的权值的平均值。

• 结点平均权值分布的概念则类似于网络的顶点度分布。

• 边权值分布

5 实验结果

5.1 结点度分布

• 图 1 　 KTCN-R 中 1 到 200 度的结点数分布

5.1 结点度分布

图 2 KTCN-R 中 201 到 500 度的结点数分布

5.1 结点度分布

图 3 KTCN-R 中 500 到 1118 度的结点数分布

5.1 结点度分布• 第四段，也就是度数大于等于 1118 的结点数均小于 10 。

• 综合以上四段数据， KTCN 的度分布是无标度分布。

• 查看数据（附录 1-4 ）

5.2 结点权值分布

图 4 KTCN-R 中权值在 [1,315] 的结点数分布


图 5 KTCN-R 中权值在 [315 ， 804] 的结点数分布


图 6 KTCN-R 中权值在 [805 ， 1957] 的结点分布


• 剩余的数据点共 5305 个，权值均小于 10 ，平均值为 1.41263 ，标准差为 0.84573 ，中数为 1 ，为 1 的数据共 3940 个。

• 综上， KTCN-R 的结点权服从无标度分布。

下面观察结点权值在一定范围内的词语特征：

• 1) 文献 [32] 中附录 4列出了 KTCN-R 中权值最低的 200 个结点的词语，它们的权值均为 1 ，由于权值为 1 的结点度数必然为 1 （反之未必成立），而权值为 1 的结点和度数为 1 的结点都非常多（无标度分布），因此两种情况应该相似。

• 造成附录 1 和附录 4 的差别的原因是实验过程中使用了二叉排序树，两种情况结点被插入二叉树的先后顺序不同。

• 所以它们然表现出和度数最低的 200 词相同的特征：很少见的词、不准确的抽词、和少量意义完整的词语组合。


• 2) 文献 [32] 中附录 5列出了 KTCN-R 中结点权值大于 1 且最小的 200 个词语（结点权值均为 2 ）。显然，它们与度或权为 1 的结点具有相同的特征。

• 3) 文献 [32] 中附录 6列出了 KTCN-R 中结点权值最高的 200 个结点的内容及它们的权值。– 我们考察了度数最高的 200 个结点（附录 2 ）和权值最

高的 200 个结点之间的重复重复率为 100% ，即这两组数据仅排序不同，因此它们的特征也相同。

– 但我们计算了 KTCN-R 中结点度与权的皮尔逊相关系数仅为 0.565346 ，可见两者正相关程度并不是很高。


• 3 ）文献 [32] 中附录 7列出了结点权值在所有权值的中数左右的 200 个词语，它们的权值均为 22 ，这些词语虽然不像词，但是意思却相当完整。


• 4 ）此外，最高权值的一半左右的 200 个词语基本就是权值最大的那些词语。因为 KTCN-R 中最大权值为 858411 ，其一半是429205.5 ，权值大于的 429205.5 词只有 5个（权值均为 1 ）。

• 查看数据：附录 5-7

5.3 边权值分布

• 边权为 1 ， 2 ， 3 ， 4 ， 5 的边数分别是8275598 ， 5106606 ， 2454626 ， 914240 ， 500610 。

5.3 边权值分布

图 7 　边权值在 [6,29] 的边数分布

5.3 边权值分布

图 8 　 KTCN-R 中边权值在 [30,246] 的边数分布

5.3 边权值分布


5.3 边权值分布

• 下面考察一些权值在具体范围的边的内容特征：

• 1 ）文献 [32] 中附录 8列出了 200 条权值最小的边的内容，它们的权值均为 1 。特点是：结点的基本都是意义很完整的词及组合，而不是那些很少见的词语或者错误抽词（这是度和权最小的 200 个结点的特征）。然而，从常识来看这些边的结点语义关系非常弱，属于同一义场的概率很小。

5.3 边权值分布

• 2 ）文献 [32] 中附录 9列出了 KTCN-R 中权值最大的 200 条边的内容。它们的特点是，结点与附录 8 中列出的低权值边的结点相似，抽词很准确且很常见。但边的特性却与附录 8 相反：语义关系非常明显，即属于同一义场的概率很大。

5.3 边权值分布

• 3 ）文献 [32] 中附录 10列出了 KTCN-R 中边权值在所有边权值的中位数左右 200 条边的内容，它们的权值都是 2 ，说明中数是 2 ，接近众数 1 。因此附录 10 的与附录8 的特征接近。

5.3 边权值分布

• 4 ）我们还考察了权值在 10 （边数 20312 ）、 50 （边数 3149 ）、 100 （边数 729 ）， 200（边数 205 ）、 500 （边数 43 ）的边的内容，对边数少于 200 的权值，列出全部边的内容，对边数超过 200 的权值，只列出 200 个。相应实验结果见 [32] 中附录 11 到附录 15 ，其中删除了一些言论敏感的结果。从这些数据可以观察出以下结论：随着权值的增加，边上的两个结点之间的语义相关程度越来越高。并且，在权值为 10 的情况，这种倾向就已经非常明显了。

5.3 边权值分布

• 此外，权值越高，边上的两个结点越显得紧密，但意思也比较宽泛，比如“企业 -500- 美国”，但是在比较有意义的范围，形成对比的是：权值为 10 的一组，就显得更加领域化，比如“外商投资企业批准证书 -10- 申请”，而且相应的结点字符串也比较长。但，无论边权值为 10还是 500 的边的两个结点的语义关系都比较明确。

6未来的工作

• 1) 更精确地构建网络，如改进关键词的提取算法，使得文章的关键词更加准确，使得节点更加准确，尽可能少地出现不符合人类直觉的“词语”。以互信息为边权值等，增加边及权值的准确性。对这一工作的检验方法是；利用该网络作为基础之一实现某些 NLP任务，考查性能的提升。比如：可用查询扩展任务的性能提升程度检验互信息和频率哪一个更能表达词语的亲密程度。

6未来的工作• 2) 用于语料建设。跨文本的结构特性可以提供关

于“无人工干涉的语料”的知识。– Zipf第一定理证明了词汇数量随着使用频率的增加而迅速斜线下降，那么过度偏离 Zipf 分布的文本可能由不同的文本混杂而成，或者是人工干预的产物 [35] 。

– 类似地，如果语料的网络结构远远偏离了文本网络的原则，则可能有人工干扰。从语料语言学的角度，对语料的网络分析可以研究语料特性，量化对语料的合理性限制，比如语料应具备自然性限制（ naturalness constraints ，即无刻意的人工干预），

– 文献 [9] 及相关研究指出了从复杂网络的角度对语料进行分析的重要性，比如，在语料作为认知学上词汇记忆模型的数据时，小世界特性至少可以作为判断语料需要满足可靠性的必要条件。由于基于网络的语料语言学研究刚刚起步，目前最主要的任务是探索大型文本网络的结构，寻找出相关的规律，找出合适的结构参数指标，评价语料的质量，有益于对语料建设和处理 [9] 。

6未来的工作

• 3) 类同文献 [4] 的工作，寻找中文的核心词汇；可以 KTCN-R 为基础，帮助中文词汇表（比如汉语主题词表）的建设与更新，在构建词表时，越常用的汉语词汇，越早受到语言学家的审验。

6未来的工作

• 5) 寻找语言的特征。 • 6) 语义场网络的权值表达了词语之间容易联想到

的强度，因而可用于认知及联想研究，而不必像文献 [21] 那样寻找人力来参与网络的构建。

• 7) 用于自然语言处理的任务，通过各种方法修订该网络，并找到应用。– 如文献 [32] 中对 KTCN-R 的权值进行反转，用最短路径表达词语的语义亲密程度，并用于信息检索任务；

– 又如，基于 KTCN 构建词汇链，可能改善基于词汇链技术的任务的性能。

结束• 谢谢各位，恳请指正。

汉语语义场网络中的无标度分布现象

Documents

Transcript of 汉语语义场网络中的无标度分布现象