汉语诗歌的机器创作 -...

54
艺术认知与计算实验室 Mind Art Computation 汉语诗歌的机器创作 厦门大学 艺术认知与计算实验室 周昌乐教授精品讲座之五 [email protected] http://mac.xmu.edu.cn/

Transcript of 汉语诗歌的机器创作 -...

Page 1: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

汉语诗歌的机器创作

厦门大学

艺术认知与计算实验室

周昌乐教授精品讲座之五

[email protected]

http://mac.xmu.edu.cn/

Page 2: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

一、研究现状

1.计算诗学的学科界定

使用计算思想、方法和技术等来从事诗歌(推而广之,也可以包括其他文学形式)的研究工作,可以统称为计算诗学的研究。广义的计算诗学,可以包括许多方面的工作,主要是对诗歌文本的各种规律研究,例如像诗歌机器分类、诗歌风格的计算机辅助归纳、诗学知识的计算机辅助发现、诗歌创作的计算机辅助系统工具、诗歌用词用语的统计、诗学语料库、文献库等等。而狭义的计算诗学,则主要是指使计算机系统具备诗歌理解、欣赏和创作的能力,如诗歌作品的机器理解、计算机诗歌创作系统以及计算机歌曲创作系统等。

Page 3: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

一、研究现状

2.相关的研究工作

国际上对于计算诗学的研究兴起于20世纪70年代,目

前为止已尝试了许多方法并取得了一定的进展,出现了一些较成熟的方法和一些可供使用的系统。研究内容从诗歌分析到机器作诗均有涉及。特别是有关诗歌的机器自动生成方面,从早期的Word Salada发展到现在的较为成熟的基于进化算法和基于实例推理的方法,诗歌生成技术的发展不断成熟。当然,这样的研究工作也同样影响到国内,下面我们先介绍与汉语诗歌有关的计算化研究现状。

Page 4: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

一、研究现状

3.唐宋诗辅助分析

北京大学计算语言研究所与台湾元智大学合作,在90年代后期开发的“古诗研究的计算机支持环境”模型系统,初步实现了超文本阅读、全文检索、关键词检索、统计以及计算语言学辅助研究等功能。在胡俊峰的博士论文“基于词汇语义分析的唐宋诗计算机辅助深层研究”中,将一些现代计算语言学技术根据古诗词语言的特点加以改造,取得了一些有益的成果。其研究系统提取积累了有关中国古诗词的语料及语言信息知识库,为今后的研究奠定了良好的基础。

Page 5: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

一、研究现状

4.楹联的自动生成

中国科学院自动化研究所的费越在其博士论文“汉语语义的多层次集成研究——及春联艺术系统设计”中采

用神经网络的方法研究形象思维层次的“语义”,并用春联领域内的词语进行实验,构造了六个汉字以内的计算机春联系统。重庆大学的易勇在其博士论文“计算机辅助诗词创作中的风格辨析及联语应对研究”中,采用机器学习方法,提出了不限字数的联语应对生成的计算模型,取得了较好的实验结果。微软亚洲研究院自然语言组于2004年也启动了计算机自动对联的研究,于2006年完成了系统实现。

Page 6: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

一、研究现状

5.诗歌风格分析

重庆大学的李良炎在其博士论文“基于词连接的自然语言处理技术及其应用研究” 中提出基于词联接的自然语言处理技术,也用于诗词语言的理解与风格的评价测试,取得了成功。易勇的博士论文“计算机辅助诗词创作中的风格辨析及联语应对研究”也着重对诗词风格的机器评判进行了研究,对诗词采用向量空间模型表示,并用基于机器学习中的 Naive Bayes 等方法,首次提出了古典诗词的豪放和婉约风格辨析计算模型,并用遗传算法等方法对模型进行改进,取得较好的诗词风格评判结果。

Page 7: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

一、研究现状

6.机器创作诗歌

厦门大学周昌乐教授在其著作《心脑计算举要》中第一次提出了计算诗学的概念,并给出了一种古体诗创作的遗传算法方法,取得了初步的成果。然后以此为出发点,厦门大学艺术认知与计算实验室借助先进的人工智能理论与方法,开展汉语隐喻分析与理解研究、诗词计算分析与创作研究,以及诗歌机器翻译系统的开发等。下面系统介绍我们围绕宋词开展的一些工作。

Page 8: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

二、全宋词语料库建设

1.宋词基本语料库 我们以唐圭璋编著的《全宋词》为标准,南京师范

大学的网络版《全宋词》为基础,建立了全宋词数据库。该数据库共包含宋词20162首,160余万字。并相应建立了(1)作者数据库(收入作者1497人);(2)词牌数据库(包含词牌正名922个,词牌1384个);(3)专有名词数据库(包含宋词专有名词680个);(4)宋词典故数据库(含宋词典故4467个,包括典故、相关典故、同义典故、相关人物、释义);(5)字与字串频度数据库(字(或双字)、频率、前字频率、后字频率、互信息);(6)字体句法数据库(各种字数的句式有37种词体含有不同句法)。

Page 9: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

二、全宋词语料库建设

2.全宋词词表及其抽取方法

我们采用频率、互信息和共现度的统计抽词方法,结

合各种相关词典,建立了全宋词词表,并在后期不断加以完善。该词表共包含词条43387个,其数据库结构设计如下:a)词,b)词义,c)词结构。

(1)界定全宋词中“单词”概念

(2)对全宋词语料库进行预处理

(3)采用统计方法进行抽词:(a)计算频率与互信息;(b)计算共现度;(c)综合统计量确定抽词。

Page 10: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

二、全宋词语料库建设

3.全宋词熟语料库生成 (1)我们针对宋词的语言特点,结合北大和元智大学

所提出的两种切分方法的长处,以统计方法抽词建立的初步词表为基础,实现了全宋词切分语料库的建设。

(2)制定了全宋词语料库加工规范;给出了词类标注集、词结构标注集、一些(韵律、风格、情感)特殊标注集。

(3)采用人机交互方式完成熟语料库的建设,开发了一个全宋词熟语料库人机交互式标注系统。

Page 11: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

三、宋词文本的计算分析

1.宋词风格的机器评判 宋词含义隽永,言简情深,长期以来多是人工凭体验

对其进行风格的判别和认知,人们对于风格的评判,也只能从基本倾向上去领略它。如何进行机器的诗词风格判别则是一种尝试性的工作。

我们在系统考虑语料选取、特征选取、文本表示、分类方法、性能评价的基础上,建立了基于“字”的宋词风格评判模型、基于“词”的宋词风格评判模型和在两者基础上通过遗传算法训练出的线型加权模型。取得了较好的风格评判效果。

Page 12: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

三、宋词文本的计算分析

训练文本 预处理

分类标准

风格标注 机器学习

实验结果 评判算法 预处理 实验文本

Page 13: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

三、宋词文本的计算分析

K=21

基于“字” 文本分类模型

取“字”特征1094个

基于“词” 文本分类模型

取“词”特征1237个

基于“字”和“词” 线型加权模型

=0.8882

R%

P%

F%

R%

P%

F%

R%

P%

F%

豪放

86.30

94.03

90.00

84.93

88.57

86.71

84.93

92.54

88.57

婉约

95.45

89.36

92.30

90.91

87.91

89.38

94.32

88.30

91.21

这里召回率R(Recall)为被正确分类的文档数和被测试文档总数的比率,准确率P(Precision)为正确分类的文档数与被分类器识别为该类的文档数的比率,和F评价值为将召回率和准确率用某种方式组合成单一的度量,见右式。

2RPF

R P

Page 14: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

三、宋词文本的计算分析

2.宋词词语情感意义分析 1)首先是预处理,即根据用户的输入完成从外部数据

库中提取有用信息,调入系统事先设置好的数据结构中,为以后的运算做好准备。

2)然后,通过多重松弛迭代计算公式来进行整体关联性的类属标注,即确定词语在语境中的情感取向。

3)最后是学习以及纠错机制,即一方面根据运算结果,对外部数据库进行更新,提高以后运算的准确性。另一方面如果觉得结果与事实不符合,还可以进行人为的修改,系统会根据用户的修改自动更新数据库,使得以后的类似运算能够得出正确的结果。

Page 15: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

三、宋词文本的计算分析

宋词输入

系统控制

机器分词 标注合一 结果输出

纠错

学习机制

标注

松弛迭代

产生

情感矩阵

基本词库 情感关联

程序流

数据流

控制流

Page 16: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

三、宋词文本的计算分析

3.宋词语义度量分析 1)词义相关度的计算,利用潜在语义分析(LSA,

Latent Semantic Analysis)计算词义相关度是基于这样的假设:如果给予大规模的文本语料库,词义相关的词语由于有一定的共现规律,一个词可以用一些有共现规律的词来代表它们的语义。

2)利用互信息(MI,mutual information)计算词义相关度,在语料准备和预处理工作上与LSA算法一样,还可以给出结合上述的LSA方法的词义相关度计算方法。

3)词语相似度的计算,主要用于衡量文本中词语的可替换程度。计算词义相似度,目的在于在保证所选词紧扣主题的前提下,尽量使生成诗词的语言更丰富多变,这一点在词的创作上体现得尤为明显。

Page 17: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

四、仿宋词的机器生成

1.诗歌机器生成方法 1)早期的机器作诗采用连接随机生成词汇的方法,生

成结果仅是一些词汇的堆砌,形象地被成为Word Salada。

2)基于模版的诗歌生成系统有一个事先定义好的模版,模版固定生成诗歌中的某些片段,其余片段则留出空白用以填充。

3)基于设定模式的系统致力于生成合乎语法和韵律要求的诗作。这里模式的灵活性远大于模版。

4)基于进化算法的诗歌生成模型由生成模块和评价模块两部分组成。

5)基于实例推理的诗歌生成方法是一种基于经验知识进行推理的智能作诗方法。

Page 18: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

四、仿宋词的机器生成

2.宋词生成的遗传算法 针对宋词生成问题,我们对遗传算法进行了适当的改进,形成

了一种宋词生成的遗传算法。主要考虑的环节包括:

(1)编码策略:采用将“平、仄”与“0、1”编码相对应的编码。

(2)初始种群生成:将格律要求作为必须满足的约束条件。

1)随机生成满足词牌要求的韵部。

2)根据给定的主题词,从词库中挑选和主题词相关度大于k1的词,构成一级候选词空间。并逐步查找与这些词相关度更高的词,直至候选词空间的词数量大于n1。

3)从候选词空间随机选择满足押韵要求的词,首先填充每个需要押韵的位置,随机选词填充剩余满足平仄要求的的位置。如此,来生成含N个个体的的初始种群。

Page 19: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

四、仿宋词的机器生成

2.宋词生成的遗传算法 (3)适应度函数的设计:主要依据以下4个指标:

1)语法合法性G:通过DFA检验的得分为1,否则为0。

2)主题相关性R:等于每个词与主题词的相关度之和。

3)词句搭配的适当性P:等于每两个连续词的相关度之和。

4)风格和情感统一性S:S等于所有词情感得分的方差与风格得分的方差之和。和越小,说明统一性越好。

5)考虑到G、R、P三个量要求取大,而S要求取小,故将S取其倒数,记为S’。适应值函数F设计为以上4个量的加权和,在进行加权

求和之前,还需将4个量进行规一化处理,即:F=λ 1G+λ 2 R+λ 3P+λ 4 S’

Page 20: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

四、仿宋词的机器生成

2.宋词生成的遗传算法 (4)遗传算子的选择:遗传算子的选择主要考虑针对

性强的特定方法。

1)选择操作:选择操作也叫复制操作,从群体中按个体的适应度函数值选择出较适应环境的个体。采用精英主义和轮盘赌算法相结合的模型。

2)交叉操作:交叉操作是遗传算法中最重要的操作,是决定算法收敛性能的关键。我们采用部分映射和启发式两种交叉操作。

3)变异操作:变异操作是根据生物遗传中基因变异的原理,按一定概率,对个体编码串上的某个或某些基因位的值进行改变值。我们采用了启发式变异。

Page 21: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

四、仿宋词的机器生成

3.宋词生成的系统实现 我们设计构建了一个宋词计算机自动生成系统,它能

按用户输入的关键词和词牌名自动生成宋词。系统总体框架如图所示,共分数据库建立、语法语义处理、基于遗传算法的生成三个基本模块。

系统运行时要求用户输入1-3个关键词,并选择一个词牌名。作为初步研究的测试系统,我们仅支持10个常见词牌的宋词生成:《蝶恋花》《青玉案》《清平乐》《浣溪纱》《西江月》《点绛唇》《鹧鸪天》《江城子》《长相思》《浪淘沙》。

Page 22: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

四、仿宋词的机器生成

Page 23: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

四、仿宋词的机器生成

生成的初始种群个体有如下: 登临多少,入夜催秋草。憔悴田园添缠绕,携手光阴欢笑。 金菊零落离魂,春风相近黄昏。 为我悲秋斜倚,此生天气重门。

经过选择、交叉、变异等操作,最后生成的为: 相逢缥缈,窗外又拂晓。长忆清弦弄浅笑,只恨人间花少。 黄菊不待清尊,相思飘落无痕。风雨重阳又过,登高多少黄昏。

我们系统的例子(《清平乐•菊 》)

Page 24: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

四、仿宋词的机器生成

仅用简单句法生成的诗句:

茫茫清明下琼楼,遥指白鹿畔轻舟。 何处相逢雨灯影,时节彩云泪陌头。

采用遗传算法优选的诗句:

清明传语愁送客,两岸千里欲渡河。 茫茫春光催碧草,晓露琼楼阑珊色。

Page 25: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

五、机器诗歌评估

1.机器诗歌举要

The Girls All girls sob like slow snows, Near a couch, that girl won’t weep Rains are silly lovers, but I am not shy. Stumble, moan, go, this girl might sail on the desk. No foppish, deaf, cool kisses are very humid. This girl is dumb and soft.

By Auto-beatnik 写诗机器人

Page 26: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

五、机器诗歌评估

Word Salada代表系统有Pete Kilgannon 的“LYRIC 3205”,其作品举例如下:

judy gotta want upon someone.

wanna sadly will go about.

sammy gotta want the thief him but the

every reason. real distance carry.

基于模版的机器诗歌实例: In the morning crowbars will be nearly round.

Separate blankets never step again.

Tomorrow I will ring him through the willows.

Page 27: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

五、机器诗歌评估

基于设定模式的诗歌系统Gerv´as (2000)的实例 : Mu´erome por llamar Juanilla a Juana,

que son de tierno amor afectos vivos,

y la cruel, con ojos fugitivos,

hace papel de yegua galiciana.

基于设定模式的Cybernetic Poet系统诗作示例 : Scattered sandals/ a call back to myself,

so hollow I would echo.

Crazy moon child/ Hide from your coffin

To spite your doom.

You broke my soul/ the juice of eternity,

the spirit of my lips.

Page 28: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

五、机器诗歌评估

基于进化算法的MCGONAGALL系统诗作示例 : There is a young lady called bright.

She (will) travel much faster than light.

She set out one day relatively.

She is on (a) preceding night.

基于CBR的COLIBRI系统诗作示例 : (a) una boca ardiente pase techo y suelo

(b) no s´olo en plata o viola truncada

se vuelva mas t´u y ello juntamente

en tierra en humo en polvo en sombra en nada

(c) no s´olo en boca y viola ardiente

se pase mas t´u y ello juntamente

en tierra en techo en suelo en sombra en nada

(d) no s´olo para* boca y viola ardiente

se pase mas t´u y ello juntamente

en t´ia* en techo en suelo en sombra en serpiente*

Page 29: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

五、机器诗歌评估

I think I'll crash

by Kurzweil's CyberPoet

I think I'll crash.

Just for myself with God

peace on a curious sound

for myself in my heart?

And life is weeping

From a bleeding heart

of boughs bending

such paths of them,

of boughs bending

such paths of breeze

knows we've been there

Page 30: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

五、机器诗歌评估

北方的思念

艾群的程序

雨巷盼望孤独

故乡的依稀揉白了

模糊的坐标

全是橡树的风景

思念你

心的座

甚至去了

美丽的春色

重回

北方的思念

Page 31: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

五、机器诗歌评估

云 松

梁建章的程序

銮仙玉骨寒,松虬雪友繁。

大千收眼底,斯调不同凡。

Page 32: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

五、机器诗歌评估

西江月•饮酒 我们的系统

饮酒开怀酣畅,洞箫笑语尊前。欲看尽岁岁年年,悠然轻云一片。 赏美景开新酿,人生堪笑欢颜。故人何处向天边,醉里时光渐渐。

Page 33: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

五、机器诗歌评估

点绛唇•佳人 人静风清,兰心蕙性盼如许。夜寒疏雨,临水闻娇语。 佳人多情,千里独回首。别离后,泪痕衣袖,惜梦回依旧。

点绛唇•念佳人

娇颜似花,佳期如梦天一方。人海茫茫,何处诉衷肠。 一夜东风 ,红杏满庭芳!思欲狂?巾短情长,无语寄斜阳。

2.机器诗歌的图灵测验

Page 34: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

五、机器诗歌评估

家住闽山东复东, 其中岁岁有莺啼; 如今不在莺啼处, 莺在旧时啼处啼。

白沙平舟夜涛声,春日晓露路相逢。朱楼寒雨离歌泪,不堪肠断雨乘风。

Page 35: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

五、机器诗歌评估

夜空 长长

日历交融了墙,

久远的威风上

人迷失在充满生机的故乡。

以看到的背影拒绝回声,

唇急给于心中,

自无束的情里

拂过无声的落叶。

迢遥的牧女的羊铃,

摇落了轻的树叶。

秋天的梦是轻的,

那是窈窕的牧女之恋。

于是我的梦静静地来了,

但却载着沉重的昔日。

哦,现在,我有一些寒冷,

一些寒冷,和一些忧郁。

Page 36: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

五、机器诗歌评估

Take,oh take thy lips away,

That so sweetly were forsworne,

And those eyes:the break of day

Lights that doe mislead the Morne

But my kisses bring againe,

bring againe,

Seals of love,but seal'd in vaine,

eal'd in vaine.

Beams of the dawn at the angel

with a calm, silent sea

with a hundred times we write,

with a chance we can open up

a steady rhythm in his face

silent room

desolate beach,

Scattering remains of love.

Page 37: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

五、机器诗歌评估

3.如何评介机器诗歌创作

• 只看结果不看过程:仿生学思想

• 只看过程不看结果:要像人一样创作

• 又看结果又看过程:完美主义

Page 38: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

六、计算诗学的困境

The Daffodils I wonder'd lonely as a cloud That floats on high o'er vales

and hills, When all at once I saw a crowd, A host,of golden daffodils; Beside the lake,beneath the

trees, Fluttering and dancing in the

breeze.

The Daffodils

White cloud floats and

swims among hills and

mountains,

looks down at wild golden

daffodil;

Bright gem and with wind

dance,

spring scenery outside

woods idles on lakeside.

水仙花:白云飘游群山间,俯瞰遍野金水仙;璀璨随风舞婆娑,湖畔林外春色闲。

1.从翻译看机器的局限性

Page 39: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

2.朦胧诗速成妙法 题目一律叫“无题”。 第一句:在思维的____里(中), “__”填场所的词 第二句:我____着____„„ “__”填感觉的动词, “__”填感觉的名词 第三句:一句大白话 第四句:也许__________„„ 有所暗示将来句。

一个完整的例子如下:

无题

在思维的停车场里, 在夜色的芬芳中我拥抱着你的声音„„ 晚上7:30我会坐375路离开, 也许明天会有个更好的约会„„

六、计算诗学的困境

Page 40: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

3.诗歌解读的机器困境

六、计算诗学的困境

Page 41: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

诗歌解读的机器困境

唐代诗人杜牧的“清明” 七绝诗:

清明时节雨纷纷,路上行人欲断魂;

借问酒家何处有,牧童遥指杏花村。

不同的句读可形成一首散词:

清明时节雨,纷纷路上行人,欲断魂。

借问酒家何处?有牧童,遥指杏花村。

更有甚者,当你可以毫无节制地引入各种标点符号时,又可变其为一则微型戏剧:

[清明时节][雨纷纷][路上]

行人(欲断魂):借问酒家何处有?

牧童(遥指):杏花村!

Page 42: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

诗歌解读的机器困境

赵元任的《施氏食狮史》

石室诗士施氏嗜狮,誓食十狮,氏时时适市

视狮。十时,氏适市,适十狮适市。是时,氏视是十狮。恃十石矢势,使是十狮逝世,氏拾是十狮尸适石室。石室湿,使侍试拭石室。石室拭。氏始试食是十狮尸。食时,始识是十狮尸实石十狮尸。是时,氏始识是实事实。试释

Page 43: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

诗歌解读的机器困境

'Twas brillig,and the slithy toves

Did gyre and gimble in the Wabe:

All mimsy were the borogoves,

And the mome raths outgrabe.

Page 44: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

诗歌解读的机器困境

枯眼望遥山隔山,

往来曾见几心知?

壶空怕酌一杯酒,

笔下难成和韵诗。

途路阻人离别久,

讯音无雁寄回迟。

孤灯夜守长寥寂,

夫忆妻兮父忆儿。

《七律·春日晓眺》顺读为:翩翩蝶舞柳飞花,碧水泉流鸣鼓蛙。烟锁树林林宿鸟,雾笼村树树栖鸦。船归渔唱渔舟荡,水绕山重山影斜。天晚耀辉光灿灿,过云彩映飞流霞。

逆读后则成为一道名符其实的《虞

美人》:霞流飞映彩云过,灿灿光辉耀。晚天钭影山重山,绕水荡舟渔唱、渔归船。鸦栖树树村笼雾,鸟宿林林树。锁烟蛙鼓鸣流泉,水碧花飞柳舞、蝶翩翩。

Page 45: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

诗歌解读的机器困境

“春”诗:莺啼岸柳弄春晴夜月明。

“夏”诗:香莲碧水动风凉夏日长。

“秋”诗:秋江楚雁宿沙洲浅水流。

“冬”诗:红炉透炭炙寒风御隆冬。

Page 46: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

4.诗歌在于解读 (1)三分诗七分读的含义: (2)聂鲁达如是说: 诗歌说了什么,只有上帝知道。 (3)阐释学与接受美学: (4)电脑的“创造力”在于人:

六、计算诗学的困境

Page 47: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

5.我们未来的研究目标:

• 诗歌语料库进一步建设

• 诗歌创作及其自动谱曲

• 汉英诗歌机器翻译

• 引入脑模型的仿唐宋词创作

• 琴歌琴曲生成

六、计算诗学的困境

Page 48: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

[1]Bailey, R. W. Computer-assisted poetry: the writing machine is for everybody.[M] In Mitchell, J. L., editor, Computers in the Humanities, pages 283–295. Edinburgh University Press, Edinburgh, UK. 1974

[2]Gerv´as, P. Exploring quantitative evaluations of the creativity of automatic poets[C]. In Proceedings of the 2nd. Workshop on Creative Systems, Approaches to Creativity in Artificial Intelligence and Cognitive Science, 15th European Conference on Artificial Intelligence (ECAI 2002), Lyon, France. 2002

[3]van Mechelen, M. V. Computer poetry [EB/OL]. http://www.trinp.org/Poet/ComP/ComPoe.HTM. 1992

[4]Hartman, C. O. Virtual Muse: Experiments in Computer Poetry[M]. Wesleyan University Press. 1996

[5]Boden, M. A. The Creative Mind: Myths and Mechanisms[M]. Weidenfeld and Nicolson,London, UK. 1990

参考文献

Page 49: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

[6]Gerv´as, P. An expert system for the composition of formal spanish poetry. Journal of Knowledge-Based Systems, 2001.14(3-4):181–188.

[7] Kurzweil, R. Ray kurzweil’s cybernetic poet[EB/OL].

http://www.kurzweilcyberart.com/poetry. 2001.

[8]Rubaud, J., Lussonnal, P., and Braffort, P. ALAMO: Atelier de litt´erature assist´e par la math´ematique et les ordinateurs [EB/OL]. http://indy.culture.fr/alamo/rialt/pagaccalam.html. 2000.

[9]Kempe, V., Levy, R., and Graci, C. Neural networks as fitness evaluators in genetic algorithms: Simulating human creativity[C]. In Moore, J. D. and Stenning, K., editors, Proceedings of the 23rd Annual Conference of the Cognitive Science Society, Edinburgh, UK. 2001.

参考文献

Page 50: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

[10]Gruber, H. and Davis, S. Inching our way up mount olympus: The evolving systems approach to creative thinking[M]. In Sternberg, R. J., editor, The Nature of Creativity,. Cambridge University Press, New York, USA. 1988. 243–269

[11]Sims, K. Artificial evolution for computer graphics[J]. Computer Graphics, 25(4):319–328. 1991

[12]Diaz-Agudo, B., Gerv´as, P., and Gonz´alez-Calero, P. Poetry generation in COLIBRI [C]. In Proceedings of the 6th European Conference on Case Based Reasoning (ECCBR 2002), Aberdeen, UK. 2002.

[13]Luger, G. F. and Stubblefield, W. A. Artificial Intelligence: Structures and Strategies for Complex Problem Solving. Addison Wesley Longman, Inc., third edition. 1998.

[14]Aamodt, A. and Plaza, E. Case-based reasoning: Foundational issues, methodological variations, and system approaches. AI Communications, 7(1):39–59. 1994.

参考文献

Page 51: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

[15]Hisar Maruli Manurung. An evolutionary algorithm approach to poetry generation[D] University of Edinburgh, 2003

[16]刘岩斌 俞士汶 孙钦善. 古诗研究的计算机支持环境的实现[J]. 中文信息学报,1996,11(1):27-35

[17]穗志方 俞士汶 罗凤珠.宋代名家诗自动注音研究及系统实现[J]. 中文信息学报,1998,2:44-53

[18]罗凤珠 李元萍 曹伟政. 中国古代诗词格律自动检索与教学系统[J],中文信息学报1999.1:35-42

[19]胡俊峰. 基于词汇语义分析的唐宋诗计算机辅助深层研究[D] 北京大学博士学位论文 北京 2001.5

[20]易勇. 计算机辅助诗词创作中的风格辨析及联语应对研究[D] 重庆大学博士学位论文 重庆 2005.6

[21]李良炎.基于词联接的自然语言处理技术及其应用研究. [D].重庆大学博士学位论文. 重庆 2004.10

[22]周昌乐. 心脑计算举要[M]. 北京:清华大学出版社,2003

参考文献

Page 52: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

[23]费越. 汉语语义的多层次集成研究--及春联艺术系统设计[D]. 中国科学院自动化研究所博士学位论文. 北京. 1999.7

[24]周明. 微软对联生成系统[EB/OL]. 微软亚洲研究院自然语言组. 北京http://duilian.msra.cn/ 2006

[25]俞士汶,胡俊峰. 唐宋诗之词汇自动分析及应用[J]. 语言暨语言学,2000,4(3):631-647

[26]罗凤珠. 诗词语言切分与语意分类标记之系统设计及应用[C]. 第四届数位典藏技术研讨会,2005

[27]苏劲松 周昌乐 李翼鸿. 基于统计抽词和格律的全宋词切分语料库建立. 中文信息学报,2007.5

[28]王兆鹏,刘尊明. 宋词大辞典[M]. 南京:凤凰出版社,2003

[29]金启华. 全宋词典故考释辞典[M]. 吉林:吉林文史出版社,1991

[30]潘慎. 词律辞典[M]. 山西:山西人民出版社,1982

[31]钦定词谱[M]. 北京:北京人民出版社,1983

[32]龙榆生. 唐宋词格律[M]. 上海:上海古籍出版社,1978

参考文献

Page 53: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

[33]陆辅之. 续修四库全书‧词旨[M]. 上海:上海古籍出版社,1997

[34]唐圭璋. 全宋词[M]. 上海:中华书局,1997

[35]游维,基于遗传算法的宋词计算机自动生成研究[D]. 厦门大学硕士学位论文. 2007年6月

[36]胡俊峰 俞士汶. 唐宋诗中词汇语义相似度的统计分析及应用[J]. 中文信息学报. 2002,16 (4):39-44

[37]李良炎 何中市 易勇. 基于词联接的诗词风格评价技术. 中文信息学报[J]. 2005.19 (6):98-104

[38]应英 周峰 周昌乐. 汉语情感意义的机器标注研究初探[J]. 中文信息学报 2002.2

[39]苏劲松,全宋词语料库建设及其宋词风格与情感分析的计算方法研

究[D].厦门大学硕士学位论文,2007年6月

参考文献

Page 54: 汉语诗歌的机器创作 - nlp.csai.tsinghua.edu.cnnlp.csai.tsinghua.edu.cn/site2/images/file/poem.pdf · 可以给出结合上述的lsa方法的词义相关度计算方法。

艺术认知与计算实验室 Mind Art Computation

计算诗学前沿报告

再见

充满劳绩,

人,当诗意地

栖居在大地上。 荷林柯德