基于特征加权的汉字点笔画生成研究

28
基基基基基基基基基基基基基基基基 • 基基 基基基 基基 基基基 基基基 • 基基 基基基基基基 • 基基基基[email protected] Nlp&CC2013 中中中中

description

基于特征加权的汉字点笔画生成研究. 作者:栗青生 熊晶 吴琴霞 杨玉星 单位:安阳师范学院 联系方式: [email protected]. 主要内容. 1.汉字字形自动生成研究现状 2.汉字字形描述和笔画生成 3.汉字的特征点及权值 4.汉字笔画的生成算法 5.结束语. 字库生成过程. 字稿设计. 扫描处理. 数字化拟合. 修字. 质检. 完成字库. 商品化 和测试. 以字库生成为目的的汉字生成. - PowerPoint PPT Presentation

Transcript of 基于特征加权的汉字点笔画生成研究

Page 1: 基于特征加权的汉字点笔画生成研究

基于特征加权的汉字点笔画生成研究

• 作者:栗青生 熊晶 吴琴霞 杨玉星• 单位:安阳师范学院• 联系方式: [email protected]

Nlp&CC2013 中国重庆

Page 2: 基于特征加权的汉字点笔画生成研究

主要内容1. 汉字字形自动生成研究现状2. 汉字字形描述和笔画生成3. 汉字的特征点及权值4. 汉字笔画的生成算法5. 结束语

Page 3: 基于特征加权的汉字点笔画生成研究

字库生成过程

字稿设计 扫描处理 数字化拟合

修字 质检 完成字库

商品化和测试

Page 4: 基于特征加权的汉字点笔画生成研究

以字库生成为目的的汉字生成 和英文字库比较,

汉字数量大,字库设计比较难。因此,使用不同的部件拼字、或者使用笔画变形、或者通过改变笔画的粗细等来生成汉字,但到快速开发新字库的目的。

自动化生成汉字字库是一项长期而艰巨的工作。中文信息处理截至到今天已经有三十年左右的发展历史了,使用计算机自动生成汉字字形始终是人们的一个梦想。

Page 5: 基于特征加权的汉字点笔画生成研究

部件拼字法• 美国伯利克大学的 CDL 用部件或笔画去描述汉字的组成。不超过 50 个笔划类

型的笔划集就足以构造几乎所有现行印刷体汉字,目前 CDL 已能对超过 4 万个汉字的描述,这包括所有基本多文种平面( BMP )汉字和超过 1 万两千个扩展集( EXT-B )汉字。

Page 6: 基于特征加权的汉字点笔画生成研究

部件拼字法• 香港浸会大学的 Han Glyph, 实现了用四十多个部件组成常用汉字

Page 7: 基于特征加权的汉字点笔画生成研究

笔画变形法

【参考文献 2 】张明敏

【参考文献 3 】字形衍生

系列字生成法

Page 8: 基于特征加权的汉字点笔画生成研究

传统方法的不足• 1. 对部件和笔画的依赖性大。• 2. 生成字形的变化空间不大。• 3. 缺少对笔画结构的控制,后期仍需要人

力去修改。

Page 9: 基于特征加权的汉字点笔画生成研究

基于笔元的字形生成方法• 汉字进一步抽象的探讨• 轮廓抽象为骨架,骨架能否抽象为点?• 笔元描述方法——一种点到点的描述方法

Page 10: 基于特征加权的汉字点笔画生成研究

汉字字形点到点的描述

Nlp&CC2013 中国重庆

Page 11: 基于特征加权的汉字点笔画生成研究

汉字点到点描述的几何基础

v1v3v4

v2 v5v6v11

v13v12

v15

v14v10

v9v8

v7v16

Page 12: 基于特征加权的汉字点笔画生成研究

笔元的变换是字形生成的关键

Page 13: 基于特征加权的汉字点笔画生成研究

笔元变换的数学基础

Page 14: 基于特征加权的汉字点笔画生成研究

汉子字形的特征点• 字形特征点:汉子字形的特征点 T 是汉字

书写过程中 3 类端点集合(开始点 (Ds) ,过程点 (Dz) ,结束点 (De) )

• 每一个笔画可以描述为 T(Ds,Dz1,Dz2,….Dzn,De)

Page 15: 基于特征加权的汉字点笔画生成研究

字形特征点的权值• 字形特征点的权值,由汉字的特征点在书

写或形成过程的特征点的名称编号 n 、书写方向 r 、空间位置 q 和状态 s 等四个部分组成。 Dj(n,r,q,s)

• 特征向量: V1V2 为特征点 V1 和 V2 的特征向量。

Page 16: 基于特征加权的汉字点笔画生成研究

权向量• 权向量:是字形生成过程中,根据生成的

需要在特征向量之外定义的向量。权向量的始点位于 V1 和 V2 组成的直线上,分别向V1V2 两边延伸。

Nlp&CC2013 中国重庆

Page 17: 基于特征加权的汉字点笔画生成研究

• 定比分点法:为表示特征点位置的变化,以动点 m 为分界点的前后两部分分线段长度的比值来表示特征点位置变化状态。

1

2

| || |mVmV

Page 18: 基于特征加权的汉字点笔画生成研究
Page 19: 基于特征加权的汉字点笔画生成研究
Page 20: 基于特征加权的汉字点笔画生成研究

特征函数的构建

)](),(),(),(),([)( 11 tqtqtrtrtTtT iiiiiii 笔 元 特征点 特征点数 n 特征表达式 Q

横 V1 V2 2 {(V1,(0, V2)}

竖 V1 V2 2 {(V1,(270, V2)}

撇 V1 V2 … Vi i {(V1,( T ( t ) 1,,(V2,( T ( t ) 2,,V3… )))}

捺 V1 V2 … Vi i {(V1,( T ( t ) 1,,(V2,( T ( t ) 2,,V3… )))}

点 V1 V2 2 {(V1,( T ( t ) 1, V2)}

折 V1 V2 … Vi i {(V1,( T ( t ) 1,,(V2,( T ( t ) 2,,V3… )))}

Page 21: 基于特征加权的汉字点笔画生成研究
Page 22: 基于特征加权的汉字点笔画生成研究

简单的点笔画的生成算法(以点笔画为例)• 算法步骤:• Step 1: 设定 V1 ( x1,y1 )为笔画的始点,

V2 ( x2,y2 )为笔画的终点;• Step 2: 调用相应的 GDI 绘图指令或选定特定的

数字墨水绘制技术;• Step 3: 设定起始点、结束点的状态;• Step 4: 设定线的粗细;• Step 5: 计算 T(t)1 值;• Step 6: 根据 T(t ) 1 值,从 V1 向 V2 画线;

Page 23: 基于特征加权的汉字点笔画生成研究
Page 24: 基于特征加权的汉字点笔画生成研究

基于 B样条曲线的点笔画的生成 • 由于 Bezier曲线受到曲线顶点的影响,使得对曲线进行局部修改非常困难,而在汉字生成过程中,对曲线的局部修改是随时要进行的,因此我们选择使用 B样条曲线来生成,

根据B样条曲线的分段特性,一个笔画的轮廓可用多条 B样条曲线来生成,参照权向量的定义,本算法采用 5条二次 B样条曲线来生成一个点笔画的轮廓,

Page 25: 基于特征加权的汉字点笔画生成研究

关键算法步骤• 特征函数的初始化。创建五个特征点对

象 T1, T2, T3, T4, T5 表示绘制 5条二次 B样条曲线的控制点 ; 一个 double 类型的变量 k1 表示特征向量的斜率。一个 float 类型变量 a 表示 V1 V2 的定比分点,另外四个 float 类型变量 k2 , k3分别表示两个权向量与特征向量的夹角,b , c 表示两个权向量的模。

Page 26: 基于特征加权的汉字点笔画生成研究

生成样例

• 不同比值下点的生成。

Page 27: 基于特征加权的汉字点笔画生成研究

实验 对比

Page 28: 基于特征加权的汉字点笔画生成研究

谢谢

Nlp&CC2013 中国重庆