第 5 章 数字媒体及应用

47
第5第 第第第 第第第 5.1 第第第第第第第 5.2 第第第第第 5.3 第第第第第第第 5.4 第第第第第第第

description

第 5 章 数字媒体及应用. 5. 1 文本与文本处理 5. 2 图像与图形 5. 3 数字声音及应用 5.4 数字视频及应用. 5.1 文本与文本处理. 5.1.1 字符的编码 5.1.2 文本准备 5.1.4 文本编辑、排版与处理 5.1.3 文本的分类 5.1.5 文本的展现. 文字 数值 语言 音乐 图像 ···. 信息的形态有多种. 文字处理是计算机应用的基础. 计算机应用=使用计算机进行信息处理. 其中, 文字信息处理是涉及面最广的一种计算机应用,几乎与任何领域任何人都有关。. 写作. 写作. 编辑. - PowerPoint PPT Presentation

Transcript of 第 5 章 数字媒体及应用

Page 1: 第 5 章  数字媒体及应用

第 5 章 数字媒体及应用

5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用5.4 数字视频及应用

Page 2: 第 5 章  数字媒体及应用

2 5.1 文本与文本处理

5.1 文本与文本处理

5.1.1 字符的编码5.1.2 文本准备5.1.4 文本编辑、排版与处理5.1.3 文本的分类5.1.5 文本的展现

Page 3: 第 5 章  数字媒体及应用

3 5.1 文本与文本处理

文字处理是计算机应用的基础 计算机应用=使用计算机进行信息处理

其中,文字信息处理是涉及面最广的一种计算机应用,几乎与任何领域任何人都有关。

文字数值语言音乐图像···

信息的形态有多种

Page 4: 第 5 章  数字媒体及应用

4 5.1 文本与文本处理

写作编辑

排版

印刷

发行

写作

传统的文字处理过程

Page 5: 第 5 章  数字媒体及应用

5 5.1 文本与文本处理

计算机文字处理过程 文字信息在计算机中称为“文本”( text ),文本是计算机中

最常用的一种数字媒体 文本由一系列 “字符”( character )组成,每个字符均使用

二进制编码表示 文本在计算机中的处理过程是:

(文本编辑器)

文本编辑与排版

格式化的电子文本

( 2 )

文本展现

(文本阅读器)

( 5 )

文本处理

(文本处理)

( 3 )

文本准备

电子文本

( 1 )

(文字与图表 的输入)

文本存储与传输

( 4 )

( 存档 /通信软件 )

Page 6: 第 5 章  数字媒体及应用

6 5.1 文本与文本处理

5.1.1. 字符在计算机中的表示

Page 7: 第 5 章  数字媒体及应用

7 5.1 文本与文本处理

字符、字符集及其编码表 文字的基本元素是字母和符号,统称为“字符” (cha

racter) ,它包括:字母、数字、标点、符号等 字符集:一组特定字符的集合

不同的字符集包含的字符数目与内容不同,如:中文字符集、西文字符集、日文字符集等

字符的编码: 字符集中每个字符的二进位表示,称为该字符的编码或代码

(code)

不同的字符其编码各不相同

Page 8: 第 5 章  数字媒体及应用

8 5.1 文本与文本处理

复习:西文字符的编码—— ASCII 码 西文是表音文字 ( 拼音文字 ) ,它由拉丁字母、数字、标点符

号以及一些特殊符号所组成 美国标准信息交换码 (ASCII 码 ) :

ASCII 字符集包含 96 个可打印字符和 32 个控制字符 采用 7 个二进位进行编码 计算机中使用 1 个字节存储 1 个 ASCII 字符

存在问题: 字符集太小(只有 128 个字符) 不同国家和地区使用不同的字符集及其编码,互不兼容

0 X X X X X X X

Page 9: 第 5 章  数字媒体及应用

9 5.1 文本与文本处理

汉字如何编码? 汉字是记录汉语(国语,华语)的文字,属于表意

文字,它用符号直接表达词或词素,有多个国家和地区使用(中、日、韩、新、马 ······ )

汉字的特点数量大;字形复杂,同音字多,异体字多

如何编码?确定收入多少字、哪些字?在字符集中如何排列?使用多少个二进位进行编码?

Page 10: 第 5 章  数字媒体及应用

10 5.1 文本与文本处理

常用的汉字编码字符集 国家标准 GB2312-1980

汉字扩充规范 GBK ( 已被 GB 18030 取代 )

国家标准 GB18030-2005

港澳台使用的汉字编码字符集 CNS 11643 (BIG

5 ,俗称“大五码” )

UCS/Unicode 多文种大字符集Unicode 的 UTF-8

Unicode 的 UTF-16

Page 11: 第 5 章  数字媒体及应用

11 5.1 文本与文本处理

一级汉字( 3755 个)

二级汉字( 3008 个)

(扩充使用)

字母、数字和各种符号 ………………1 942 3

位号

……

…… 1

916

5556

87

94

号( 按汉语拼音排列 )

( 按偏旁部首排列 )

GB2312 汉字编码字符集 1980 年颁布《信息交换用汉字编码字符集 · 基本

集》—— GB2312-1980

GB2312 字符集由三个部分构成:

拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共 682 个

共 6763 个汉字和682 个符号,每个汉字和符号都有一个确定位置

Page 12: 第 5 章  数字媒体及应用

12 5.1 文本与文本处理

GB2312 汉字的编码 每一个 GB2312 汉字使用 16 位 (2 个字节 ) 表示 为了与 ASCII 字符相区别,每个字节的最高位均

为“ 1”

例如:“ 南”字的代码是 11000100 11001111

(用十六进制表示为 C4CF )

1 1

第 1 字节 第 2 字节

X X X X X X X X X X X X X X

Page 13: 第 5 章  数字媒体及应用

13 5.1 文本与文本处理

GBK 汉字内码扩充规范 GB2312 的不足:

汉字字数太少,缺少繁体字 , 无法满足人名、地名、古籍整理、古典文献研究等应用的需要;与 ASCII 码不兼容

GBK 汉字内码扩充规范( 1995 ): 在 GB2312 基础上,增加了 1万多汉字 ( 包括繁体字 ) 和符号 共有 21003 个汉字和 883 个图形符号,如“計算機”、冃、冄、円、冇等繁体字和生僻字

与 GB8312保持向下兼容,也使用双字节表示,第 1 字节最高位必须为“ 1” :

1 X

第 1 字节 第 2 字节

X X X X X X X X X X X X X X

Page 14: 第 5 章  数字媒体及应用

14 5.1 文本与文本处理

UCS/Unicode 多文种大字符集 背景:为了实现全球数以千计的不同语言文字的统一编码 方案: ISO将全球所有文字字母和符号集中在一个字符集中进行统一

编码 ( 目前共收集了 17x216 = 1,114,112 个 ) ,称为 UCS/Unicode

UCS/Unicode 的编码方案: 先实现部分字符的编码(近 11万个字符) 尽量与已有编码标准兼容 包含有中、日、韩统一整理出来的约 7万汉字(称 CJK 汉字) 允许有若干不同的编码方案 , 常用的两种是:

单字节: ASCII 字符双字节:拉丁、希腊、阿拉伯, ···三字节: CJK 汉字四字节:其他

Unicode:UTF-8 单字节可变长编码

应用: Linux , Web网页,电子邮件

双字节: ASCII 字符、拉丁、希腊、 阿 拉伯,常用 CJK 汉字, ···

四字节:非常用 CJK 汉字

Unicode:UTF-16双字节可变长编码

应用: Windows , Mac , Java , ···

Page 15: 第 5 章  数字媒体及应用

15 5.1 文本与文本处理

GB18030 汉字编码标准 背景:无论是 Unicode 的 UTF-8还是 UTF-16 ,其 CJK 汉字字符集虽然覆盖了我国已使用多年的 GB2312 和 GBK 标准中的汉字,但它们的编码并不相同

为了既能与 UCS/Unicode 编码标准接轨,又能保护我国已有的大量汉字信息资源,我国在 2000 年和 2005 年两次发布 GB18030 汉字编码国家标准。

GB18030实质上是 UCS/Unicode 字符集的另一种编码方案: 单字节编码( 128 个)表示 ASCII 字符 双字节编码( 23940 个)表示汉字,与 GBK (以及 GB2312 )保持向下兼容, GBK 不再使用

四字节编码(约 158万个)用于表示 UCS/Unicode 中的其他字符 GB18030 目前已在我国信息处理产品中强制贯彻执行。

Page 16: 第 5 章  数字媒体及应用

16 5.1 文本与文本处理

标准名称 GB2312 GBK GB18030

UCS-2(Unicode)

字符集 6763 个汉字(简体字 )

21003 个汉字(包括 GB2312汉字在内)

近 3万汉字( 包括 GBK 汉字和 CJK 及其扩充中的汉字 )

包含近 11万字符,其中的汉字与 GB18030 相同

编码方法 双字节存储和表示,每个字节的最高位均为“ 1”

双字节存储和表示,第 1 个字节的最高位必为“ 1”

部分双字节、部分 4 字节表示,双字节表示方案与 GBK相同

(1) UTF-8 采用单字节可变长编码

(2) UTF-16 采用双字节可变长编码

兼容性 编码不兼容!

小结:几种汉字编码的对比

编码保持向下兼容

Page 17: 第 5 章  数字媒体及应用

17 5.1 文本与文本处理

小结:不同标准,不同的表示!

与字符的编码一样,图像、声音、视频等也分别有许多编码标准:国际标准 (ISO) 、国家标准 (GB) 、工业标准、企业标准等,这也是信息处理复杂性的原因之一。

由于经济利益和政治体制等多种原因,相同的信息在计算机中可以有不同的表示,即采用不同的编码进行表示

例如: “南京大学 1234ABCD” 的 3 种表示:C4 CF BE A9 B4 F3 D1 A7 31 32 33 34 41 42 43 44

E5 8D 97 E4 BA AC E5 A4 A7 E5 AD A6 31 32 33 34 41 42 43 44

57 53 AC 4E 27 59 66 5B 31 00 32 00 33 00 34 00 41 00 42 00 43 00 44 00

GB

UTF-8

UTF-16

Page 18: 第 5 章  数字媒体及应用

18 5.1 文本与文本处理

5.1.2. 文本准备 ——文稿如何输入计算机

Page 19: 第 5 章  数字媒体及应用

19 5.1 文本与文本处理

文字符号输入计算机的方法

键盘输入

自动识别输入

字符信息的输入

人工输入

(1) 数字编码 , 如电报码、区位码等 , (2) 字音编码 , 如智能 ABC 等(3) 字形编码,如五笔字形和表形码等 , (4) 形音编码发展趋势:基于统计和学习功能的以词语 (短语 ) 或句子作为输入单位的输入方法

Page 20: 第 5 章  数字媒体及应用

20 5.1 文本与文本处理

文字符号输入计算机的方法

键盘输入 联机手写输入

自动识别输入

字符信息的输入

人工输入

•优点:–自然,流畅–小型化,适合移动计算

•不足:–识别速度和正确性还需提高–书写要求还要降低

Page 21: 第 5 章  数字媒体及应用

21 5.1 文本与文本处理

文字符号输入计算机的方法

键盘输入 联机手写输入 语音输入

自动识别输入

字符信息的输入

人工输入

•优点:•自然,方便,适合移动计算

•不足:•对说话人、说话方式、说话内容的适应能力要大大增强•识别速度和正确性还需大大提高

Page 22: 第 5 章  数字媒体及应用

22 5.1 文本与文本处理

文字符号输入计算机的方法

印刷体识别键盘输入 联机手写输入 语音输入

自动识别输入

字符信息的输入

人工输入

扫描仪 OCR数字文本

纸介质文本

文本的映象

(image)

•识别率已达到 98%

•功能 :–简、繁体字混合识别–中文、西文混合识别–文字、表格混合识别–智能校对功能

Page 23: 第 5 章  数字媒体及应用

23 5.1 文本与文本处理

文字符号输入计算机的方法

印刷体识别 手写体识别键盘输入 联机手写输入 语音输入

自动识别输入

字符信息的输入

人工输入

– 技术上非常困难,还无法实用–目前准备先突破工整的楷书手写体的识别 !

Page 24: 第 5 章  数字媒体及应用

24 5.1 文本与文本处理

汉字的键盘输入 汉字与键盘上的键无法一一对应,因此必须使用几个键来表示一个汉字,这就称为汉字的“键盘输入编码” 优秀的汉字键盘输入编码应具有的特点:

易学习、易记忆效率高 ( 平均击键次数较少 )

重码少容量大 ( 可输入的汉字字数多 )

Page 25: 第 5 章  数字媒体及应用

25 5.1 文本与文本处理

汉字键盘输入方法的比较类型 原理 举例 优点 缺点数字编码

使用一串数字来表示汉字

电报码区位码

仅使用 10个数字键

难记忆

字音编码

把汉语的拼音作为汉字的输入编码

智能 ABC

紫光华宇微软拼音输入

简单易学,适合于非专业人员

重码多,需增加选择操作,不会汉语拼音或不知道读音时无法使用

字形编码

把汉字的部件或笔画作为码元,按照汉字结构及其切分规则作为编码依据,确定每个汉字的输入代码

五笔字形表形码郑码

重码少、输入速度较快,适合于专业录入员、打字员使用

缺乏统一的规范,编码规则不易掌握

音形编码(或形音编码 )

采用字音及字形两种属性作为码元的汉字编码输入方法

粤音输入法 同上 同时要掌握音、形两种取码方法或规则,对普通用户比较困难

Page 26: 第 5 章  数字媒体及应用

26 5.1 文本与文本处理

5.1.4 文本的编辑与排版

Page 27: 第 5 章  数字媒体及应用

27 5.1 文本与文本处理

复习:使用 Word 的操作流程

创建新文档或打开老文档

文稿输入

编辑

排版

文档存盘、打印或发送

输入中西文字、符号和图、表

进行增、删、改操作,保证文本的正确性

满足清晰、美观、便于使用等要求

Page 28: 第 5 章  数字媒体及应用

28 5.1 文本与文本处理

目的:确保文本内容正确无误操作:对字、词、句和段落进行添加、删除、修改等操作

MS Word 的功能:在文本的任何位置都可以插入新的文字从文本的任何位置都可以删除不需要的文字将一段文字从一处移动到另一处将一段文字从一处复制到另一处在文本中自动查找指定的词语用一个词语自动替换文本中指定的词语

文本编辑 (text editing)

Page 29: 第 5 章  数字媒体及应用

29 5.1 文本与文本处理

目的:使文本清晰、美观、便于阅读

操作内容:对文本中的字符、段落乃至整篇文章的格式进行设计和调整,分成 3 个层次:对字符格式进行设置对段落格式进行设置对文档页面进行格式设置

文本排版 (Typesetting )

Page 30: 第 5 章  数字媒体及应用

30 5.1 文本与文本处理

设置字符的格式 字号 (八号 → 初号 , 5磅→ 72磅以上 ) 1 磅相当于 1/72 英寸 字体 (宋体、楷体、黑体、仿宋、隶书 ···) 字符的修饰

字符的形状 (字形 ):正常、加粗、倾斜、加粗倾斜 字形的修饰:下划线、着重号、上下标、删除线 ···

字符的颜色 字符的宽度 字符的间距 字符的效果

字符的排列方向 Demo1

Page 31: 第 5 章  数字媒体及应用

31 5.1 文本与文本处理

什么是段落?用“回车”相互隔开的一组文字 段落格式的设置:

段落的对齐方式 (两端对齐、分散对齐、居中对齐、左对齐、右对齐 )

段落的缩进方式 (首行缩进、悬挂缩进、左缩进、右缩进 )

段间距和段内行距 使用编号和项目符号段落添加边框和底纹 首字下沉或悬挂段落与分页的关系

设置段落的格式

Demo2

Page 32: 第 5 章  数字媒体及应用

32 5.1 文本与文本处理

控制段落的缩进段落缩进是指段落中的文本到正文区左、右边界的距离,

包括段落左缩进、右缩进和首行缩进。其缩进的距离可由水平标尺上对应的三个缩进标记来指示

左缩进标记

首行缩进标记 右缩进标记右缩进

左缩进

首行缩进

正文区右边界

正文区左边界

悬挂缩进标记

Page 33: 第 5 章  数字媒体及应用

33 5.1 文本与文本处理

页面格式的设置:设置纸张大小和页边距

设置每页的行、列数目

设置分栏数目与格式

设置页码

设置页眉和页脚

设置页面的格式

Page 34: 第 5 章  数字媒体及应用

34 5.1 文本与文本处理

设置页面的分栏

Page 35: 第 5 章  数字媒体及应用

35 5.1 文本与文本处理

“ 所见即所得”(操作效果屏幕立即可见,打印结果与屏幕所见完全相同)

撤销 (undo) 和恢复 (redo)操作 格式刷 多种视图 ( 大纲视图与大纲编辑 )

自动更正、自动套用格式、自动编号、自动图文集 ······

自动保存功能和自动备份功能 样式、模板和向导 (wizard)功能 宏操作( Macro )

提高 Word操作效率的若干措施

Page 36: 第 5 章  数字媒体及应用

36 5.1 文本与文本处理

文本处理初步

Page 37: 第 5 章  数字媒体及应用

37 5.1 文本与文本处理

使用计算机对文本中的字、词、短语、句子、篇章进行识别、转换、分析、理解、压缩、加密和检索等有关的处理

文本处理举例:字数统计,词频统计,简 /繁体相互转换,汉字 /拼音相互转换词语排序,词语错误检测,文句语法检查自动分词,词性标注,词义辨识,大陆 /台湾术语转换关键词提取,文摘自动生成,文本分类文本检索(关键词检索、全文检索),文本过滤文语转换(语音合成)文种转换(机器翻译)篇章理解,自动问答,自动写作等文本压缩,文本加密,文本著作权保护

选讲: 什么是文本处理 ?

Page 38: 第 5 章  数字媒体及应用

38 5.1 文本与文本处理

例: Word 2003 的文本处理功能 英文拼写检查和英语同义词检查 字数统计 自动编写摘要 中文简繁体转换和术语转换 中英词语翻译 语法和格式检查 语音识别(口授命令和听写) 文档保护 (防止打开或修改文档 )

Page 39: 第 5 章  数字媒体及应用

39 5.1 文本与文本处理

5.1.3 文本的分类

Page 40: 第 5 章  数字媒体及应用

40 5.1 文本与文本处理

简单文本 (纯文本 )

本 书 由 南 京 大 学 出

版 社 ( P u b l i s h i n g

H o u s e o f N a n j i n

g U n i v e r s i t y ) 出 版

文本

• 没有字体、字号的变化,无图片和表格,也不能建立超链接,其文件后缀名是 .txt• 在计算机中 .txt 文件由一串字符代码所组成,几乎不包含任何其他的格式信息和结构信息例:本书由南京大学出版社 (Publishing House of Nanjing University) 出版 文

本在计算机中的表示

B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6

B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67

20 48 6F 75 73 65 20 6F 66 20 4E 61 6E 6A 69 6E

67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6

Page 41: 第 5 章  数字媒体及应用

41 5.1 文本与文本处理

丰富格式文本

本书由南京大学出版社 (Publishing House of Nanjing University)出版

• 有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本”• 丰富格式文本中,除了正文内容之外,还使用了许多“标记”来描述字符的属性和格式的设置• 举例:下面标题的格式为:中文用黑体,西文用 Arial Black 体,居中

• 使用 HTML 语言描述为:

<p align="center"><font face="黑体 "> 本书由南京大学出版社 </fo

nt><font face="Arial Black">(Publishing House of Nanjing Universit

y)</font><font face="黑体 ">出版 </font></p>

用一对 < >指出的是标记,如 <font face=“黑体” > 和 </font> 等,用于说明排版的格式和文字属性,它们不属于正文内容

正文内容

Page 42: 第 5 章  数字媒体及应用

42 5.1 文本与文本处理

超文本( www网页) WWW网页按照其内容的关联性相互进行链接,网页就是典型的

“超文本” 超文本也属于丰富格式文本

网 页A

网 页B

网页 C 网页 D

网 页E

网页 F 网页 G 网 页H

a1 a2 b2 c2

f1

d1c1 b1

e1 g1h1

a3

“超链”实际上就是一个指针,用于指向其他网页,也可以指向同一网页中的其他部分

超链是有向的,起点位置称为链源,它可以是网页中的一个标题、一句句子、一个关键词、一幅画、一个图标等

Page 43: 第 5 章  数字媒体及应用

43 5.1 文本与文本处理

小结:文本的分类文本类型 特点 在计算机内的表示

文件扩展名 用途

简单文本

没有字体、字号和版面格式的变化,文本在页面上逐行排列,也不含图片和表格

由一连串与正文内容对应的字符的编码所组成,几乎不包含任何其他的格式信息和结构信息

.txt 网上聊天短信文字录入OCR 输入

丰富格式文本(线性文本 )

有字体、字号、颜色等变化,文本在页面上可以自由定位和布局,还可插入图片和表格

除了与正文对应的字符编“码之外,还使用某种 标记

”语言 所规定的一些标记来说明该文本的文字属性和排版格式等

.doc

.rtf

.htm

.html

.pdf

公文论文书稿网页

丰富格式文本(超文本 )

除上述特征外,文本中还含有超链,使文本呈现为一种网状结构

同上,但还应包含用于指“ ” “ ”出 链源 和 链宿 的标记

.doc

.rtf

.htm

.html

.pdf

.hlp

同上,以及软件的联机文档(帮助文件 )

Page 44: 第 5 章  数字媒体及应用

44 5.1 文本与文本处理

5.1.5 文本的展现 ( 输出 )

Page 45: 第 5 章  数字媒体及应用

45 5.1 文本与文本处理

文本的展现 ( 输出 )

目的:阅读、浏览或打印文本 使用的软件:文本阅读器 /文本浏览器

嵌入在文本编辑 (处理 )软件中,如微软的 Word ,独立的软件:如 Adobe公司的 Acrobat Reader ,微软公司的 IE 等

文本展现的过程:1.对文本的格式描述进行解释2.生成文字和图表的映像( bitmap )3.传送到显示器或打印机输出

Page 46: 第 5 章  数字媒体及应用

46 5.1 文本与文本处理

附:输出过程中字形的生成 过程:

先根据字符的字体确定相应的字库( font ),再按照该字符的代码从字库中取出该字符的形状描述信息然后按形状描述信息生成字形,并按照字号大小及有关属性

(粗体、斜体、下横线)将字形作必要的变换 最后将变换得到的字形放置在页面的指定位置处

2 种不同的字库:

点阵描述

轮廓描述

轮廓点

直线

二次曲线

Page 47: 第 5 章  数字媒体及应用

47 5.1 文本与文本处理

附:电子书阅读器 “ 电子书阅读器” 是一种专门用于阅读各种电子文档(如 .txt 、 .doc 、 .htm

l 、 .pdf 等)的专用硬件设备

采用电子墨水显示屏,被动发光,耗电极少,持续工作时间很长( 1 个月以上)

阅读效果接近纸质图书 轻薄,便于携带 颇有发展前景