第 4 章交互技术

第第 44 章交互技术章交互技术

山东大学计算机学院

Lecture 4 2

内容提要

掌握人机交互输入模式掌握基本交互技术掌握图形交互技术掌握笔交互技术

Lecture 4 3

4.1 人机交互输入模式

由于输入设备是多种多样的，而且对一个应用程序而言，可以有多个输入设备，同一个设备又可能为多个任务服务，这就要求对输入过程的处理要有合理的模式。请求模式 (Request Mode)

采样模式（ Sample Mode ）事件模式（ Event Mode ）

Lecture 4 4


请求模式在请求模式下，输入设备的启

动是在应用程序中设置的。应用程序执行过程中需要输入数据时，暂停程序的执行，直到从输入设备接受到请求的输入数据后，才继续执行程序。

程序工作，输入设备等待程序请求

遇到请求指令

输入设备工作，程序等待接收数据

请求满足

图 4-1 请求模式的工作过程

4.1 人机交互输入模式采样模式

输入设备和应用程序独立地工作。输入设备连续不断地把信息输入进来，信息的输入和应用程序中的输入命令无关。应用程序在处理其它数据的同时，输入设备也在工作，新的输入数据替换以前的输入数据。当应用程序遇到取样命令时，读取当前保存的输入设备数据。

优点：这种模式对连续的信息流输入比较方便，也可同时处理多个输入设备的输入信息。

缺点：当应用程序的处理时间较长时，可能会失掉某些输入信息。

程序工作

数据采样数据生成数据缓存区

输入设备工作

图 4-2 采样模式的工作过程


事件模式输入设备和程序并行工作。输入设备把数据保存到一个输入队列

，也称为事件队列，所有的输入数据都保存起来，不会遗失。应用程序随时可以检查这个事件队列，处理队列中的事件，或删除队列中的事件。

应用程序

事件检查事件调用过程模块

处理类型 1事件的过程

处理类型 n事件的过程

输入设备

…

图 4-3 事件模式

4.2 基本交互技术

定位确定平面或空间的一个点的坐标，是交互

中最基本的输入技术之一。直接定位：用定位设备直接指定某个对象

的位置，是一种精确定位方式。间接定位：通过定位设备的运动控制屏幕

上的映射光标进行定位，是一种非精确定位方式。其允许指定的点位于一个坐标范围内，一般用鼠标等指点设备配合光标来实现。

图 4-4 3DS Max 中的精确定位


笔划笔划输入用于输入一组顺序的坐标点。它相当于多次调用定

位输入，输入的一组点常用于显示折线或作为曲线的控制点。


定值定值（或数值）输入用于设置物体旋转角度、缩放比例因子

等


选择选择是在某个选择集中选出一个元素，通过注视、指点或接

触一个对象，使对象成为后续行为的焦点，是操作对象时不可缺少的一部分。键盘 Ctrl+A

鼠标

图 4-6 选择


字符串

4.3 图形交互技术

WIMP 界面由窗口 (Windows) 、图标 (Icons) 、菜单(Menus) 、指点设备 (Pointing Device) 四位一体，形成桌面 (Desktop)


几何约束几何约束可以用于对图形的方向、对齐方式等进行规定和校准。

对定位的约束（网格吸附）

图 4-9 Adobe Photoshop 网格线

例如，定义不可见网格线为： x=10i, y=10j, 其中 i,j=0,…,n。设输入点的坐标为（ x, y ），则离它最近的网格点的坐标为：

(10*( ( ) 5) /10, 10*( ( ) 5) /10)round x round y (10*( ( ) 5) /10, 10*( ( ) 5) /10)round x round y (10*( ( ) 5) /10, 10*( ( ) 5) /10)round x round y

(10*( ( ) 5) /10, 10*( ( ) 5) /10)round x round y


几何约束方向约束

例如要绘的垂直或水平方向的线，当给定的起点和终点连线和水平线的交角小于 45° 时，便可绘出一条水平线，否则就绘垂直线。绘制印刷线路板、管网图或地籍图时非常有用。

在 Word绘图中，通过锁定纵横比，在拖动线段一个端点时，线段只是沿原来方向放缩

+

+

移动

光标

按下按

钮开关

+


引力场引力场也可以看作是一种定位约束，通过在特定图素（如直线段）周围假想有一个区域，当光标中心落在这个区域内时，就自动地被直线上最近的一个点所代替，就好像一个质点进入了直线周围的引力场，被吸引到这条直线上去一样。

引力场的大小要适中，太小了不易进入引力区，太大了线和线的引力区相交，光标在进入引力区相交部分时可能会被吸引到不希望选的线段上去，增大误接的概率。


拖动要把一个对象移动到一个新的位置时，如果我们不是简单地

用光标指定新位置的一个点，而是当光标移动时拖动着被移动的对象，这样会使用户感到更直观，并可使对象放置的位置更恰当。

图形模式和图像模式

在图形模式下，当将图形由一个位置拖到新的位置时，实际上是在移动的位置上按特定的象素操作模式（如异或方式）进行了图形的重新绘制，这样被拖动的图形不会破坏扫过的轨迹上的图形。

在图像模式下，当将一个图形由一个位置拖到一个新的位置时，实际上是进行了图像的整体移动，即首先将新位置上按拖动图像大小范围将屏幕图像保存，然后将拖动的图像移动到新位置，当拖动图像离开该位置而移动到下一个新位置时，再恢复该位置上保存的屏幕图像。


橡皮筋技术被拖动对象的形状和位置随着光标位置的不同而变化。不断地进行画图－擦除－画图的过程

（ 1 ）从起点到光标中心点（ x ， y ）处画图；（ 2 ）擦除起点到光标中心点（ x ， y ）处的图形；（ 3 ）光标移动到新的位置： x=x+△ x ， y=y+△ y；（ 4 ）转第（ 1 ）步，重复这个过程，直到按下确认键为止。


操作柄技术可以用来对图形对象进行缩放、旋转、错切等几何变换。先

选择要处理的图形对象，该图形对象的周围会出现操作柄，移动或旋转操作柄就可以实现相应的变换。


三维交互技术面临问题

三维交互技术采用六自由度输入设备。所谓六自由度，指沿三维空间 X 、 Y 、 Z轴平移和绕 X 、 Y 、 Z轴旋转，而现在流行的用于桌面型图形界面的交互设备，如鼠标、轨迹球、触摸屏等只有两个自由度 (沿平面 X 、 Y轴平移 ) 。

窗口、菜单、图符和传统的二维光标在三维交互环境中会破坏空间感，用户难以区分屏幕上光标选择到对象的深度值和其他显示对象的深度值，使交互过程非常不自然。

三维交互技术

直接操作三维光标必须有深度感，即必须考虑光标与观察者距离，离观察者近的时候较大，离观察者远的时候较小。

为保持三维用户界面的空间感，光标在遇到物体时不能进入到或穿过物体内部。

为了增加额外的深度线索，辅助三维对象的选择，可以采用半透明三维光标。

三维光标可以是人手的三维模型

图 4-17 虚拟手

三维交互技术

三维Widgets 三维交互界面中的一些小工具

三维空间中漂浮的菜单、用于拾取物体的手的三维图标、平移和旋转指示器等。

1992年美国 Brown 大学计算机系提出三维Widget 设计原则三维Widget 的几何形状应能表示其用途（ eg: 一个用来扭曲物体的 Widget ，最好本身就是一

个扭曲的物体）

适当选择 Widget 控制的自由度－由于三维空间有六个自由度，有时会使三维交互操作变得过

于复杂，因此在用户使用某种 Widget 时，可以固定或者自动计算某些自由度的值

根据三维用户界面的用途确定 Widget 的功能。例如，用于艺术和娱乐的三维用户界面的

Widget ，只要能够完成使画面看起来像的操作就可以了，而用于工业设计和制造的用户界面，

则必须保证交互操作参数的精确性。

三维交互技术

三视图输入用二维输入设备在一定程度上实现三维的输入。

如果输入一个三维点，只要在两个视图上把点的对应位置指定后便唯一确定了三维空间中的一个点；

把直线段上两端点在三视图上输入后便可决定三维空间的一条直线；把一个面上的各顶点在三视图上输入后，也唯一确定了三维空间中的一个面；如果把一个多面体上的各面均用上述方法输入，

也就在三维空间中输入了一个多面体。

4.4 语音交互技术

语音合成语音识别

计算机通过识别和理解过程把语音信号转变为相应的文本文件或命令的技术，其所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。

目前主流的语音识别技术是基于统计的模式识别的基本理论。语音识别系统大致可分为语音特征提取，声学模型与模式匹配

，以及语言模型与语义理解

语音识别系统

1. 语音特征提取输入的模拟语音信号首先要进行预处理，包括预滤波、采样

和量化、加窗、端点检测、预加重等。基于语音帧的特征提取方法：将语音信号分为有重叠的若干帧，对每一帧提取语音特征。

语音识别系统

2. 声学模型与模式匹配声学模型对应于语音到音节概率的计算。在识别时将输入的语音特征同声学模型进行匹配与比较，得到最佳的识别结果

目前采用的最广泛的建模技术是隐马尔科夫模型 HMM建模和上下文相关建模

隐马尔科夫模型 HMM建模 HMM刻画语音信号需作出两个假设

一是内部状态的转移只与上一状态有关另一是输出值只与当前状态（或当前的状态转移）有关

语音识别中使用 HMM 通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模，一个音素就是一个三至五状态的 HMM ，一个词就是构成词的多个音素的 HMM 串行起来构成的 HMM ，而连续语音识别的整个模型就是词和静音组合起来的 HMM 。

上下文相关建模方法建模时考虑了协同发音的影响协同发音是指一个音受前后相邻音的影响而发生变化，从发声机理上看就是人的发声器官在一个音转向另一个音时只能逐渐变化，从而使得后一个音的频谱与其他条件下的频谱产生差异。

英语的上下文相关建模通常以音素为基元

语音识别系统

3. 语言模型与语义理解语言模型计算音节到字的概率。

规则模型统计模型

用概率统计的方法来揭示语言单位内在的统计规律，其中 N-

Gram 模型简单有效，被广泛使用。 N-Gram 模型基于这样一种假设，第 n个词的出现只与前面n-1 个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计 n个词同时出现的次数得到。常用的是二元的 Bi-Gram 和三元的 Tri-Gram 。

微软语音软件开发包

Microsoft Speech SDK Speech API （ SAPI ）

API for Text-to-Speech 把文本转化为语音输出金山词霸的单词朗读功能

ISpVoice * pVoice = NULL;

HRESULT hr = CoCreateInstance(CLSID_SpVoice,

NULL, CLSCTX_ALL, IID_ISpVoice, (void **)&pVoice);

pVoice->Speak(L"Hello world", 0, NULL);

API for Speech Recognition语音识别应用程序接口 ,声波转换成文字

4.5 笔交互技术

笔式用户界面，中国科学院软件研究所戴国忠研究员等提出了 PIBG 范式 PIBG 范式 :P(Physical object) 、 IB(Icons,Buttons) 、 G(Gesture)

WIMP 范式 :W(windows) 、 I M (icons ， menus) 、 P(pointing

systems) 相对应。

4.5.1 手写识别技术

脱机识别：机器对于已经写好或印刷好的静态的语言文本图像的识别；

联机识别：用笔在输入板上写：用户一边写，机器一边进行识别，可实时人机交互。

手写体识别的方法和识别率取决于对手写约束的层次，这些约束主要是手写的类型、用户的数量、词汇量的大小以及空间的布局。

联机手写识别

系统通过记录文字图像抬笔、落笔、笔迹上各像素的空间位置，以及各笔段之间的时间关系等信息，对这些信息进行处理。

在处理过程中，系统以一定的规则提取信息特征，再由识别模块将信息特征与识别库的特征进行比较，加以识别。（笔输入的识别特征库是基于许多人习惯的书写笔顺的统计特征建立的。）

最后转化为计算机所使用的文字代码。

汉字手写输入板预处理模式表达

（特征提取）

判别（分类或句法分析）

字典（特征模板集合或句法规则集合）

汉字代码

脱机手写识别

困难：脱机手写识别得到的描述则是点阵图像，要得到笔段的点阵

通常需要细化运算。细化会损失一些信息，并且不可能得到时间顺序信息。

脱机识别中，笔画与笔画之间经常粘连，很难拆分，而且笔段经过与另一笔段交叉分成两段后，也难以分清是否应该连起来。

结构识别、统计识别以及神经网络方法

脱机手写识别

结构识别方法汉字的组成结构 : 由笔划 ( 点、横、竖、撇、捺等 ) 、偏旁、

部首构成通过把复杂的汉字模式分解为简单的子模式直至基本模式元

素，对子模式的判定以及基于符号运算的匹配算法，实现对复杂模式的识别。

优点是区分相似字的能力强，缺点是抗干扰能力差。

脱机手写识别

统计识别方法将汉字看为一个整体，其所有的特征是从整体上经过大量的统计而得到的，然后按照一定准则所确定的决策函数进行分类判决。

统计识别的特点是抗干扰性强，缺点是细分能力较弱。神经网络

具有学习能力和快速并行实现的特点，因此可以通过神经网络分类器的推广能力准则和特征提取器的有效特征提取准则，对手写字符进行识别。

数字墨水技术

通过三阶贝塞尔曲线来描述笔输入的笔迹，存储方式使得数字墨水文件很小，从而可以更有效地进行存储。

数字墨水的处理包括数字墨水的表示、压缩和显示，智能的墨水分析技术，墨水标记和注解技术，墨水的智能操作以及墨水存储和搜索等一系列有关技术。墨水解析技术可以将笔输入的文字串解析成单字，从而将复杂的语句级手写识别化繁为简，分解成语句解析和单字识别两个部分。

微软已实现了数字墨水技术对英文、德文、法文、韩文、日文、简体和繁体中文等语言的支持。

Windows XP Tablet PC Edition拥有强大而简单的数字化墨水控件和 API

习题

4.1 请列出你所熟悉的软件系统（例如Microsoft Office ）中涉及到的交互技术，若有本章中没有提及的交互技术，则对其进行进一步分析。

4.2 修改例 2 的代码，使之能识别中文。 4.3 测试一下 Windows XP自带的语音识别程序，看

其识别率能达到多少。 4.4 在 Windows XP 操作系统下，使用 Microsoft

Word ，可以通过移动鼠标使用手写体输入文字。测试一下识别率。

4.5 修改例 3 中的代码，可以打开以前保存的 ink文件，继续创作。

第 4 章交互技术

Documents

Transcript of 第 4 章交互技术

第 4 章 交互技术

Documents

Transcript of 第 4 章 交互技术

第 4 章交互技术

Transcript of 第 4 章交互技术