多媒体技术

18
多多 多多 多多 多多 中中中中中中中中中中中中中 中中中 中中中中中中中中中中中中中 中中中

description

多媒体技术. 中南大学信息科学与工程学院 黄东军. 第八章 MPEG 音频. 1 听觉系统的感知特性. 1.1 对响度的感知. 1 听觉系统的感知特性. 1.1 对响度的感知 观察结论: 存在听阈和听觉盲区 存在痛阈 听觉系统对 2kHz~4KHz 的声音最敏感. 1 听觉系统的感知特性. 1.2 对音高的感知. Mel = 1000 log 2 (f + 1). 观察结论: 听觉系统对频率的感知与声音的客观频率成非线性关系。. 1 听觉系统的感知特性. 1.3 掩蔽效应. - PowerPoint PPT Presentation

Transcript of 多媒体技术

Page 1: 多媒体技术

多媒体技术多媒体技术

中南大学信息科学与工程学院 黄东军中南大学信息科学与工程学院 黄东军

Page 2: 多媒体技术

第八章 第八章 MPEGMPEG 音频音频

Page 3: 多媒体技术

1 1 听觉系统的感知特听觉系统的感知特性性

1.1 对响度的感知

Page 4: 多媒体技术

1 1 听觉系统的感知特听觉系统的感知特性性

1.1 对响度的感知

观察结论: 存在听阈和听觉盲区 存在痛阈 听觉系统对 2kHz~4KHz 的声音最敏感

Page 5: 多媒体技术

1 1 听觉系统的感知特听觉系统的感知特性性

1.2 对音高的感知

观察结论: 听觉系统对频率的感知与声音的客观频率成非线性关系。

Mel = 1000 log 2 (f + 1)

Page 6: 多媒体技术

1 1 听觉系统的感知特听觉系统的感知特性性

1.3 掩蔽效应当一个强纯音和一个弱纯音的频率接近时,听觉系统就会失去对弱纯音的感知,这种现象称为掩蔽效应。

Page 7: 多媒体技术

1 1 听觉系统的感知特听觉系统的感知特性性

1.3 掩蔽效应观察结论: 低频音较之高频音有更强的掩蔽作用。 存在若干个(通常为 24 个)所谓掩蔽效应带(频率区间),称为临界频带( critical band )。

Page 8: 多媒体技术

2 MPEG Audio2 MPEG Audio 的心理声学模型的心理声学模型 由于存在听觉阈值,因此当输入信号的电平地低于听觉阈值时,系统就去掉这些信号,从而减少了音频数据量。 由于存在掩蔽效应,因此系统可以设法消除被掩蔽的声音信号(电平),这也降低了数据量。 由于听觉系统对 2kHz~4KHz 的声音比较敏感,因此系统可以提高对这一部分信号的编码强度,而降低其他频段信号的编码强度。

Page 9: 多媒体技术

3 MPEG Audio3 MPEG Audio 编解码系统编解码系统3.1 系统结构

MPEG Audio Codec = Sub-Band Codec + 心理声学模型

Page 10: 多媒体技术

3 MPEG Audio3 MPEG Audio 编解码系统编解码系统3.2 部件分析 多相滤波器组

作用:将输入信号分成 32 个频率子带。

子带划分方法:线性划分;按临界频带划分

Page 11: 多媒体技术

3 MPEG Audio3 MPEG Audio 编解码系统编解码系统3.2 部件分析 编码器

Page 12: 多媒体技术

3 MPEG Audio3 MPEG Audio 编解码系统编解码系统3.2 部件分析 心理声学模型

Page 13: 多媒体技术

3 MPEG Audio3 MPEG Audio 编解码系统编解码系统3.2 部件分析 心理声学模型如何作用于编码器

核心思想:计算所谓信掩比( Signal-to-Mask Ratio, SMR ),通过 SMR 来调节量化深度。

SMR = 掩蔽阈值(最小)掩蔽音

例如:

掩蔽阈值 SMR被掩蔽音( noise ) 降低量化深度

Page 14: 多媒体技术

3 MPEG Audio3 MPEG Audio 编解码系统编解码系统3.3 MPEG Audio 的编码分层

Page 15: 多媒体技术

3 MPEG Audio3 MPEG Audio 编解码系统编解码系统3.3 MPEG Audio 的编码分层 层 1

- 每帧数据包含 384 个样本( 32 x 12 )

- 采用线性子带划分

- 使用频域掩蔽特性

- SMR 使用全局掩蔽阈值

Page 16: 多媒体技术

3 MPEG Audio3 MPEG Audio 编解码系统编解码系统3.3 MPEG Audio 的编码分层 层 2

- 每帧数据包含 1152 个样本( 32 x 12 x 3 )

- 采用线性子带划分

- 使用频域掩蔽和时域掩蔽特性

- SMR 使用全局掩蔽阈值

Page 17: 多媒体技术

3 MPEG Audio3 MPEG Audio 编解码系统编解码系统3.3 MPEG Audio 的编码分层 层 3 (即 MP3 )

- 每帧数据包含 1152 个样本( 32 x 12 x 3 )

- 采用临界频带划分子带

- 使用频域掩蔽和时域掩蔽特性,还考虑了立体声冗余特性

- 增加使用 Huffman 编码进一步压缩数据

Page 18: 多媒体技术

Thank you !Thank you !