流媒体 5——MPEG声音

1. 听觉系统的感知特性：

　　MPEG声音的数据压缩和编码不是依据波形本身的相关性和模拟人的发音器官的特性，而是利用人的听觉系统的特性来达到压缩声音数据的目的，这种压缩编码称为感知声音编码。　

许多科学工作者一直在研究听觉系统对声音的感知特性，下面介绍已经用在MPEG Audio压缩编码算法中的三个特性：响度、音高和掩蔽效应。

1.1. 对响度的感知

　　声音的响度就是声音的强弱。在物理上，声音的响度使用客观测量单位来度量，即dyn/cm²(达因/平方厘米)(声压)或W/cm²(瓦特/平方厘米)(声强)。在心理上，主观感觉的声音强弱使用响度级“方(phon)”或者“宋(sone)”来度量。这两种感知声音强弱的计量单位是完全不同的两种概念，但是它们之间又有一定的联系。

　　当声音弱到人的耳朵刚刚可以听见时，我们称此时的声音强度为“听阈”。例如，1 kHz纯音的声强达到10^-16w/cm²(定义成零dB声强级)时，人耳刚能听到，此时的主观响度级定为零方。实验表明，听阈是随频率变化的。测出的“听阈—频率”曲线如图所示。图中最靠下面的一根曲线叫做“零方等响度级”曲线，也称“绝对听阈”曲线，即在安静环境中，能被人耳听到的纯音的最小值。

　　另一种极端的情况是声音强到使人耳感到疼痛。实验表明，如果频率为1 kHz的纯音的声强级达到120 dB左右时，人的耳朵就感到疼痛，这个阈值称为“痛阈”。对不同的频率进行测量，可以得到“痛阈—频率”曲线，如图中最靠上面所示的一根曲线。这条曲线也就是120方等响度级曲线。在“听阈—频率”曲线和“痛阈—频率”曲线之间的区域就是人耳的听觉范围。这个范围内的等响度级曲线也是用同样的方法测量出来的。由图9-01可以看出，1 kHz的10 dB的声音和200 Hz的30 dB的声音，在人耳听起来具有相同的响度。图说明人耳对不同频率的敏感程度差别很大，其中对2 kHz～4 kHz范围的信号最为敏感，幅度很低的信号都能被人耳听到。而在低频区和高频区，能被人耳听到的信号幅度要高得多。

“听阈—频率”曲线

　　

1.2. 对音高的感知

　　客观上用频率来表示声音的音高，其单位是Hz。而主观感觉的音高单位则是“美(Mel)”,主观音高与客观音高的关系是

　　　　　　　　　　
　　其中的单位为Hz，这也是两个既不相同又有联系的单位。

　　人耳对响度的感觉有一个范围，即从听阈到痛阈。同样，人耳对频率的感觉也有一个范围。人耳可以听到的最低频率约20
Hz，最高频率约18000 Hz。正如测量响度时是以1 kHz纯音为基准一样，在测量音高时则以40
dB声强为基准，并且同样由主观感觉来确定。测量主观音高时，让实验者听两个声强级为40
dB的纯音，固定其中一个纯音的频率，调节另一个纯音的频率，直到他感到后者的音高为前者的两倍，就标定这两个声音的音高差为两倍。实验表明，音高与频率之间也不是线性关系。测出的“音高—频率”曲线如图所示。

“音高—频率”曲线

1.3. 掩蔽效应

　　一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(masking
tone)，后者称为被掩蔽声音(masked tone)。掩蔽可分成频域掩蔽和时域掩蔽。

(1). 频域掩蔽

　　一个强纯音会掩蔽在其附近同时发声的弱纯音，这种特性称为频域掩蔽，也称同时掩蔽(simultaneous
masking)。如图所示，一个声强为60 dB、频率为1000 Hz的纯音，另外还有一个1100
Hz的纯音，前者比后者高18 dB，在这种情况下我们的耳朵就只能听到那个1000
Hz的强音。如果有一个1000 Hz的纯音和一个声强比它低18 dB的2000
Hz的纯音，那么我们的耳朵将会同时听到这两个声音。要想让2000
Hz的纯音也听不到，则需要把它降到比1000 Hz的纯音低45 dB。一般来说，弱纯音离强纯音越近就越容易被掩蔽。

声强为60 dB、频率为1000
Hz纯音的掩蔽效应

　　在图中的一组曲线分别表示频率为250
Hz、1 kHz、4 kHz和8 kHz纯音的掩蔽效应，它们的声强均为60 dB。从图中可以看到：①在250
Hz、1 kHz、4 kHz和8 kHz纯音附近，对其他纯音的掩蔽效果最明显，②低频纯音可以有效地掩蔽高频纯音，但高频纯音对低频纯音的掩蔽作用则不明显。

不同纯音的掩蔽效应曲线

　

　　由于声音频率与掩蔽曲线不是线性关系，为从感知上来统一度量声音频率，引入了“临界频带(critical
band)”的概念。通常认为，在20Hz到16 kHz范围内有24个临界频带，如表所示。临界频带的单位叫Bark(巴克)，

1 Bark = 一个临界频带的宽度

(频率)<
500 Hz的情况下, 1 Bark » /100

(频率)
> 500 Hz的情况下, 1Bark » 9 + 4log(/1000)

　　以上我们讨论了响度、音高和掩蔽效应，尤其是人的主观感觉。其中掩蔽效应尤为重要，它是心理声学模型的基础。

临界频带

临界

频率 (Hz)

临界

频率 (Hz)

频带

低端

高端

宽度

频带

低端

高端

宽度

0

0

100

100

13

2000

2320

320

1

100

200

100

14

2320

2700

380

2

200

300

100

15

2700

3150

450

3

300

400

100

16

3150

3700

550

4

400

510

110

17

3700

4400

700

5

510

630

120

18

4400

5300

900

6

630

770

140

19

5300

6400

1100

7

770

920

150

20

6400

7700

1300

8

920

1080

160

21

7700

9500

1800

9

1080

1270

190

22

9500

12000

2500

10

1270

1480

210

23

12000

15500

3500

11

1480

1720

240

24

15500

22050

6550

12

1720

2000

280

　

　

　

　

(2). 时域掩蔽

　　除了同时发出的声音之间有掩蔽现象之外，在时间上相邻的声音之间也有掩蔽现象，并且称为时域掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking)，如图所示。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说，超前掩蔽很短，只有大约5～20
ms，而滞后掩蔽可以持续50～200 ms。这个区别也是很容易理解的。

时域掩蔽

2. 感知声音编码：

2.1 感知子带编码

　　　　　　　输入信号通过“滤波器组(filter bank)”进行滤波之后被分割成许多子带

　　　　 每个子带信号对应一个“编码器”,然后根据心理声学模型对每个子带信号进行量化和编码,输出量化信息和经过编码的子带样本

　　　　 通过“多路复合器”把每个子带的编码输出按照传输或者存储格式的要求复合成数据位流(bit stream)

　　　　 解码过程与编码过程相反

2.2 杜比数字

　　 前称为Dolby AC-3,简称AC-3
　　　　 1992年杜比实验室开发的数字声音编码系统,采用了感知编码技术

　　 多声道环绕声格式,现已作为国际标准

　　　　 杜比数字可提供6个声音通道,称为5.1声道,即左、中、
右、后左、后右5个主声道和1个低音加强声道

　　　　 声音数据的位速率通常为64~448 kbps
　　　　　　 立体声的位速率通常为192 kbps
　　　　　　 5.1声道的位速率通常为384 kbps,但可高达640 kbps

　　 已用在DVD影视盘、DTV(数字电视)、HDTV和其
他娱乐产品中

3. MPEG-1 Audio

4. MPEG-2

4.1. MPEG-2 声音压缩标准

 MPEG-2标准委员会定义了两种声音数据压缩标准

　　 MPEG-2 Audio (ISO/IEC 13818-3)[12]

　　　　 也称MPEG-2 Multichannel Audio (多通道声音)

　　　　 因为它与MPEG-1 Audio是兼容的,所以又称为MPEG- 2 BC (Backward Compatible)标准

　　 MPEG-2 AAC (ISO/IEC 13818-7)[22]

　　　　 因为它与MPEG-1 Audio格式不兼容,因此通常把它称为非后向兼容MPEG-2 NBC(Non-Backward-Compatible) 标准　

4.2. MPEG-2 Audio

　　MPEG-2 Audio和MPEG-1 Audio标准都使用相同种类的编译码器，层-1, -2和-3的结构也相同。MPEG-2声音标准与MPEG-1标准相比，MPEG-2做了如下扩充：

　　①增加了16 kHz, 22.05 kHz和24 kHz采样频率，

　　②扩展了编码器的输出速率范围，由32～384 kb/s扩展到8～640 kb/s，

　　③增加了声道数，支持5.1声道和7.1声道的环绕声。此外MPEG-2还支持Linear PCM(线性PCM)和Dolby AC-3(Audio Code Number 3)编码。

MPEG-1和-2的声音数据规格

参数名称	Linear PCM	Dolby AC-3	MPEG-2 Audio	MPEG-1 Audio
采用频率	48/96 kHz	32/44.1/48 kHz	16/22.05/24/ 32/44.1/48 kHz	32/44.1/48 kHz
样本精度 (每个样本的比特数)	16/20/24	压缩(16 bits)	压缩(16 bits)	16
最大数据传输率	6.144 Mb/s	448 kb/s	8～640 kb/s	32～448 kb/s
最大声道数	8	5.1	5.1/7.1	2

　　MPEG-2
Audio的“5.1环绕声”也称为“3/2-立体声加LFE”，其中的“.1”就是指LFE声道。它的含义是播音现场的前面可有3个喇叭声道(左、中、
右)，后面可有2个环绕声喇叭声道，LFE(low frequency
effects)是低频音效的加强声道，如图所示。7.1声道环绕立体声与5.1类似，如图9-19(b)所示。

4.3. MPEG-2 AAC

5. MPEG-4 Audio

　　 包罗万象的声音对象编码标准(ISO-IEC 14496-3) ,

　　　　从话音、声音到合成语音的编码。企图达到的数据速率和应用目标见图

　　 该标准为每个声道规定的数据速率为2~64 kbps, 并为此定义了三种类型的编码器,称为“编码工具 (coding tool)”

　　　　 在数据速率为2~6 kbps范围内,可使用参数编码 (parametric coding),声音信号的采样频率使用8 kHz

　　　　 在数据速率为6~24 kbps的范围内,可使用码激励线性预测技术(code excited linear prediction,CELP),声音信号的采样频率使用8kHz或16 kHz

　　　　 在数据速率为16~64 kbps范围内,可使用时间/频率编码 (time/frequency coding)或称为“基于变换的普通声音编码 (transform-based general audio coding)”技术,如用MPEG-2 AAC经过改进的MPEG-4 AAC,支持8~96 kHz的声音信号采样频率

流媒体 5——MPEG声音的更多相关文章

流媒体 6——MPEG电视
1.电视图像的数据率 1.1 ITU-R BT.601标准数据率按照奈奎斯特(Nyquist)采样理论,模拟电视信号经过采样(把连续的时间信号变成离散的时间信号)和量化 (把连续的幅度变成离散的幅度 ...
Firefox下载自动保存
profile.setPreference("browser.download.folderList", 2); profile.setPreference("brows ...
常见MIME类型例表
常见MIME类型例表: 序号内容类型文件扩展名描述 1 application/msword doc Microsoft Word 2 application/octet-stream bin ...
让浏览器下载文件http头部
网站提供下载服务时经常需要实现一个强制下载功能(即强制弹出下载对话框),并且文件名保持和用户之前上传时相同. 效果如下图: Content-Disposition 使用 HTTP Header 的 ...
MIME类型－服务端验证上传文件的类型
MIME的作用 : 使客户端软件,区分不同种类的数据,例如web浏览器就是通过MIME类型来判断文件是GIF图片,还是可打印的PostScript文件. web服务器使用MIME来说明发送数据的种类, ...
开源安卓Android流媒体音视频播放器实现声音自动停止、恢复、一键静音功能源码
本文转自EasyDarwin团队John的博客:http://blog.csdn.net/jyt0551/article/details/60802145 我们在开发安卓Android流媒体音视频播放 ...
M-JPEG和MPEG-4的区别 M-JPEG VS MPEG
http://blog.sina.com.cn/s/blog_4b357b300100gre9.html M-JPEG VS MPEG http://blog.csdn.net/bluesky_sun ...
流媒体知识 wiki
媒体业务是网络的主要业务之间.尤其移动互联网业务的兴起,在运营商和应用开发商中,媒体业务份量极重,其中媒体的编解码服务涉及需求分析.应用开发.释放license收费等等.最近因为项目的关系,需要理清媒 ...
Live555流媒体服务器编译（Windows下）
最近在回顾之前做过的相关项目,其中包括live555流媒体服务器相关,今天先把live555开源框架在Windows下的编译方法记录一下. live555是一套使用使用开放的标准协议(RTP/RTCP ...

随机推荐

死磕 java同步系列之开篇
简介同步系列,这是彤哥想了好久的名字,本来是准备写锁相关的内容,但是java中的CountDownLatch.Semaphore.CyclicBarrier这些类又不属于锁,它们和锁又有很多共同点, ...
采用DCT进行图像压缩
一.实验目的:熟悉变换编码的图像压缩方法二.实验内容:以所给图像为例,采用dct进行图像压缩编码,通过改变模板矩阵中非零元素的个数,得到不同缩编码图像, 根据公式 ,编写程序计算原图像和dct变换后 ...
Spark 性能调优零散知识
1. 如果 Spark 中 CPU 的使用率不够高,可以考虑为当前的程序分配更多的 Executor, 或者增加更多的 Worker 实例来充分的使用多核的潜能 2. 适当设置 Partition 分 ...
799C(xjb)
题目链接: http://codeforces.com/problemset/problem/799/C 题意: 有c, d两种货币, 有 n 个货物, 可以用 c 货币或者 d 货币购买, 现在需要 ...
Gradle用户使用指南
转载请事先沟通,未经允许,谢绝转载. 1. 新工具介绍(Introduction) 能够复用代码和资源能够构建几种不同版本参数的应用能够配置.扩展.自定义构建过程1.1 为什么选择Gradle(Why ...
SSM整合文档
SSM整合文档 v2 一. 文件说明文件名描述 spring-servlet.xml 配置SpringMvc框架相关 applicationContext.xml 配置Spring容器 sprin ...
Miller-Rabin素性测试|Pollard's Rho算法
Miller-Rabin 素性测试 Miller-Rabin 素数测试一本通上的M-R不透彻啊~ Miller-Rabin是利用随机化算法判断一个数是合数还是素数. 首先,如果一个数N是素数,那么他 ...
Educational Codeforces Round 48 (Rated for Div. 2) D 1016D Vasya And The Matrix (构造)
D. Vasya And The Matrix time limit per test 2 seconds memory limit per test 256 megabytes input stan ...
SCOJ4427 / TOPOI 4404: Miss Zhao's Graph 解题报告
题目链接 SCOJ TOPOI 题目描述 Problem 给定一个包含n个顶点m条边的带权有向图,找一条边数最多的路径,且路径上的边的权值严格递增.图中可能有重边和自环. Input Data 第一行 ...
黑马SSM项目练习中的Oracle操作

临界	频率 (Hz)			临界	频率 (Hz)
频带	低端	高端	宽度	频带	低端	高端	宽度
0	0	100	100	13	2000	2320	320
1	100	200	100	14	2320	2700	380
2	200	300	100	15	2700	3150	450
3	300	400	100	16	3150	3700	550
4	400	510	110	17	3700	4400	700
5	510	630	120	18	4400	5300	900
6	630	770	140	19	5300	6400	1100
7	770	920	150	20	6400	7700	1300
8	920	1080	160	21	7700	9500	1800
9	1080	1270	190	22	9500	12000	2500
10	1270	1480	210	23	12000	15500	3500
11	1480	1720	240	24	15500	22050	6550
12	1720	2000	280

流媒体 5——MPEG声音

流媒体 5——MPEG声音的更多相关文章

随机推荐

热门专题