流媒体 5——MPEG声音
1. 听觉系统的感知特性:
MPEG声音的数据压缩和编码不是依据波形本身的相关性和模拟人的发音器官的特性,而是利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为感知声音编码。
许多科学工作者一直在研究听觉系统对声音的感知特性,下面介绍已经用在MPEG Audio压缩编码算法中的三个特性:响度、音高和掩蔽效应。
1.1. 对响度的感知
声音的响度就是声音的强弱。在物理上,声音的响度使用客观测量单位来度量,即dyn/cm2(达因/平方厘米)(声压)或W/cm2(瓦特/平方厘米)(声强)。在心理上,主观感觉的声音强弱使用响度级“方(phon)”或者“宋(sone)”来度量。这两种感知声音强弱的计量单位是完全不同的两种概念,但是它们之间又有一定的联系。
当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为“听阈”。例如,1 kHz纯音的声强达到10-16w/cm2(定义成零dB声强级)时,人耳刚能听到,此时的主观响度级定为零方。实验表明,听阈是随频率变化的。测出的“听阈—频率”曲线如图所示。图中最靠下面的一根曲线叫做“零方等响度级”曲线,也称“绝对听阈”曲线,即在安静环境中,能被人耳听到的纯音的最小值。
另一种极端的情况是声音强到使人耳感到疼痛。实验表明,如果频率为1 kHz的纯音的声强级达到120 dB左右时,人的耳朵就感到疼痛,这个阈值称为“痛阈”。对不同的频率进行测量,可以得到“痛阈—频率”曲线,如图中最靠上面所示的一根曲线。这条曲线也就是120方等响度级曲线。在“听阈—频率”曲线和“痛阈—频率”曲线之间的区域就是人耳的听觉范围。这个范围内的等响度级曲线也是用同样的方法测量出来的。由图9-01可以看出,1 kHz的10 dB的声音和200 Hz的30 dB的声音,在人耳听起来具有相同的响度。图说明人耳对不同频率的敏感程度差别很大,其中对2 kHz~4 kHz范围的信号最为敏感,幅度很低的信号都能被人耳听到。而在低频区和高频区,能被人耳听到的信号幅度要高得多。
“听阈—频率”曲线
1.2. 对音高的感知
客观上用频率来表示声音的音高,其单位是Hz。而主观感觉的音高单位则是“美(Mel)”,主观音高与客观音高的关系是
其中的单位为Hz,这也是两个既不相同又有联系的单位。
人耳对响度的感觉有一个范围,即从听阈到痛阈。同样,人耳对频率的感觉也有一个范围。人耳可以听到的最低频率约20
Hz,最高频率约18000 Hz。正如测量响度时是以1 kHz纯音为基准一样,在测量音高时则以40
dB声强为基准,并且同样由主观感觉来确定。测量主观音高时,让实验者听两个声强级为40
dB的纯音,固定其中一个纯音的频率,调节另一个纯音的频率,直到他感到后者的音高为前者的两倍,就标定这两个声音的音高差为两倍。实验表明,音高与频率之间也不是线性关系。测出的“音高—频率”曲线如图所示。
“音高—频率”曲线
1.3. 掩蔽效应
一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(masking
tone),后者称为被掩蔽声音(masked tone)。掩蔽可分成频域掩蔽和时域掩蔽。(1). 频域掩蔽
一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽(simultaneous
masking)。如图所示,一个声强为60 dB、频率为1000 Hz的纯音,另外还有一个1100
Hz的纯音,前者比后者高18 dB,在这种情况下我们的耳朵就只能听到那个1000
Hz的强音。如果有一个1000 Hz的纯音和一个声强比它低18 dB的2000
Hz的纯音,那么我们的耳朵将会同时听到这两个声音。要想让2000
Hz的纯音也听不到,则需要把它降到比1000 Hz的纯音低45 dB。一般来说,弱纯音离强纯音越近就越容易被掩蔽。
声强为60 dB、频率为1000
Hz纯音的掩蔽效应在图中的一组曲线分别表示频率为250
Hz、1 kHz、4 kHz和8 kHz纯音的掩蔽效应,它们的声强均为60 dB。从图中可以看到:①在250
Hz、1 kHz、4 kHz和8 kHz纯音附近,对其他纯音的掩蔽效果最明显,②低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显。
不同纯音的掩蔽效应曲线
由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了“临界频带(critical
band)”的概念。通常认为,在20Hz到16 kHz范围内有24个临界频带,如表所示。临界频带的单位叫Bark(巴克),
1 Bark = 一个临界频带的宽度
(频率)<
500 Hz的情况下, 1 Bark »/100
(频率)
> 500 Hz的情况下, 1Bark » 9 + 4log(/1000)
以上我们讨论了响度、音高和掩蔽效应,尤其是人的主观感觉。其中掩蔽效应尤为重要,它是心理声学模型的基础。
临界频带
临界
频率 (Hz)
临界
频率 (Hz)
频带
低端
高端
宽度
频带
低端
高端
宽度
0
0
100
100
13
2000
2320
320
1
100
200
100
14
2320
2700
380
2
200
300
100
15
2700
3150
450
3
300
400
100
16
3150
3700
550
4
400
510
110
17
3700
4400
700
5
510
630
120
18
4400
5300
900
6
630
770
140
19
5300
6400
1100
7
770
920
150
20
6400
7700
1300
8
920
1080
160
21
7700
9500
1800
9
1080
1270
190
22
9500
12000
2500
10
1270
1480
210
23
12000
15500
3500
11
1480
1720
240
24
15500
22050
6550
12
1720
2000
280
(2). 时域掩蔽
除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,并且称为时域掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking),如图所示。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽很短,只有大约5~20
ms,而滞后掩蔽可以持续50~200 ms。这个区别也是很容易理解的。
时域掩蔽
2. 感知声音编码:
2.1 感知子带编码
输入信号通过“滤波器组(filter bank)”进行滤波之后被分割成许多子带
每个子带信号对应一个“编码器”,然后根据心理 声学模型对每个子带信号进行量化和编码,输出 量化信息和经过编码的子带样本
通过“多路复合器”把每个子带的编码输出按照传 输或者存储格式的要求复合成数据位流(bit stream)
解码过程与编码过程相反
2.2 杜比数字
前称为Dolby AC-3,简称AC-3
1992年杜比实验室开发的数字声音编码系统,采用了感知编码技术
多声道环绕声格式,现已作为国际标准
杜比数字可提供6个声音通道,称为5.1声道,即左、中、
右、后左、后右5个主声道和1个低音加强声道
声音数据的位速率通常为64~448 kbps
立体声的位速率通常为192 kbps
5.1声道的位速率通常为384 kbps,但可高达640 kbps
已用在DVD影视盘、DTV(数字电视)、HDTV和其
他娱乐产品中
3. MPEG-1 Audio
4. MPEG-2
4.1. MPEG-2 声音压缩标准
MPEG-2标准委员会定义了两种声音数据压缩标准
MPEG-2 Audio (ISO/IEC 13818-3)[12]
也称MPEG-2 Multichannel Audio (多通道声音)
因为它与MPEG-1 Audio是兼容的,所以又称为MPEG- 2 BC (Backward Compatible)标准
MPEG-2 AAC (ISO/IEC 13818-7)[22]
因为它与MPEG-1 Audio格式不兼容,因此通常把它称 为非后向兼容MPEG-2 NBC(Non-Backward-Compatible) 标准
4.2. MPEG-2 Audio
MPEG-2 Audio和MPEG-1 Audio标准都使用相同种类的编译码器,层-1, -2和-3的结构也相同。MPEG-2声音标准与MPEG-1标准相比,MPEG-2做了如下扩充:
①增加了16 kHz, 22.05 kHz和24 kHz采样频率,
②扩展了编码器的输出速率范围,由32~384 kb/s扩展到8~640 kb/s,
③增加了声道数,支持5.1声道和7.1声道的环绕声。此外MPEG-2还支持Linear PCM(线性PCM)和Dolby AC-3(Audio Code Number 3)编码。
MPEG-1和-2的声音数据规格
|
参数名称 |
Linear PCM |
Dolby AC-3 |
MPEG-2 Audio |
MPEG-1 Audio |
|
采用频率 |
48/96 kHz |
32/44.1/48 kHz |
16/22.05/24/ 32/44.1/48 kHz |
32/44.1/48 kHz |
|
样本精度 |
16/20/24 |
压缩(16 bits) |
压缩(16 bits) |
16 |
|
最大数据传输率 |
6.144 Mb/s |
448 kb/s |
8~640 kb/s |
32~448 kb/s |
|
最大声道数 |
8 |
5.1 |
5.1/7.1 |
2 |
MPEG-2
Audio的“5.1环绕声”也称为“3/2-立体声加LFE”,其中的“.1”就是指LFE声道。它的含义是播音现场的前面可有3个喇叭声道(左、中、
右),后面可有2个环绕声喇叭声道,LFE(low frequency
effects)是低频音效的加强声道,如图所示。7.1声道环绕立体声与5.1类似,如图9-19(b)所示。

4.3. MPEG-2 AAC
5. MPEG-4 Audio
包罗万象的声音对象编码标准(ISO-IEC 14496-3) ,
从话音、声音到合成语音的编码。企图达到的数据速率和应用目标见图
该标准为每个声道规定的数据速率为2~64 kbps, 并为此定义了三种类型的编码器,称为“编码工具 (coding tool)”
在数据速率为2~6 kbps范围内,可使用参数编码 (parametric coding),声音信号的采样频率使用8 kHz
在数据速率为6~24 kbps的范围内,可使用码激励线性预 测技术(code excited linear prediction,CELP),声音信号的 采样频率使用8kHz或16 kHz
在数据速率为16~64 kbps范围内,可使用时间/频率编码 (time/frequency coding)或称为“基于变换的普通声音编码 (transform-based general audio coding)”技术,如用MPEG-2 AAC经过改进的MPEG-4 AAC,支持8~96 kHz的声音信 号采样频率
流媒体 5——MPEG声音的更多相关文章
- 流媒体 6——MPEG电视
1.电视图像的数据率 1.1 ITU-R BT.601标准数据率 按照奈奎斯特(Nyquist)采样理论,模拟电视信号经过采样(把连续的时间信号变成离散的时间信号)和量化 (把连续的幅度变成离散的幅度 ...
- Firefox下载自动保存
profile.setPreference("browser.download.folderList", 2); profile.setPreference("brows ...
- 常见MIME类型例表
常见MIME类型例表: 序号 内容类型 文件扩展名 描述 1 application/msword doc Microsoft Word 2 application/octet-stream bin ...
- 让浏览器下载文件http头部
网站提供下载服务时经常需要实现一个强制下载功能(即强制弹出下载对话框),并且文件名保持和用户之前上传时相同. 效果如下图: Content-Disposition 使用 HTTP Header 的 ...
- MIME类型-服务端验证上传文件的类型
MIME的作用 : 使客户端软件,区分不同种类的数据,例如web浏览器就是通过MIME类型来判断文件是GIF图片,还是可打印的PostScript文件. web服务器使用MIME来说明发送数据的种类, ...
- 开源安卓Android流媒体音视频播放器实现声音自动停止、恢复、一键静音功能源码
本文转自EasyDarwin团队John的博客:http://blog.csdn.net/jyt0551/article/details/60802145 我们在开发安卓Android流媒体音视频播放 ...
- M-JPEG和MPEG-4的区别 M-JPEG VS MPEG
http://blog.sina.com.cn/s/blog_4b357b300100gre9.html M-JPEG VS MPEG http://blog.csdn.net/bluesky_sun ...
- 流媒体知识 wiki
媒体业务是网络的主要业务之间.尤其移动互联网业务的兴起,在运营商和应用开发商中,媒体业务份量极重,其中媒体的编解码服务涉及需求分析.应用开发.释放license收费等等.最近因为项目的关系,需要理清媒 ...
- Live555流媒体服务器编译(Windows下)
最近在回顾之前做过的相关项目,其中包括live555流媒体服务器相关,今天先把live555开源框架在Windows下的编译方法记录一下. live555是一套使用使用开放的标准协议(RTP/RTCP ...
随机推荐
- [CentOS7] 通过vncviewer屏幕扩展
方法一:通过vncserver来调整分辨率 这是博主最近才发现的,原来还可以直接通过在服务端通过设置vncserver来调整分辨率,方法如下: 接下来,我们要进行vncviewer屏幕扩展的设置: 点 ...
- [CentOS7] 常用工具 之 差异备份工具 rdiff-backup
差异备份: rdiff-backup ==> 用于累积差异备份,加上自己写的shell script,每日备份,效果更佳 先用yum search rdiff-backup看看是否yum源含有r ...
- (转)web端测试环境的搭建(tomcat)
C/s架构,常见的QQ这种结构的程序是有服务器来提供服务的,客户端来使用服务:B/S架构不需要安装客户端,只需要浏览器就可以了例如QQ农场,BS架构的程序在更新维护的时候,不需要更新客户端,仅在服务器 ...
- 关于Android模块化我有一些话不知当讲不当讲
关于Android模块化我有一些话不知当讲不当讲 最近公司一个项目使用了模块化设计,本人参与其中的一个小模块开发,但是整体的设计并不是我架构设计的,开发半年有余,在此记录下来我的想法. 关于Andro ...
- 验证您的Shell为Bash
内容介绍 在管理Linux服务器时,命令行操作无疑是最为耗时的环节.对大多数用户而言,这意味着将大量时间用于操作Bash shell. 尽管大多数发行版都提供默认的用户类型与root prompts, ...
- AT2382 A or...or B Problem
传送门 还是看题解的啦 先考虑一个显而易见的结论:A和B二进制下最高的几位相同是没用的(设去掉的那些位之和为sum) 然后我们设\(d\)为二进制下从高位到低位第一位不相同的,\(k\)为B从高位到低 ...
- 由奇葩cookie导致服务器500来认识cookie
问题:cookie中文会导致服务器报500错误. 一:cookie的特点 1.以键值对的形式出现的,比如:a=b;b=c 2.中文的值需要转义 cookie的例子 <!DOCTYPE html& ...
- LDAP--对某些AD属性值是字节数组byte[]情况的类型转换方法
//BitConverter.ToBoolean((searchResult.Properties["mDBUseDefaults"][0] as byte[]), 0); row ...
- Angular2.0的学习(二)
第二节课 1.了解路由的基础知识 2.子路由.辅助路由.路由守卫和保护路由 路由守卫: CanActivate:处理导航到某路由的情况 CanDectivate:处理从当前路由离开的情况 Resolv ...
- 分析师分析业务维度,(个人制作分析思维导图Xmind)
个人在咨询公司做过分析师(分析师必须懂运营),该咨询公司主要针对电商,零售 结合公司的搭建的CRM系统及报表体系,列了个分析师分析维度,搭建公司自己的BI系统 个人经验:分析师的分析思维可以多看看艾瑞 ...


的单位为Hz,这也是两个既不相同又有联系的单位。


(频率)<
/1000)