1. 听觉系统的感知特性:

  MPEG声音的数据压缩和编码不是依据波形本身的相关性和模拟人的发音器官的特性,而是利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为感知声音编码。 

许多科学工作者一直在研究听觉系统对声音的感知特性,下面介绍已经用在MPEG Audio压缩编码算法中的三个特性:响度、音高和掩蔽效应。

1.1. 对响度的感知

  声音的响度就是声音的强弱。在物理上,声音的响度使用客观测量单位来度量,即dyn/cm2(达因/平方厘米)(声压)或W/cm2(瓦特/平方厘米)(声强)。在心理上,主观感觉的声音强弱使用响度级“方(phon)”或者“宋(sone)”来度量。这两种感知声音强弱的计量单位是完全不同的两种概念,但是它们之间又有一定的联系。

  当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为“听阈”。例如,1 kHz纯音的声强达到10-16w/cm2(定义成零dB声强级)时,人耳刚能听到,此时的主观响度级定为零方。实验表明,听阈是随频率变化的。测出的“听阈—频率”曲线如图所示。图中最靠下面的一根曲线叫做“零方等响度级”曲线,也称“绝对听阈”曲线,即在安静环境中,能被人耳听到的纯音的最小值。

  另一种极端的情况是声音强到使人耳感到疼痛。实验表明,如果频率为1 kHz的纯音的声强级达到120 dB左右时人的耳朵就感到疼痛,这个阈值称为“痛阈”。对不同的频率进行测量,可以得到“痛阈—频率”曲线,如图中最靠上面所示的一根曲线。这条曲线也就是120方等响度级曲线。在“听阈—频率”曲线和“痛阈—频率”曲线之间的区域就是人耳的听觉范围。这个范围内的等响度级曲线也是用同样的方法测量出来的。由图9-01可以看出,1 kHz的10 dB的声音和200 Hz的30 dB的声音,在人耳听起来具有相同的响度。图说明人耳对不同频率的敏感程度差别很大,其中对2 kHz~4 kHz范围的信号最为敏感,幅度很低的信号都能被人耳听到。而在低频区和高频区,能被人耳听到的信号幅度要高得多。

“听阈—频率”曲线

  

1.2. 对音高的感知

  客观上用频率来表示声音的音高,其单位是Hz。而主观感觉的音高单位则是“美(Mel)”,主观音高与客观音高的关系是

          
  其中的单位为Hz,这也是两个既不相同又有联系的单位。

  人耳对响度的感觉有一个范围,即从听阈到痛阈。同样,人耳对频率的感觉也有一个范围。人耳可以听到的最低频率约20
Hz,最高频率约18000 Hz。正如测量响度时是以1 kHz纯音为基准一样,在测量音高时则以40
dB声强为基准,并且同样由主观感觉来确定。测量主观音高时,让实验者听两个声强级为40
dB的纯音,固定其中一个纯音的频率,调节另一个纯音的频率,直到他感到后者的音高为前者的两倍,就标定这两个声音的音高差为两倍。实验表明,音高与频率之间也不是线性关系。测出的“音高—频率”曲线如图所示。

“音高—频率”曲线

1.3. 掩蔽效应

  一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(masking
tone),后者称为被掩蔽声音(masked tone)。掩蔽可分成频域掩蔽和时域掩蔽。

(1). 频域掩蔽

  一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽(simultaneous
masking)。如图所示,一个声强为60 dB、频率为1000 Hz的纯音,另外还有一个1100
Hz的纯音,前者比后者高18 dB,在这种情况下我们的耳朵就只能听到那个1000
Hz的强音。如果有一个1000 Hz的纯音和一个声强比它低18 dB的2000
Hz的纯音,那么我们的耳朵将会同时听到这两个声音。要想让2000
Hz的纯音也听不到,则需要把它降到比1000 Hz的纯音低45 dB。一般来说,弱纯音离强纯音越近就越容易被掩蔽。

声强为60 dB、频率为1000
Hz纯音的掩蔽效应

  在图中的一组曲线分别表示频率为250
Hz、1 kHz、4 kHz和8 kHz纯音的掩蔽效应,它们的声强均为60 dB。从图中可以看到:①在250
Hz、1 kHz、4 kHz和8 kHz纯音附近,对其他纯音的掩蔽效果最明显,②低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显。

不同纯音的掩蔽效应曲线

 

  由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了“临界频带(critical
band)”的概念。通常认为,在20Hz到16 kHz范围内有24个临界频带,如表所示。临界频带的单位叫Bark(巴克),

  • 1 Bark = 一个临界频带的宽度

  • (频率)<
    500 Hz的情况下, 1 Bark » /100

  • (频率)
    > 500 Hz的情况下, 1Bark » 9 + 4log(/1000)

  以上我们讨论了响度、音高和掩蔽效应,尤其是人的主观感觉。其中掩蔽效应尤为重要,它是心理声学模型的基础。

临界频带

临界

频率 (Hz)

临界

频率 (Hz)

频带

低端

高端

宽度

频带

低端

高端

宽度

0

0

100

100

13

2000

2320

320

1

100

200

100

14

2320

2700

380

2

200

300

100

15

2700

3150

450

3

300

400

100

16

3150

3700

550

4

400

510

110

17

3700

4400

700

5

510

630

120

18

4400

5300

900

6

630

770

140

19

5300

6400

1100

7

770

920

150

20

6400

7700

1300

8

920

1080

160

21

7700

9500

1800

9

1080

1270

190

22

9500

12000

2500

10

1270

1480

210

23

12000

15500

3500

11

1480

1720

240

24

15500

22050

6550

12

1720

2000

280

 

 

 

 

(2). 时域掩蔽

  除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,并且称为时域掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking),如图所示。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽很短,只有大约5~20
ms,而滞后掩蔽可以持续50~200 ms。这个区别也是很容易理解的。

时域掩蔽

2. 感知声音编码:

2.1 感知子带编码

       输入信号通过“滤波器组(filter bank)”进行滤波之后被分割成许多子带

     每个子带信号对应一个“编码器”,然后根据心理 声学模型对每个子带信号进行量化和编码,输出 量化信息和经过编码的子带样本

     通过“多路复合器”把每个子带的编码输出按照传 输或者存储格式的要求复合成数据位流(bit stream)

     解码过程与编码过程相反

2.2 杜比数字

   前称为Dolby AC-3,简称AC-3
     1992年杜比实验室开发的数字声音编码系统,采用了感知编码技术

   多声道环绕声格式,现已作为国际标准

     杜比数字可提供6个声音通道,称为5.1声道,即左、中、
右、后左、后右5个主声道和1个低音加强声道

     声音数据的位速率通常为64~448 kbps
       立体声的位速率通常为192 kbps
       5.1声道的位速率通常为384 kbps,但可高达640 kbps

   已用在DVD影视盘、DTV(数字电视)、HDTV和其
他娱乐产品中

3. MPEG-1 Audio

4. MPEG-2

4.1. MPEG-2 声音压缩标准

 MPEG-2标准委员会定义了两种声音数据压缩标准

   MPEG-2 Audio (ISO/IEC 13818-3)[12]

     也称MPEG-2 Multichannel Audio (多通道声音)

     因为它与MPEG-1 Audio是兼容的,所以又称为MPEG- 2 BC (Backward Compatible)标准

   MPEG-2 AAC (ISO/IEC 13818-7)[22]

     因为它与MPEG-1 Audio格式不兼容,因此通常把它称 为非后向兼容MPEG-2 NBC(Non-Backward-Compatible) 标准 

4.2. MPEG-2 Audio

  MPEG-2 Audio和MPEG-1 Audio标准都使用相同种类的编译码器,层-1, -2和-3的结构也相同。MPEG-2声音标准与MPEG-1标准相比,MPEG-2做了如下扩充:

  ①增加了16 kHz, 22.05 kHz和24 kHz采样频率,

  ②扩展了编码器的输出速率范围,由32~384 kb/s扩展到8~640 kb/s,

  ③增加了声道数,支持5.1声道和7.1声道的环绕声。此外MPEG-2还支持Linear PCM(线性PCM)和Dolby AC-3(Audio Code Number 3)编码。

MPEG-1和-2的声音数据规格

参数名称

Linear PCM

Dolby AC-3

MPEG-2 Audio

MPEG-1 Audio

采用频率

48/96 kHz

32/44.1/48 kHz

16/22.05/24/ 32/44.1/48 kHz

32/44.1/48 kHz

样本精度
(每个样本的比特数)

16/20/24

压缩(16 bits)

压缩(16 bits)

16

最大数据传输率

6.144 Mb/s

448 kb/s

8~640 kb/s

32~448 kb/s

最大声道数

8

5.1

5.1/7.1

2

  MPEG-2
Audio的“5.1环绕声”也称为“3/2-立体声加LFE”,其中的“.1”就是指LFE声道。它的含义是播音现场的前面可有3个喇叭声道(左、中、
右),后面可有2个环绕声喇叭声道,LFE(low frequency
effects)是低频音效的加强声道,如图所示。7.1声道环绕立体声与5.1类似,如图9-19(b)所示。

           

4.3. MPEG-2  AAC

5. MPEG-4 Audio

   包罗万象的声音对象编码标准(ISO-IEC 14496-3) ,

    从话音、声音到合成语音的编码。企图达到的数据速率和应用目标见图

   该标准为每个声道规定的数据速率为2~64 kbps, 并为此定义了三种类型的编码器,称为“编码工具 (coding tool)”

     在数据速率为2~6 kbps范围内,可使用参数编码 (parametric coding),声音信号的采样频率使用8 kHz

     在数据速率为6~24 kbps的范围内,可使用码激励线性预 测技术(code excited linear prediction,CELP),声音信号的 采样频率使用8kHz或16 kHz

     在数据速率为16~64 kbps范围内,可使用时间/频率编码 (time/frequency coding)或称为“基于变换的普通声音编码 (transform-based general audio coding)”技术,如用MPEG-2 AAC经过改进的MPEG-4 AAC,支持8~96 kHz的声音信 号采样频率

流媒体 5——MPEG声音的更多相关文章

  1. 流媒体 6——MPEG电视

    1.电视图像的数据率 1.1 ITU-R BT.601标准数据率 按照奈奎斯特(Nyquist)采样理论,模拟电视信号经过采样(把连续的时间信号变成离散的时间信号)和量化 (把连续的幅度变成离散的幅度 ...

  2. Firefox下载自动保存

    profile.setPreference("browser.download.folderList", 2); profile.setPreference("brows ...

  3. 常见MIME类型例表

    常见MIME类型例表: 序号 内容类型 文件扩展名 描述 1 application/msword doc Microsoft Word 2 application/octet-stream bin ...

  4. 让浏览器下载文件http头部

    网站提供下载服务时经常需要实现一个强制下载功能(即强制弹出下载对话框),并且文件名保持和用户之前上传时相同. 效果如下图:  Content-Disposition 使用 HTTP Header 的 ...

  5. MIME类型-服务端验证上传文件的类型

    MIME的作用 : 使客户端软件,区分不同种类的数据,例如web浏览器就是通过MIME类型来判断文件是GIF图片,还是可打印的PostScript文件. web服务器使用MIME来说明发送数据的种类, ...

  6. 开源安卓Android流媒体音视频播放器实现声音自动停止、恢复、一键静音功能源码

    本文转自EasyDarwin团队John的博客:http://blog.csdn.net/jyt0551/article/details/60802145 我们在开发安卓Android流媒体音视频播放 ...

  7. M-JPEG和MPEG-4的区别 M-JPEG VS MPEG

    http://blog.sina.com.cn/s/blog_4b357b300100gre9.html M-JPEG VS MPEG http://blog.csdn.net/bluesky_sun ...

  8. 流媒体知识 wiki

    媒体业务是网络的主要业务之间.尤其移动互联网业务的兴起,在运营商和应用开发商中,媒体业务份量极重,其中媒体的编解码服务涉及需求分析.应用开发.释放license收费等等.最近因为项目的关系,需要理清媒 ...

  9. Live555流媒体服务器编译(Windows下)

    最近在回顾之前做过的相关项目,其中包括live555流媒体服务器相关,今天先把live555开源框架在Windows下的编译方法记录一下. live555是一套使用使用开放的标准协议(RTP/RTCP ...

随机推荐

  1. 2、Jquery_事件

    <!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <title&g ...

  2. jquery筛选元素函数

    jquery筛选元素函数 1.过滤匹配第二个p元素: $("button").click(function(){ $("p").eq(1).css(" ...

  3. php用百度地图API进行逆地址解析

    <?php /** * 根据地理坐标获取国家.省份.城市,及周边数据类(利用百度Geocoding API实现) * 百度密钥获取方法:http://lbsyun.baidu.com/apico ...

  4. 网络应用(3):CDN与P2P的概念

    我前面说了流量的概念,流量是使用网络时经常要考虑的一个因素--如何才能更快的使用流量,如何才能节省流量使用的成本,对于这样的问题,你可能要了解一下什么是cdn,什么是p2p. (1)cdn是什么 cd ...

  5. sqlalchemy字段与mysql数据库字段对应问题

    字段类型是在定义模型时, 对每个 Column 的类型约定. 不同类型的字段类型在输入输出上, 及支持的操作方面, 有所区别. 这里只介绍 sqlalchemy.types.* 中的类型, SQL 标 ...

  6. hdu 1729 Stone Game

    Stone Game HDU - 1729 题意: 给定n个箱子,每个箱子的容量为si,每个箱子里最初有ci个石子,每次放入石子不能超过放入前的石子数的平方,谁无法继续放入石子就算输.   /* 这是 ...

  7. 关于特殊目录如com null无法删除的处理办法

    1.把以下批处理做成一个del.bat放在桌面 del /f /a /q \\?\%1 rd /s /q \\?\%1 2.需要删除的文件或者文件夹拉到这个文件上就可以了 可以删除没有属性项目中没有安 ...

  8. Miller-Rabin素性测试|Pollard's Rho算法

    Miller-Rabin 素性测试 Miller-Rabin 素数测试 一本通上的M-R不透彻啊~ Miller-Rabin是利用随机化算法判断一个数是合数还是素数. 首先,如果一个数N是素数,那么他 ...

  9. h5自定义播放器得实现原理

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  10. web综合案例01

    web综合案例01 ... .... 内容待添加