AC3 overview
1.AC3 encode overview
AC3 encoder的框图如下:

AC3在频域采用粗量化(coarsely quantizing)来获取较高的压缩率。
1).输入PCM 经过MDCT变换到频域,将时域信号转换成频率系数。512个sample 转换成256个频率系数。
2).将每个频率系数表示成二进制的指数(exponent)和尾数(mantissa)形式. exponent代表频率系数的envelop。
3).使用envelop来决定mantissa需要多少bit数来encode
4).6个audioblock (1536 sample)的envelop和mantissa加上header(SI,BSI)和CRC formatted成一个frame.如下:

2.AC-3 encode算法overview:
1). exponent coding.
AC-3 bitstream主要包含原始信号的频率系数,频率系数由exponent和mantissa组成。
frequece_coefficient [k] = mantissa[k] >> exponent[k] = mantissa[k]*2^(-exponent[k]).
exponent 是frequence confficient中leading zero 的个数,主要描述频谱的evelop.
exponent采用差分编码, 并非所有的exponent都需要编码,而是可以通过不同的exponent strategy,将多个exponent组成group,用一个group value来表示多个exponent,达到更高的压缩率。
2). Bit allocation
Bit allocation通过人耳masking curve分析音频信号的频率系数的envelop,来确定mantissa需要多少bit 来encode。
3).Coulping
人耳对高频信号相位不敏感的特性,对高频部分采用coupling来由各个channel的高频部分产生coupling channel, coupling channel中包含各个channel的平均频率系数,每个coupled channel的高频部分不压缩,只保留各自的一组coupling coordinates 用以还原出原始channel的频率系数。
4).Rematrix
当两个channel 的信号有很大的相似性(highly correlated)时,rematrix技术并不压缩两个channel的原始信息,而是压缩两个channel的和与差。

quantization 和data packing都是基于left'和right'.如果left/right很相似的话,right'就几乎为0,那可以使用更少的bit进行压缩。
5).MDCT
采用MDCT进行时频转换,x[n]为时域信号,采用long window时N为512,short window时N为256.


3.AC-3 decode overview.
decode 流程如下:

1)dialog norm
当音频来源于不同的source,在平台端接收到音频信号时会有很明显的loudness变化。比如说movie和广告间切换,不同电视频道的切换,节目的loudness会变化较大。
AC-3使用dialog normalization来标识当前bitstream的loudness.
dianorm存在于BSI信息中,占用5个bit,范围为1~31 db,标识当前bitstream中正常人声对话的level。
AC-3 decoder并不直接使用dianorm. 接收音频信号的平台端的音量调节系统会利用dianorm来调节音量。
通常音量调节系统会根据用户的输入来使得平台达到期望的loundess或者SPL(sound pressure level),调节系统的gain来达到用户期望的音量.
但是如果是AC-3 bitstream, 系统的gain值与用户期望的dialog 的SPL和bitstream中dianorm同时相关联。
例如,如果用户想要调节音量(节目中dialog level)达到67 db SPL(利用dianorm,对任何source的AC-3 bitstream,音量调节系统都能达到准确的SPL),
当播放一个high quality的娱乐节目时,dianorm为25 db。调节系统的gain值使得full scale signal(信号的最大level)达到92 db SPL (92 - 25 =67 db).
当播放一个广告节目时,dianorm为15db,调节系统的gain值使得100%的digital level (信号最大level)达到82 db SPL,那么广告中的dialog 的level为82-15 = 67 db SPL.
2)DRC
一个high quality的节目(比如film),通常音频会由wide dynamic range 的声音mix在一起。以dialog level 作为reference,爆炸声比dialog level高20db以上,风吹动树叶的声音比dialog level低50db以上。
在大部分听众而言,如果声音非常大,会有不好的听觉体验。而听众会想要听到非常微弱的声音,所以需要将loudest sound做compress downward,而quiet sound做bring upward.那么wide dynamic range 将会被compress.
AC-3 coding技术将dynamic range control value(dynrng)压到bitstream中,使得听众获得更好的听觉体验。AC-3 encoder产生一系列的dynrng,每个dynrng在decoder端用于一个或多个audio block作为gain来进行DRC.
对于听众来说,希望将loudest信号往dialog level方向往下调,而quiet信号往dialog level方向向上调。而对于那些与dialog level具有相同loudness的信号不做调节。
例如:对于一部电影,dialog level为-25 db,爆炸声达到0db,微弱的声音低于dialog level 50 db为-75db. AC-3 encoder将产生一组dynrng, audio level高于dialog level时, dynrng 标识负的gain. audio level低于dialog level时, dynrng标识正的gain. 0db的信号,对应dynrng标识降低15db。微弱的声音dynrng标识增加20db。
当用户想要听到所有的声音,并且希望不影响到其他人,AC-3 decoder可以使用默认的full compression方式做DRC。当用户将dialog level调节到 60 db SPL时,爆炸声为70 db SPL(本来是高于dialog level 25 db(80db SPL),但是dynrng降低15 db).微弱的声音为30 db SPL(本来是低于dialog level 50 db (10 db SPL), 但是dynrng提高20 db).那么原本的dynamic range变为70-30 = 40 db。
3)downmix
在解码的平台端,通常speaker的数目与bitstream的channel并不匹配。比如说bitstream是5.1 ch,但是平台只有两个speaker.这时候需要做downmix.
5.1 ch到2ch 做LoRo downmix:

clev 和slev是由BSI信息中的cmixlev和surmixlev字段标识的downmix 系数。
为了防止downmix 后信号的overflow,实际的downmix系数需要乘以一个scale.例如:clev和slev都是0.707时,每个downmix 系数需要乘以1/(1+0.707+0.707)=0.4143
4 ch到2ch做LoRo downmix

5.1 ch到2ch做LtRt downmix:

为了防止overflow, downmix系数都需要乘以1/(1+0.707+0.707+0.707)=0.3204
4ch到2ch做LtRt downmix:

AC3 overview的更多相关文章
- AC3 exponent coding
1.overview AC-3编码的audio信号中的频率系数由浮点型数据表示,并将其归一化到0~1之间. transform coefficient由exponent和mantissa组成. 设tr ...
- [原] KVM 虚拟化原理探究(1)— overview
KVM 虚拟化原理探究- overview 标签(空格分隔): KVM 写在前面的话 本文不介绍kvm和qemu的基本安装操作,希望读者具有一定的KVM实践经验.同时希望借此系列博客,能够对KVM底层 ...
- Activity之概览屏幕(Overview Screen)
概览屏幕 概览屏幕(也称为最新动态屏幕.最近任务列表或最近使用的应用)是一个系统级别 UI,其中列出了最近访问过的 Activity 和任务. 用户可以浏览该列表并选择要恢复的任务,也可以通过滑动清除 ...
- Atitit.自然语言处理--摘要算法---圣经章节旧约39卷概览bible overview v2 qa1.docx
Atitit.自然语言处理--摘要算法---圣经章节旧约39卷概览bible overview v2 qa1.docx 1. 摘要算法的大概流程2 2. 旧约圣经 (39卷)2 2.1. 与古兰经的对 ...
- Overview of OpenCascade Library
Overview of OpenCascade Library eryar@163.com 摘要Abstract:对OpenCascade库的功能及其实现做简要介绍. 关键字Key Words:Ope ...
- Apache Sqoop - Overview——Sqoop 概述
Apache Sqoop - Overview Apache Sqoop 概述 使用Hadoop来分析和处理数据需要将数据加载到集群中并且将它和企业生产数据库中的其他数据进行结合处理.从生产系统加载大 ...
- BOOST.Asio——Overview
=================================版权声明================================= 版权声明:原创文章 谢绝转载 啥说的,鄙视那些无视版权随 ...
- Spring overview
引子 接触Java很多年了,各种framework,却从未系统的去了解过.最近突然想清楚一件事,就是当下的目标——Focus on Java-based RESTful WS & JS.而之于 ...
- overview
[1] Don’t panic! All will become clear in time; [2] You don’t have to know every detail of C++ to wr ...
随机推荐
- Git仓库创建---克隆仓库---初始提交代码
1.在Git上创建仓库,添加成员,默认分支是“master”,仓库路径假设为http://192.168.1.1/root/project.git 2.在sourceTree上,点击“克隆”,输入上面 ...
- 被遗忘的宝藏-LaTeX发行版自带字体&自己一些字体心得
KMC大作,如果用xelatex的话,这些知识仅仅作为大家了解.希望对于学习latex有所裨益.原文地址:http://bbs.ctex.org/viewthread.php?tid=43596&am ...
- 如何在macOS下安装geoserver
macOS 下的编译包 如果是使用安装文件,请查看官网文档,如果想要部署在已有的tomcat服务下,请查看网页压缩包章节. Web archive. An alternate way of insta ...
- DVR
DVR,全称为Digital Video Recorder(硬盘录像机),即数字视频录像机,相对于传统的模拟视频录像机,采用硬盘录像,故常常被称为硬盘录像机.它是一套进行图像计算存储处理的计算机系统, ...
- 全面了解 Java 原子变量类
目录 一.原子变量类简介 二.基本类型 三.引用类型 四.数组类型 五.属性更新器类型 参考资料
- 【Unity|C#】基础篇(7)——属性(Property)/ 索引器(Indexer)
[学习资料] <C#图解教程>(第6章):https://www.cnblogs.com/moonache/p/7687551.html 电子书下载:https://pan.baidu.c ...
- ❀❀ selenium 学习网站 ★★★★★
http://edu.51cto.com/course/course_id-7320.html Selenium IDE WEB自动化测试入门视频课程(上)(共10课时)_在线自学视频教程_51C ...
- 《NVMe-over-Fabrics-1_0a-2018.07.23-Ratified》阅读笔记(4)-- Controller Architecture
4 Controller架构 NVMe over Fabrics使用与NVMe基础规格说明书中定义相同的controller架构.这包括主机和controller之间使用SQ提交队列和CQ完成队列来执 ...
- C语言各语句的作用
#include <stdio.h> 在使用标准函数库中的输入输出函数时,编译系统要求程序提供有关的信息(例如对这些输入输出函数的声明),#include<stdio.h>的作 ...
- java内部类概念
一.成员内部类作为外部类的成员存在的类,则称之为成员内部类 public class OuterClass{ public class InnerClass{ } } 成员内部类样例 成员内部类具有如 ...