网络语音视频技术浅议(附多个demo源码下载)
我们在开发实践中常常会涉及到网络语音视频技术。诸如即时通讯、视频会议、远程医疗、远程教育、网络监控等等,这些网络多媒体应用系统都离不开网络语音视频技术。本人才疏学浅,对于网络语音视频技术也仅仅是略知皮毛,这里只想将自己了解到的一些最基础的知识分享给大家,管中窥豹,略见一斑,更重要的是抛砖引玉,希望更多的朋友们一起来探讨,同时,有讲得不正确的地方也希望大家批评指正。
一.基本流程
无论是即时通讯、视频会议,还是远程医疗、远程教育、网络监控等等系统,都需要获取到远程的语音、视频信息,在我们的直观印象中好像我们就是直接的访问到了对方的摄像头,麦克风、显示器、声卡等等设备,但是事实上这些语音视频信息要经过如下的基本流程才能呈现在我们的面前。

就拿我最近正在研究的 OMCS 语音视频框架来说,其提供了摄像头连接器、麦克风连接器、桌面连接器、电子白板连接器等API,能让我们就像访问本地设备一样访问远程设备,但是它其实是把艰难困苦留给了自己,简单清晰的API才能让我们带走。其实说白了,OMCS 所做的主要工作就是实现了多媒体设备【麦克风、摄像头、桌面、电子白板】的采集、编码、网络传送、解码、播放(或显示)等相关的一整套流程。附:语音视频示例Demo下载 与 详细说明
虽然 OMCS 使用起来如此方便,但是我们仍然有必要了解其背后的相关原理,尤其是这些最基本的原理。
二.基本环节
1.采集
采集是第一个环节。所谓“巧妇难为无米之炊”,首先我们要从多媒体设备上拿到第一手材料。对于音频而言,就是要从麦克风、声卡等设备获取到音频信号;对于视频而言,就是要从显示器、摄像头等设备获取到图像信息。如何获取到这些信息呢?于是我们需要采集。
所谓采集又可以拆分成采样和集聚两个步骤来理解。这就好比“曹聪称象”,先将大的总体分解成一个个样本,再将分解得到的样本整合起来,其思想无非就是用样本来模拟总体。
(1)对于视频而言,采集的过程就如同下图所示

我们知道,视频总是连续的,但是我们可以将其分解为一张张的图片,即图片帧,到时候我们再将得到的这些图片按照相应的时序来播放就可以基本还原成原来的视频了。
在这里,有几个重要的量是我们需要关注的。
a.分辨率
首先我们要关注每一个样本的大小,因为样本的大小意味着其所包含的数据量的多少,而一个数据量大的样本比一个数据量小的样本更能够反映总体。就拿图中的例子来说,我们对一只鸽子的起飞过程进行连续的拍照,但是我们用高像素来拍和用低像素来拍,到时候连续翻看的时候,效果肯定是不一样的。因为每个图像帧的数据量的大小将影响到所得视频的清晰度。而这个图像帧的大小是用一个什么量来表示的呢?这个量就是分辨率。图像的分辨率越高,所包含的像素点就越多,所包含的数据量就越大,就越能够反映原始图像的本来面貌。
b.帧频
其次,原始的视频是连续的,我们采集得到的图像都是离散的。那么这个离散的程度肯定也会影响到所得视频的效果。如果图片的离散程度过大,那么所得视频看起来就会显得一卡一卡,而如果离散的程度足够小,那么所得视频就会显得流畅自然。所以样本之间的离散程度,影响到的是视频的流畅性。而这个离散程度是用什么量来表示的呢?这个量就是帧频。帧频对于采集而言就是每秒采集到多少帧图像,自然,帧频越大,画面就越流畅。
(2)对于音频而言,采集的过程也可以用类似地用下图来说明

类似于视频的采集,音频的采集也需要将连续的总体分解成离散的样本,然后再“曹聪称象”,组装成整体。
同样,音频采集中也有几个重要的量需要我们关注。
a.采样深度
类似于视频采集,我们需要关注每一个样本的数据量的大小。对于音频采集而言,样本的数据量的大小由什么来表示呢?我们用采样深度来表示,所谓采样深度又可称为采样位数,即每次采样声音数据的比特数。同样,采样深度的大小也会影响到所得音频的清晰度。如果采样位数过低,所得到的音频听起来就会含混不清。
b.采样率
类似于视频采集,我们也需要关注样本之间的离散程度。对于音频采集而言,这个离散程度我们用采样率来表示,即每秒钟采集的样本的个数。采样频率的大小会影响到所得音频的流畅程度。如果采样频率过低,则声音听起来就会有卡顿。
总结:
无论是视频采集还是音频采集,说到底都是样本采集,而我们采集的目的,无非就是想用样本来模拟总体,至于这个模拟效果的好坏由两个因素来决定,一是每个样本的数据量的大小,二是样本之间的密集程度。即,样本数据量越大,样本之间的密度越大,就越能够代表总体,就越能够反映出总体的本来面貌。所以,我们可以给出这样一个总公式——
样本反映总体的效果 = 单个样本数据量的大小 X 样本之间的密集程度
然后,对于视频采集和音频采集而言,可以给出如下两个子公式——
1.所得视频的效果 = 分辨率 X 帧频
2.所得音频的效果 = 采样深度 X 采样率
2.编码
对于采集得到的原始语音视频数据,直接放到网络上传输,数据量会非常大,会占用到非常大的带宽。所以需要对原始数据进行编码和压缩。 所以,在实际的语音通话应用中,编码这个环节是不可缺少的。目前有很多常用的语音编码技术,像G.729、iLBC、AAC、SPEEX等等。
同时我们也应该注意到,编码压缩的过程中不可避免的要丢失一些信息,而这也将影响到所得语音视频的效果。
所以我们再定义一个量:压缩率,表示原始数据的压缩程度,压缩程度越高,意味着丢失的数据越多,因此由压缩数据还原得到的语音视频,距离原始语音视频的本色越远,失真越大。
所以我们将这个因素补充到刚才的出的公式中。
1.所得视频的效果 = 分辨率 X 帧频 / 压缩率
2.所得音频的效果 = 采样深度 X 采样率 / 压缩率
3.传输
数据传输,这个是计算机网络的基础知识,想必大家都很熟悉,我就不再赘述了。但是有一点需要注意的就是,在诸如即时通讯、视频会议、远程医疗、远程教育等对实时性要求很高的网络多媒体应用系统中,网络的低延迟和高平稳是保证通讯的实时性的重要条件。
4.解码
当接收方接收到经过编码的数据后,会对其进行解码,以恢复成为可供直接播放的语音视频数据。
5.播放
完成解码后,即可将得到的语音视频帧提交给相关设备进行播放。
三.更多技术
然而,实际中的网络语音视频技术的实现远非基本流程中所介绍的那样简单,其涉及到相当多的技术细节需要处理,甚至涉及到相当多颇有难度的技术问题需要克服。由于这些技术不是本文所介绍的重点,更不是本人所能够驾驭的范畴,所以仅罗列如下,供大家参考。
1.回音消除 AEC
2.噪声抑制 DENOISE
3.抖动缓冲区 JitterBuffer
4.静音检测 VAD
5.混音算法
想要对这些技术了解更多的朋友请参见知名博主 zhuweisky的博客《浅谈网络语音技术》
在此我要感谢zhuweisky,感谢他对我在网络语音视频技术方面的指点,即便是本文,也是我对其本人的博文中的相关内容的一个阐释与发挥。
正如钱钟书先生所言:当我们吃到一个很好吃的鸡蛋时,总是忍不住想要认识一下生下那个蛋的母鸡。
最后,也希望zhuweisky以后能与我们分享更多的技术与心得。
请移步至《网络语音视频技术浅议(二)—— 实时性与流畅性如何保障?》
网络语音视频技术浅议(附多个demo源码下载)的更多相关文章
- 网络语音视频技术浅议 Visual Studio 2010(转)
我们在开发实践中常常会涉及到网络语音视频技术.诸如即时通讯.视频会议.远程医疗.远程教育.网络监控等等,这些网络多媒体应用系统都离不开网络语音视频技术.本人才疏学浅,对于网络语音视频技术也仅仅是略知皮 ...
- SpringMVC+BUI实现文件上传(附详解,源码下载)
中午有限时间写这博文,前言就不必多说了,直奔主题吧. BUI是一个前端框架,关于BUI的介绍请看博主的文章那些年用过的一些前端框架. 下面我们开始实例的讲解! 一.效果演示: 上传成功后,会发现本地相 ...
- 如何实现微信小程序动画?添加到我的小程序动画实现详细讲解,轻松学会动画开发!附壁纸小程序源码下载链接
为了让用户能尽可能多地使用小程序,也算是沉淀用户,现在很多小程序中,都有引导用户"添加到我的小程序"的操作提示,而且大多都是有动画效果.在高清壁纸推荐小程序首页,用户每次进入,都会 ...
- Android Studio 的蓝牙串口通信(附Demo源码下载)
根据相关代码制作了一个开源依赖包,将以下所有的代码进行打包,直接调用即可完成所有的操作.详细说明地址如下,如果觉得有用可以GIthub点个Star支持一下: 项目官网 Kotlin版本说明文档 Jav ...
- 如何在Exe和BPL插件中实现公共变量共享及窗口溶入技术Demo源码
如何在Exe和BPL插件中实现公共变量共享及窗口溶入技术Demo源码 1.Delphi编译方式介绍: 当我们在开发一个常规应用程序时,Delphi可以让我们用两种方式使用VCL,一种是把VCL中的申明 ...
- OMCS ——卓尔不群的网络语音视频框架
作为.NET平台上的开发人员,要开发出一个像样视频聊天系统或视频会议系统,非常艰难,这不仅仅是因为.NET对多媒体的支持比较有限,还因为网络语音视频这块涉及到了很多专业方面的技术,而.NET在这些方面 ...
- 【转】OMCS网络语音视频聊天框架(跨平台)
原文地址:http://www.cnblogs.com/zhuweisky/archive/2012/08/02/2617877.html OMCS网络语音视频框架是集成了语音通话.视频通话.远程桌面 ...
- leaflet视频监控播放(附源码下载)
前言 leaflet 入门开发系列环境知识点了解: leaflet api文档介绍,详细介绍 leaflet 每个类的函数以及属性等等 leaflet 在线例子 leaflet 插件,leaflet ...
- Web 开发中很实用的10个效果【附源码下载】
在工作中,我们可能会用到各种交互效果.而这些效果在平常翻看文章的时候碰到很多,但是一时半会又想不起来在哪,所以养成知识整理的习惯是很有必要的.这篇文章给大家推荐10个在 Web 开发中很有用的效果,记 ...
随机推荐
- MySQL · 引擎特性 · InnoDB IO子系统
前言 InnoDB做为一款成熟的跨平台数据库引擎,其实现了一套高效易用的IO接口,包括同步异步IO,IO合并等.本文简单介绍一下其内部实现,主要的代码集中在os0file.cc这个文件中.本文的分析默 ...
- Java表达式中的那些坑
[1]您确定真正了解后缀表达式与前缀表达式的区别吗? public class IncrementDemo{ public static void main(String[] args) { int ...
- Selenium 基本操作--元素定位
对页面元素进行操作 1. 输入框输入 driver.findElement(By.id("id号")).sendKeys(“输入框输入内容”): 例:
- BOM基础(一)
学完了js的基础语法和DOM之后,就要要看看javascript中最后一项BOM了.BOM,全称brower document model,翻译过来就是浏览器对象模型.DOM是文档对象模型,属于BOM ...
- 入坑系列之HAProxy负载均衡
在大型系统设计中用代理在负载均衡是最常见的一种方式,而相对靠谱的解决方案中Nginx.HAProxy.LVS.F5在各大场中用得比较普遍,各有各的优势和使用场景,由于本次要使用到TCP,因此Nginx ...
- python之实现批量远程执行命令(堡垒机)
python远程批量执行 我并不是一个专业的开发,我一直在学习linux运维,对于python也是接触不久,所以代码写的并不是很规范简洁. 前段时间一个同学找我一起做一个自动化运维平台,我对pytho ...
- Canvas的下雪效果
cfs.snow.js canvas 下雪场景 不会影响页面使用 使用方式非常简单 利用这个js文件,我们就能很快的让页面出现下雪的动画效果. 例如 <script type="tex ...
- PHP服务器脚本 PHP内核探索:新垃圾回收机制说明
在5.2及更早版本的PHP中,没有专门的垃圾回收器GC(Garbage Collection),引擎在判断一个变量空间是否能够被释放的时候是依据这个变量的zval的refcount的值,如果refco ...
- Mybatis的@Options注解
mybatis的@Options注解能够设置缓存时间,能够为对象生成自增的key 第一个使用场景: 有一个表 CREATE TABLE instance ( instance_id BIGINT UN ...
- ps-抠图
1- 图层区—复制背景图层 防止原图修改失败后无法还原 2- 工具栏——磁性套索工具 可以有效的对色彩边线较为明显的图片进行抠图 ...