windows上面捕获声卡数据

转自：http://shanewfx.github.io/blog/2013/08/14/caprure-audio-on-windows/

前一段时间接到一个任务，需要采集到声卡的输出信号，以便与麦克风的输入信号进行混音。

在考虑如何实现这个需求前，我们先讨论下电脑声音的三种模式：

1) render模式

该方式实际上就是播放(output)声音，常见的API如PlaySound, WaveOutXXX， DirectSound等

2) capture模式

该方式实际上就是录入(input)声音，也就是我们通过麦克风输入声音，常见API如WaveInXXX

3）loopback模式

该方式就是我们需要实现的方式，即把扬声器里播放的声音抓取下来。

对于上面3种方式，render和capture方式应该比较好理解，也都是系统有API直接支持的方式， loopback方式就比较奇怪了，在XP上该方式系统实际都没有正式支持， loopback的录制方式实际上也涉及到CD的版权问题。

之前一直没有研究过音频的相关技术，这次就顺便抽出一点时间去了解了一下Windows上采集音频的相关技术。

对于音频处理的技术，主要有如下几种：

采集麦克风输入

采集声卡输出

将音频数据送入声卡进行播放

对多路音频输入进行混音处理

1.Windows上音频处理的API

在Windows操作系统上，常用的音频处理技术主要包括：

Wave系列API函数、

DirectSound、

Core Audio。

其中，Core Audio只可以在Vista以上（包括Vista）的操作系统中才能使用，主要用来取代Wave系列API函数和DirectSound。

Core Audio实现的功能也比较强大，能实现对麦克风的采集、声卡输出的采集、控制声音的播放。

而Wave系列的API函数主要是用来实现对麦克风输入的采集（使用WaveIn系列API函数）和控制声音的播放（使用后WaveOut系列函数）。

DirectSound能够实现的功能估计和Wave系列API差不多，可能会更强一些（由于没有使用过DirectSound，不太肯定!）。

为了实现采集模块对操作系统的兼容性更好，基本上对麦克风输入的采集使用WaveIn系列API函数比较多；

在Windows XP系统中，没有直接提供对声卡输出进行采集的API，因此，在Windows XP要实现对声卡输出的采集会比较麻烦。
通常可选用支持混音的声卡，然后通过使用声卡的混音模块来实现采集，但并不是所有的声卡都支持混音的功能，这样的方案不具备通用性。

要实现通用性，可以采用虚拟声卡的方式来实现，从驱动层获取声卡的输出数据，但这种方案实现难度会比较大。

而在Vista以上的系统中，如Win7，则可以使用Core Audio中的API函数来实现采集声卡输出的功能。

对于混音模块的实现，目前基本是使用自定义的混音算法来完成功能，系统没有直接的API函数可供调用。

2.使用WaveIn系列API函数实现麦克风输入采集

涉及的API函数：

waveInOpen

开启音频采集设备，成功后会返回设备句柄，后续的API都需要使用该句柄

调用模块需要提供一个回调函数（waveInProc），以接收采集的音频数据

waveInClose

关闭音频采集模块

成功后，由waveInOpen返回的设备句柄将不再有效 

waveInPrepareHeader

准备音频采集数据缓存的空间

waveInUnprepareHeader

清空音频采集的数据缓存

waveInAddBuffer

将准备好的音频数据缓存提供给音频采集设备

在调用该API之前需要先调用waveInPrepareHeader

waveInStart

控制音频采集设备开始对音频数据的采集

waveInStop

控制音频采集设备停止对音频数据的采集

音频采集设备采集到音频数据后，会调用在waveInOpen中设置的回调函数。

其中参数包括一个消息类型，根据其消息类型就可以进行相应的操作。

如接收到WIM_DATA消息，则说明有新的音频数据被采集到，这样就可以根据需要来对这些音频数据进行处理。

（示例以后补上）

3.使用Core Audio实现对声卡输出的捕捉

涉及的接口有：

IMMDeviceEnumerator

IMMDevice

IAudioClient

IAudioCaptureClient

主要过程：

创建多媒体设备枚举器(IMMDeviceEnumerator)

通过多媒体设备枚举器获取声卡接口(IMMDevice)

通过声卡接口获取声卡客户端接口(IAudioClient)

通过声卡客户端接口(IAudioClient)可获取声卡输出的音频参数、初始化声卡、获取声卡输出缓冲区的大小、开启/停止对声卡输出的采集

通过声卡采集客户端接口(IAudioCaptureClient)可获取采集的声卡输出数据，并对内部缓冲区进行控制

（示例以后补上）

4.常用的混音算法

混音算法就是将多路音频输入信号根据某种规则进行运算（多路音频信号相加后做限幅处理），得到一路混合后的音频，并以此作为输出的过程。

我目前还做过这一块，搜索了一下基本有如下几种混音算法：

将多路音频输入信号直接相加取和作为输出

将多路音频输入信号直接相加取和后，再除以混音通道数，防止溢出

将多路音频输入信号直接相加取和后，做Clip操作（将数据限定在最大值和最小值之间），如有溢出就设最大值

将多路音频输入信号直接相加取和后，做饱和处理，接近最大值时进行扭曲

将多路音频输入信号直接相加取和后，做归一化处理，全部乘个系数，使幅值归一化

将多路音频输入信号直接相加取和后，使用衰减因子限制幅值

下面是XP时代的Audio架构图，该架构下audio的合成和压缩都是在系统内核里进行的：

在XP这种方式下，我们要抓去声卡播放的声音没有正规的方式，一般来说只有2中:

一种是虚拟声卡，还有一种就是Hook audio 播放相关的API (很多时候我们会发现API hook是没有办法时的全能办法 ^_^)

但是在Vista之后，微软修改了原来的媒体架构，以COM的方式重新封装了core audio API：

可
以看到原来Auido的API （waveXXX, mixerXXX和DirectSound）都依赖下层的新封装的Core Audio
APIs，而且这些APi都工作在用户模式，也就是说声音的合成是在用户模式下通过软件实现的。在Vista之后，
可以看到我们可以单独控制每个应用程序的声音了，因为每路Audio都可以工作在不同的Audio session了。通过新的Core Audio
API，我们可以很容易的实现声卡声音的抓取

windows上面捕获声卡数据的更多相关文章

windows下捕获dump之Google breakpad_client的理解
breakpad是Google开源的一套跨平台工具,用于dump的处理.很全的一套东西,我这里只简单涉及breakpad客户端,不涉及纯文本符号生成,不涉及dump解析. 一.使用最简单的是使用进程 ...
windows下捕获dump
一般要捕获异常只需要两个函数:SetUnhandledExceptionFilter截获异常:MiniDumpWriteDump写dump文件.但是由于CRT函数可能会在内部调用SetUnh ...
windows下捕获dump之Google breakpad_client
breakpad是Google开源的一套跨平台工具,用于dump的处理.很全的一套东西,我这里只简单涉及breakpad客户端,不涉及纯文本符号生成,不涉及dump解析. 一.使用最简单的是使用进程 ...
如何用Wireshark捕获USB数据？
现在越来越多的电子设备采用USB接口进行通讯,通讯标准也在逐步提高.那么,我们就会好奇这些设备是如何工作的?而无论你是一个硬件黑客,业余爱好者或者只是对它有一点兴趣的,USB对我们都是具有挑战性的. ...
8.HBase In Action 第一章-HBase简介（1.2.2 捕获增量数据）
Data often trickles in and is added to an existing data store for further usage, such as analytics, ...
windows下捕获dump之守护进程
一两个月前为产品写了一个独立的exe,由于产品使用的捕获dump是一个现成的进程外exe,如果以资源的方式集成它容易出现安全警告,由于时间关系没有寻求新的解决方法,还是遵循旧方案,不捕获dump. 最 ...
rsync在windows和linux同步数据的配置过程
centos7.0安装rsync3.0.9-17.el7 yum install rsync ===================================================== ...
windows矢量字体点阵数据的提取(转)
源:windows矢量字体点阵数据的提取问题参考:windows api 获取字库点阵的问题 1.提取原理在windows系统当中提取矢量字体的字模有很多方法,下面介绍一种利用GetGlyphOu ...
抓包工具 - Fiddler（如何捕获Android数据包）
如何捕获Android数据包一.移动设备访问网络原理先看看移动设备是怎么去访问网络,如图1所示,可以看到,移动端的数据包是从wifi出去的. 图1(移动设备访问网络) 所以我们可以把自己的电脑开启 ...

随机推荐

深入HashMap
HashMap: 内部基于数组和单向链表重要的变量有: Entry<K,V>[] table = (Entry<K,V>[]) EMPTY_TABLE:结点数组table中存 ...
window.print() 打印页面部分内容的方法
用 JavaScript 实现页面数据的打印 : 主要是用到了一个 print() 函数 , 该函数将会打印整个 web 页面 body 内的所有 html 数据 ! 使用方法为 window.pri ...
Android语录
1. application对象的生命周期是整个程序中最长的,它的生命周期就等于这个程序的生命周期.因为它是全局的单例的,所以在不同的Activity,Service中获得的对象都是同一个对象.因此在 ...
UML大战需求分析——阅读笔记06
状态机图和活动图在样子比较相似,但状态机图是用来为对象的状态及造成状态改变的事件建模.我们大二学习UML统一建模语言状态机图模块时了解到,UML的状态机图主要用于建立对象类或对象的动态行为模型,描述系 ...
jQuery对象与dom对象相互转换
核心提示:jquery选择器得到的jquery对象和标准的 javascript中的document.getElementById()取得的dom对象是两种不同的对象类型,一般情况下,如S('#id' ...
HashMap源码阅读笔记（基于jdk1.8）
1.HashMap概述: HashMap是基于Map接口的一个非同步实现,此实现提供key-value形式的数据映射,支持null值. HashMap的常量和重要变量如下: DEFAULT_INITI ...
螺旋方阵（4x4）(java实现)
代码如下: public class N { public static void main(String[] args) { final int N=4; int a[][]=new int[N][ ...
[R语言]R语言计算unix timestamp的坑
R+mongo的组合真是各种坑等着踩由于mongo中的时间戳普遍使用的是unix timestamp的格式,因此需要对每天的数据进行计算的时候,很容易就想到对timestamp + gap对方式来实 ...
CATransition（os开发之画面切换）的简单用法
CATransition 的简单用法 //引进CATransition 时要添加包“QuartzCore.framework”,然后引进“#import <QuartzCore/QuartzCo ...
C++ 结构体数组回调C#代码，c#数组只有一条
C# 方法 [UnmanagedFunctionPointerAttribute(CallingConvention.StdCall, CharSet = CharSet.Ansi)] public ...

windows上面捕获声卡数据

windows上面捕获声卡数据的更多相关文章

随机推荐

热门专题