C#实现语音预处理:降噪、静音检测、自动增益(附Demo源码)
无论是在音视频录制系统,还是音视频通话系统、或视频会议系统中,对从麦克风采集到的说话的声音数据进行预处理,都是是非常必要的。
语音数据预处理主要包括:降噪(Noise Reduction)、静音检测(Silence Detection/VAD)、自动增益(Automatic Gain Control, AGC) 。
一. 语音预处理的作用
我们先解释一下,降噪、静音检测、自动增益,这些语音预处理分别起什么作用。
(1)降噪
降噪,用于消除背景噪声,比如马路车流声、环境杂音等,以保留清晰的说话人声。
更高级的,结合AI模型训练,还可以消除电脑的风扇声、键盘敲击声等等。
(2)静音检测
静音检测,又称为语音活动检测,用于识别音频流中的静音片段(没有讲话人声),这样可以简化后续的编码等环节,并可以节省传递所需要的带宽。
(3)自动增益
自动增益,用于动态调整说话声音的音量,使输出电平保持稳定,以避免讲话的声音忽大忽小。
二. 实现语音预处理
接下来,我们使用C#实现一个Demo,这个Demo将从麦克风采集声音数据,然后进行语音预处理,并且将处理后的声音数据实时播放出来。Demo的运行效果如下图所示:

Demo 功能很简单,那我们来具体看看代码是如何实现的。
1. 创建采集器、预处理器、播放器
麦克风声音数据采样率我们选择16K、单声道。
WaveSampleRate sr = WaveSampleRate.S16k;
int channelCount = 1; //创建语音预处理器,开启降噪、自动增益、静音检测
this.voicePreprocessor = CapturerFactory.CreateVoicePreprocessor(sr, channelCount, true ,true);
//创建麦克风采集器
this.microphoneCapturer = CapturerFactory.CreateMicrophoneCapturer(int.Parse(this.textBox_mic.Text), sr);
this.microphoneCapturer.AudioCaptured += new ESBasic.CbGeneric<byte[]>(microphoneCapturer_AudioCaptured);
//创建声音播放器
this.audioPlayer = PlayerFactory.CreateAudioPlayer(int.Parse(this.textBox_speaker.Text), (int)sr, channelCount, 16, 2); this.microphoneCapturer.Start();
CreateVoicePreprocessor 方法的最后两个参数可以指定在降噪的同时,是否开启静音检测和自动增益功能。
2. 预处理语音数据
语音预处理器每次处理10ms的声音数据,而现在的麦克风采集器每次采集的是20ms的PCM数据,所以,我们将其拆成两个10ms数据,再提交给预处理器处理。
void microphoneCapturer_AudioCaptured(byte[] audioData)
{
if (this.checkBox_enabled.Checked)
{
//麦克风每次采集20ms数据,降噪器每次处理10ms数据。
byte[] frame10ms1 = new byte[audioData.Length / 2];
byte[] frame10ms2 = new byte[audioData.Length / 2];
Buffer.BlockCopy(audioData, 0, frame10ms1, 0, frame10ms1.Length);
Buffer.BlockCopy(audioData, frame10ms1.Length, frame10ms2, 0, frame10ms2.Length);
this.HandleData(frame10ms1);
this.HandleData(frame10ms2);
return;
} this.audioPlayer.Play(audioData);
}
(1)通过一个CheckBox勾选框来实时控制是否启用语音预处理,这样在测试时,就可以很方便的对比体验开启了语音预处理的效果。
(2)调用IVoicePreprocessor 的 Process 方法,就可以完成一帧语音数据(10ms)的预处理。如下所示:
private void HandleData(byte[] frame10ms)
{
byte[] res = this.voicePreprocessor.Process(frame10ms);
if (res == null) //静音帧
{
++this.silenceFrameCountTotal;
this.audioPlayer.Play(this.voicePreprocessor.SlienceFrame);
}
else
{
this.audioPlayer.Play(res);
}
}
如果Process 方法返回的是null,表示检测到该帧是静音帧,于是,将内置的10ms静音帧 SlienceFrame 提交给播放器去播放。
3. 统计静音帧数量
一个语音帧是10ms,那么1秒钟就有100个语音帧,程序中,我们统计了上一秒出现了多少个静音帧,并在UI左下方显示出来。
private volatile int silenceFrameCountTotal = 0;
private volatile int silenceFrameCountPre = 0;
private void timer1_Tick(object sender, EventArgs e)
{
int delt = this.silenceFrameCountTotal - this.silenceFrameCountPre;
this.silenceFrameCountPre = this.silenceFrameCountTotal;
//显示上一秒静音帧数量。
this.label_silenceFrameCount.Text = delt.ToString();
}
实际测试时可以发现,当不说话时,UI实时显示1秒钟出现的静音帧是100个。
三. Demo源码下载
如果不想打开VS,可以直接到Debug目录下,双击 Oraycn.VoicePreprocessDemo.exe 即可运行Demo,开始体验语音降噪、静音检测、自动增益的处理效果。
建议使用耳麦测试,对比效果会更明显。当开启预处理时,能立即感觉到背景噪音消失了,而且说话的声音变大了(AGC),不说话时,UI显示静音帧的数量变多。
来下载试试语音预处理的效果吧。
C#实现语音预处理:降噪、静音检测、自动增益(附Demo源码)的更多相关文章
- 单独编译和使用webrtc音频降噪模块(附完整源码+测试音频文件)
单独编译和使用webrtc音频增益模块(附完整源码+测试音频文件) 单独编译和使用webrtc音频回声消除模块(附完整源码+测试音频文件) webrtc的音频处理模块分为降噪ns,回音消除aec,回声 ...
- Atitit 图像清晰度 模糊度 检测 识别 评价算法 源码实现attilax总结
Atitit 图像清晰度 模糊度 检测 识别 评价算法 源码实现attilax总结 1.1. 原理,主要使用像素模糊后的差别会变小1 1.2. 具体流程1 1.3. 提升性能 可以使用采样法即可..1 ...
- 音频自动增益 与 静音检测 算法 附完整C代码
前面分享过一个算法<音频增益响度分析 ReplayGain 附完整C代码示例> 主要用于评估一定长度音频的音量强度, 而分析之后,很多类似的需求,肯定是做音频增益,提高音量诸如此类做法. ...
- 音频自动增益 与 静音检测 算法 附完整C代码【转】
转自:https://www.cnblogs.com/cpuimage/p/8908551.html 前面分享过一个算法<音频增益响度分析 ReplayGain 附完整C代码示例> 主要用 ...
- 网络语音视频技术浅议(附多个demo源码下载)
我们在开发实践中常常会涉及到网络语音视频技术.诸如即时通讯.视频会议.远程医疗.远程教育.网络监控等等,这些网络多媒体应用系统都离不开网络语音视频技术.本人才疏学浅,对于网络语音视频技术也仅仅是略知皮 ...
- 客服小妹是如何泡到手的——C#定时提醒·语音录制·语音播放·文件转录Demo源码——倾情奉献!
一.需求提出 客服小妹跟我说,每天要统计新加好友数,得先记下昨天的数目,然后查看今天的数目,还要相减,打字,记录——好麻烦! 又说,客户多的时候,忙起这头忘了那头,文字记录备忘又太费劲! 我说,赐你一 ...
- 34.QT-制作串口助手(并动态检测在线串口,附带源码)
qextserialport-1.2rc库下载链接: http://www.pudn.com/Download/item/id/2298532.html 1.添加源码到工程 将qextserialpo ...
- [NLP-ASR] 语音识别项目整理(一) 语音预处理
简介 之前参与过114对话系统的项目,中间搁置很久,现在把之前做过的内容整理一下,一是为自己回顾,二是也希望分享自己看的内容,中间也遇到一些问题,如果您可以提一些建议将不胜感激. 114查询主要分 ...
- Android 讯飞语音听写SDK快速接入(附空指针解决和修改对话框文字方法)
1.账号准备工作 首先要有一个讯飞的账号啦,为后面申请APPID.APPKey等东西做准备.顺带一提:讯飞对不同认证类型用户开 放的SDK的使用次数是有不同的,详情如下图. 账号申请完成后,需要去你自 ...
- 第三十七节、人脸检测MTCNN和人脸识别Facenet(附源码)
在说到人脸检测我们首先会想到利用Harr特征提取和Adaboost分类器进行人脸检测(有兴趣的可以去一看这篇博客第九节.人脸检测之Haar分类器),其检测效果也是不错的,但是目前人脸检测的应用场景逐渐 ...
随机推荐
- numpy -- 处理数值型数据 -- 数据分析三剑客
博客地址:https://www.cnblogs.com/zylyehuo/ NumPy(Numerical Python) 是 Python 语言中做科学计算的基础库.重在于数值计算,也是大部分Py ...
- 动态规划--最长公共子序列( LCS 问题)
博客地址:https://www.cnblogs.com/zylyehuo/ # -*- coding: utf-8 -*- # 最长公共子序列的长度 def lcs_length(x, y): m ...
- Docker 运行命令
停止所有的容器 docker stop $(docker ps -aq) 启动所有的容器 docker start $(docker ps -aq) 停止容器 docker stop <容器Na ...
- PVE常用命令
1.查看集群下的节点信息 root@pve63-node172:~# pvecm nodes Membership information ---------------------- Nodeid ...
- Linux SWAP交换分区应该设置多大?
乾乾君子 2019-02-21 15:21:02 23370 收藏 34分类专栏: 杂记 文章标签: linux centos swap分区版权 Linux SWAP交换分区,就是我们课本说讲过 ...
- 入门Dify平台:工作流节点分析
要让智能体在实际应用中表现出色,掌握工作流的使用至关重要.今天,我们将深入探讨Dify平台中的各个节点的功能,了解它们的使用方法以及常见的应用场景.通过对这些节点的全面了解,将能够高效地设计和优化智能 ...
- BFS 2025/1/16
BFS Basic 主要特点:空间复杂度较高,基于队列 经常用于求最优解的搜索题 经典模型:连通块,最短迷宫路径,曼哈顿距离 Question 01 [ACP2056 山峰与山谷] 主体是广搜模板 难 ...
- 基于AST实现国际化文本提取
我们是袋鼠云数栈 UED 团队,致力于打造优秀的一站式数据中台产品.我们始终保持工匠精神,探索前端道路,为社区积累并传播经验价值. 本文作者:霜序 前言 在阅读本文之前,需要读者有一些 babel 的 ...
- Clion搭建C++开发环境
1.下载和安装MinGW 1)下载链接:http://www.mingw.org/ 2)选择安装目录,目录尽可能简单(如:D:\MinGW)且不要包含中文和空格 3)添加相关的包 所需的包如下:min ...
- Web前端入门第 33 问:CSS 元素外观常用属性(边框、阴影、轮廓、透明度)
background 作为元素外观里的重点功臣介绍完毕,本文再一览其他常用的外观属性. 本文示例中,盒子基础样式: .box { font-size: 20px; margin: 20px; padd ...