unimrcp-voice-activity语音检测
研究 unimrcp有一段时间了,其中unimrcp voice acitve的算法,是遭到大家频繁吐槽。今天我们简单的介绍一下unimrcp voice activity 的这个简单粗暴的算法:
unimrcp 语音活动检测是通过能量来控制的,设定几个常量:
struct mpf_activity_detector_t {
/* 静音检测阀值 */
apr_size_t level_threshold;
/* 转换成active状态的超时时长*/
apr_size_t speech_timeout;
/* 转换成inactive状态超时时长 */
apr_size_t silence_timeout;
/* 没有输入的超时时长 */
apr_size_t noinput_timeout;
/* 当前的状态 */
mpf_detector_state_e state;
/* 当前状态的保持的时长 */
apr_size_t duration;
};
来看一下这几个参数的初始化的值,根据实际的测试,我们后期做过改动:
/** Create activity detector */
MPF_DECLARE(mpf_activity_detector_t*) mpf_activity_detector_create(apr_pool_t *pool)
{
mpf_activity_detector_t *detector = apr_palloc(pool,sizeof(mpf_activity_detector_t));
detector->level_threshold = ; /* 0 .. 255 */
detector->speech_timeout = ; /* 0.3 s = 300*/
detector->silence_timeout = ; /* 0.3 s =300 */
detector->noinput_timeout = ; /* 5 s =5000*/
detector->duration = ;
detector->state = DETECTOR_STATE_INACTIVITY;
return detector;
}
看一下重要的函数,能量的计算:
根据frame的信息,对能量进行粗暴的累加,所以对于噪音,这个算法完全不可用。后面将会介绍如何采用webrtc的voice active来取代这个算法。
static apr_size_t mpf_activity_detector_level_calculate(const mpf_frame_t *frame)
{
apr_size_t sum = ;
//计算多少个
apr_size_t count = frame->codec_frame.size/;
//初始值
const apr_int16_t *cur = frame->codec_frame.buffer;
//最后一个值
const apr_int16_t *end = cur + count; for(; cur < end; cur++) {
if(*cur < ) {
sum -= *cur;
}
else {
sum += *cur;
}
}
//取平均值,简单粗暴,被吐槽的原因
return sum / count;
}
最后看一下,状态切换的过程,下面mpf_activity_detector_process函数,主要是通过计算frame的平均值,来完成状态切换的逻辑:
处理过程共有四个状态:
ACTIVITY状态
INACTIVITY状态
TRANS_ACTIVITY状态
TRANS_INACTIVITY状态
其中TRANS状态是中间状态,再切换为ACTIVITY状态和INACTIVITY状态的时,需要经过这个状态来累计设定时长,如果满足了,才会切换,否则不予切换。
/** Process current frame */
MPF_DECLARE(mpf_detector_event_e) mpf_activity_detector_process(mpf_activity_detector_t *detector, const mpf_frame_t *frame)
{
mpf_detector_event_e det_event = MPF_DETECTOR_EVENT_NONE;
apr_size_t level = ;
if((frame->type & MEDIA_FRAME_TYPE_AUDIO) == MEDIA_FRAME_TYPE_AUDIO) {
/* first, calculate current activity level of processed frame */
//此处计算得到level的值
level = mpf_activity_detector_level_calculate(frame);
#if 0
apt_log(APT_LOG_MARK,APT_PRIO_INFO,"Activity Detector --------------------- [%"APR_SIZE_T_FMT"]",level);
#endif
}
/*如果当前状态处于INACTIVITY状态,并且level 大于我们设定的阀值,开始向活动状态切换,但是并没有变成活动状态*/
if(detector->state == DETECTOR_STATE_INACTIVITY) {
if(level >= detector->level_threshold) {
/* start to detect activity */
mpf_activity_detector_state_change(detector,DETECTOR_STATE_ACTIVITY_TRANSITION);
}
else {
detector->duration += CODEC_FRAME_TIME_BASE;
if(detector->duration >= detector->noinput_timeout) {
/* detected noinput */
det_event = MPF_DETECTOR_EVENT_NOINPUT;
}
}
}
else if(detector->state == DETECTOR_STATE_ACTIVITY_TRANSITION) {
//处于向活动状态转换的过程。
if(level >= detector->level_threshold) {
//如果level 大于阀值
detector->duration += CODEC_FRAME_TIME_BASE;
//并且超过了设定了向活动状态转换的超时时长
if(detector->duration >= detector->speech_timeout) {
/* finally detected activity */
//切换为活动状态
det_event = MPF_DETECTOR_EVENT_ACTIVITY;
mpf_activity_detector_state_change(detector,DETECTOR_STATE_ACTIVITY);
}
}
else {
/* fallback to inactivity */
//降级为非活动状态
mpf_activity_detector_state_change(detector,DETECTOR_STATE_INACTIVITY);
}
}
else if(detector->state == DETECTOR_STATE_ACTIVITY) {
//处于活动状态
if(level >= detector->level_threshold) {
//如果level大于阀值,增加duration
detector->duration += CODEC_FRAME_TIME_BASE;
}
else {
/* start to detect inactivity */
//准备转换成inactivity状态
mpf_activity_detector_state_change(detector,DETECTOR_STATE_INACTIVITY_TRANSITION);
}
}
else if(detector->state == DETECTOR_STATE_INACTIVITY_TRANSITION) {
//处于inactivity transtion状态
if(level >= detector->level_threshold) {
/* fallback to activity */
//如果大于阀值了,则回归到activity状态
mpf_activity_detector_state_change(detector,DETECTOR_STATE_ACTIVITY);
}
else {
//如果检测仍然小于阀值,增加判断时长,如果大于设定的时长了,则进入inactivity状态。
detector->duration += CODEC_FRAME_TIME_BASE;
if(detector->duration >= detector->silence_timeout) {
/* detected inactivity */
det_event = MPF_DETECTOR_EVENT_INACTIVITY;
mpf_activity_detector_state_change(detector,DETECTOR_STATE_INACTIVITY);
}
}
} return det_event;
}
unimrcp-voice-activity语音检测的更多相关文章
- 语音端点检测(Voice Activity Detection,VAD)
本文内容均翻译自这篇博文:(该博主的相关文章都比较好,感兴趣的可以自行学习) Voice Activity Detection(VAD) Tutorial 语音端点检测一般用于鉴别音频信号当中的语音出 ...
- 提纲挈领webrtc之vad检测
顾名思义,VAD(Voice Activity Detection)算法的作用是检测是否是人的语音,它的使用 范围极广,降噪,语音识别等领域都需要有vad检测.vad检测有很多方法,这里我们之介绍一 ...
- 常用有话帧检测技术(VAD)
作者:桂. 时间:2017-05-31 17:43:22 链接:http://www.cnblogs.com/xingshansi/p/6925355.html 前言 总结一下基本的有话帧检测(Vo ...
- 替换unimrcp的VAD模块
摘要: unimrcp vad 模块voice activity dector一直认为比较粗暴,而且unimrcp的社区也很久没有更新了.使用原始unimrcp如果只是用来做Demo演示,通过手动调整 ...
- Android讯飞语音云语音听写学习
讯飞语音云语音听写学习 这几天两个舍友都买了iPhone 6S,玩起了"Hey, Siri",我依旧对我的Nexus 5喊着"OK,Google" ...
- 音频自动增益 与 静音检测 算法 附完整C代码
前面分享过一个算法<音频增益响度分析 ReplayGain 附完整C代码示例> 主要用于评估一定长度音频的音量强度, 而分析之后,很多类似的需求,肯定是做音频增益,提高音量诸如此类做法. ...
- 音频自动增益 与 静音检测 算法 附完整C代码【转】
转自:https://www.cnblogs.com/cpuimage/p/8908551.html 前面分享过一个算法<音频增益响度分析 ReplayGain 附完整C代码示例> 主要用 ...
- 与众不同 windows phone (45) - 8.0 语音: TTS, 语音识别, 语音命令
[源码下载] 与众不同 windows phone (45) - 8.0 语音: TTS, 语音识别, 语音命令 作者:webabcd 介绍与众不同 windows phone 8.0 之 语音 TT ...
- Chrome下的语音控制框架MyVoix.js使用篇(一)
日前因工作需求,着手研究了语音识别技术,发现github上有网友发布了一款叫做voix.js的javascript框架.在拜读voix.js的源码后发现了不少问题,于是自己写了一款语音识别框架MyVo ...
随机推荐
- 并发编程-concurrent指南-交换机Exchanger
java.util.concurrent包中的Exchanger类可用于两个线程之间交换信息.可简单地将Exchanger对象理解为一个包含两个格子的容器,通过exchanger方法可以向两个格子中填 ...
- 模块(二)os hashlib
模块(二)os hashlib 1.序列化模块 1.1 json 将满足条件的数据结构转化成特殊的字符串,并且可以反序列化转回去 # 两对方法 # 1 dumps() loads() ## 多用于网络 ...
- HDU 5723:Abandoned country(最小生成树+算期望)
http://acm.hdu.edu.cn/showproblem.php?pid=5723 Abandoned country Problem Description An abandoned ...
- Nginx正向代理和反向代理
关于代理 说到代理,首先我们要明确一个概念,所谓代理就是一个代表.一个渠道: 此时就设计到两个角色,一个是被代理角色,一个是目标角色,被代理角色通过这个代理访问目标角色完成一些任务的过程称为代理操作过 ...
- leetcode的Hot100系列--3. 无重复字符的最长子串--滑动窗口
可以先想下这两个问题: 1.怎样使用滑动窗口? 2.如何快速的解决字符查重问题? 滑动窗口 可以想象一下有两个指针,一个叫begin,一个叫now 这两个指针就指定了当前正在比较无重复的字符串,当再往 ...
- [转载] 管Q某犇借的手写堆
跟gxy大神还有yzh大神学了学手写的堆,应该比stl的优先队列快很多. 其实就是维护了一个二叉堆,写进结构体里,就没啥了... 据说达哥去年NOIP靠这个暴力多骗了分 合并果子... templat ...
- [01] HEVD 双机调试环境搭建
[01] HEVD 双机调试环境搭建 span::selection, .CodeMirror-line > span > span::selection { background: #d ...
- cola-ui的使用
[toc] > 官方:[http://www.cola-ui.com](http://www.cola-ui.com) > > 教程位置:[http://www.cola-ui.co ...
- 【深搜(DFS)-例题-踏青】-C++
描述 小白和他的朋友周末相约去召唤师峡谷踏青.他们发现召唤师峡谷的地图是由一块一块格子组成的,有的格子上是草丛,有的是空地.草丛通过上下左右 4 个方向扩展其他草丛形成一片草地,任何一片草地中的格子都 ...
- C#窗体实现打开关闭VM虚拟机
vixclass.cs//定义开机.关机等函数 using System; using System.Collections.Generic; using System.Linq; using Sys ...