unimrcp-voice-activity语音检测

研究 unimrcp有一段时间了，其中unimrcp voice acitve的算法，是遭到大家频繁吐槽。今天我们简单的介绍一下unimrcp voice activity 的这个简单粗暴的算法：

unimrcp 语音活动检测是通过能量来控制的，设定几个常量：

struct mpf_activity_detector_t {

/* 静音检测阀值 */

apr_size_t level_threshold;

/* 转换成active状态的超时时长*/

apr_size_t speech_timeout;

/* 转换成inactive状态超时时长 */

apr_size_t silence_timeout;

/* 没有输入的超时时长 */

apr_size_t noinput_timeout;

/* 当前的状态 */

mpf_detector_state_e state;

/* 当前状态的保持的时长 */

apr_size_t duration;

};

来看一下这几个参数的初始化的值，根据实际的测试，我们后期做过改动：

/** Create activity detector */

MPF_DECLARE(mpf_activity_detector_t*) mpf_activity_detector_create(apr_pool_t *pool)

{

    mpf_activity_detector_t *detector = apr_palloc(pool,sizeof(mpf_activity_detector_t));

    detector->level_threshold = ; /* 0 .. 255 */

    detector->speech_timeout = ; /* 0.3 s  = 300*/

    detector->silence_timeout = ; /* 0.3 s  =300 */

    detector->noinput_timeout = ; /* 5 s =5000*/

    detector->duration = ;

    detector->state = DETECTOR_STATE_INACTIVITY;

    return detector;

}

看一下重要的函数，能量的计算：

根据frame的信息，对能量进行粗暴的累加，所以对于噪音，这个算法完全不可用。后面将会介绍如何采用webrtc的voice active来取代这个算法。

static apr_size_t mpf_activity_detector_level_calculate(const mpf_frame_t *frame)

{

    apr_size_t sum = ;
    //计算多少个

    apr_size_t count = frame->codec_frame.size/;
    //初始值

    const apr_int16_t *cur = frame->codec_frame.buffer;
    //最后一个值

    const apr_int16_t *end = cur + count;

    for(; cur < end; cur++) {

        if(*cur < ) {

            sum -= *cur;

        }

        else {

            sum += *cur;

        }

    }

    //取平均值，简单粗暴，被吐槽的原因

    return sum / count;

}

最后看一下，状态切换的过程，下面mpf_activity_detector_process函数，主要是通过计算frame的平均值，来完成状态切换的逻辑：

处理过程共有四个状态：

ACTIVITY状态

INACTIVITY状态

TRANS_ACTIVITY状态

TRANS_INACTIVITY状态

其中TRANS状态是中间状态，再切换为ACTIVITY状态和INACTIVITY状态的时，需要经过这个状态来累计设定时长，如果满足了，才会切换，否则不予切换。

/** Process current frame */

MPF_DECLARE(mpf_detector_event_e) mpf_activity_detector_process(mpf_activity_detector_t *detector, const mpf_frame_t *frame)

{

    mpf_detector_event_e det_event = MPF_DETECTOR_EVENT_NONE;

    apr_size_t level = ;

    if((frame->type & MEDIA_FRAME_TYPE_AUDIO) == MEDIA_FRAME_TYPE_AUDIO) {

        /* first, calculate current activity level of processed frame */
        //此处计算得到level的值

        level = mpf_activity_detector_level_calculate(frame);

#if 0

        apt_log(APT_LOG_MARK,APT_PRIO_INFO,"Activity Detector --------------------- [%"APR_SIZE_T_FMT"]",level);

#endif

    }

    /*如果当前状态处于INACTIVITY状态，并且level 大于我们设定的阀值，开始向活动状态切换，但是并没有变成活动状态*/

    if(detector->state == DETECTOR_STATE_INACTIVITY) {

        if(level >= detector->level_threshold) {

            /* start to detect activity */

            mpf_activity_detector_state_change(detector,DETECTOR_STATE_ACTIVITY_TRANSITION);

        }

        else {

            detector->duration += CODEC_FRAME_TIME_BASE;

            if(detector->duration >= detector->noinput_timeout) {

                /* detected noinput */

                det_event = MPF_DETECTOR_EVENT_NOINPUT;

            }

        }

    }

    else if(detector->state == DETECTOR_STATE_ACTIVITY_TRANSITION) {
        //处于向活动状态转换的过程。

        if(level >= detector->level_threshold) {
            //如果level 大于阀值

            detector->duration += CODEC_FRAME_TIME_BASE;
            //并且超过了设定了向活动状态转换的超时时长

            if(detector->duration >= detector->speech_timeout) {

                /* finally detected activity */
                //切换为活动状态

                det_event = MPF_DETECTOR_EVENT_ACTIVITY;

                mpf_activity_detector_state_change(detector,DETECTOR_STATE_ACTIVITY);

            }

        }

        else {

            /* fallback to inactivity */
            //降级为非活动状态

            mpf_activity_detector_state_change(detector,DETECTOR_STATE_INACTIVITY);

        }

    }

    else if(detector->state == DETECTOR_STATE_ACTIVITY) {
        //处于活动状态

        if(level >= detector->level_threshold) {
             //如果level大于阀值，增加duration

            detector->duration += CODEC_FRAME_TIME_BASE;

        }

        else {

            /* start to detect inactivity */
            //准备转换成inactivity状态

            mpf_activity_detector_state_change(detector,DETECTOR_STATE_INACTIVITY_TRANSITION);

        }

    }

    else if(detector->state == DETECTOR_STATE_INACTIVITY_TRANSITION) {
        //处于inactivity transtion状态

        if(level >= detector->level_threshold) {

            /* fallback to activity */
            //如果大于阀值了，则回归到activity状态

            mpf_activity_detector_state_change(detector,DETECTOR_STATE_ACTIVITY);

        }

        else {
            //如果检测仍然小于阀值，增加判断时长，如果大于设定的时长了，则进入inactivity状态。

            detector->duration += CODEC_FRAME_TIME_BASE;

            if(detector->duration >= detector->silence_timeout) {

                /* detected inactivity */

                det_event = MPF_DETECTOR_EVENT_INACTIVITY;

                mpf_activity_detector_state_change(detector,DETECTOR_STATE_INACTIVITY);

            }

        }

    }

    return det_event;

}

unimrcp-voice-activity语音检测的更多相关文章

语音端点检测（Voice Activity Detection,VAD）
本文内容均翻译自这篇博文:(该博主的相关文章都比较好,感兴趣的可以自行学习) Voice Activity Detection(VAD) Tutorial 语音端点检测一般用于鉴别音频信号当中的语音出 ...
提纲挈领webrtc之vad检测
顾名思义,VAD(Voice Activity Detection)算法的作用是检测是否是人的语音,它的使用范围极广,降噪,语音识别等领域都需要有vad检测.vad检测有很多方法,这里我们之介绍一 ...
常用有话帧检测技术（VAD）
作者:桂. 时间:2017-05-31 17:43:22 链接:http://www.cnblogs.com/xingshansi/p/6925355.html 前言总结一下基本的有话帧检测(Vo ...
替换unimrcp的VAD模块
摘要: unimrcp vad 模块voice activity dector一直认为比较粗暴,而且unimrcp的社区也很久没有更新了.使用原始unimrcp如果只是用来做Demo演示,通过手动调整 ...
Android讯飞语音云语音听写学习
讯飞语音云语音听写学习这几天两个舍友都买了iPhone 6S,玩起了"Hey, Siri",我依旧对我的Nexus 5喊着"OK,Google" ...
音频自动增益与静音检测算法附完整C代码
前面分享过一个算法<音频增益响度分析 ReplayGain 附完整C代码示例> 主要用于评估一定长度音频的音量强度, 而分析之后,很多类似的需求,肯定是做音频增益,提高音量诸如此类做法. ...
音频自动增益与静音检测算法附完整C代码【转】
转自:https://www.cnblogs.com/cpuimage/p/8908551.html 前面分享过一个算法<音频增益响度分析 ReplayGain 附完整C代码示例> 主要用 ...
与众不同 windows phone (45) - 8.0 语音: TTS, 语音识别, 语音命令
[源码下载] 与众不同 windows phone (45) - 8.0 语音: TTS, 语音识别, 语音命令作者:webabcd 介绍与众不同 windows phone 8.0 之语音 TT ...
Chrome下的语音控制框架MyVoix.js使用篇（一）
日前因工作需求,着手研究了语音识别技术,发现github上有网友发布了一款叫做voix.js的javascript框架.在拜读voix.js的源码后发现了不少问题,于是自己写了一款语音识别框架MyVo ...

随机推荐

2. 2.1查找命令——linux基础增强，Linux命令学习
2.1.查找命令 grep命令 grep 命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来. 格式: grep [option] pattern [file] 可使用 ...
分布式理论基础（四）Paxos
1 背景分布式理论基础(一)一致性及解决一致性的两种方式:2PC和3PC 中介绍了一致性,Paxos协议在节点宕机恢复.消息无序或丢失.网络分化的场景下能保证决议的一致性,是被讨论最广泛的一致性协议 ...
Oracle数据库常用脚本命令（二）
--创建学生信息表create table student( sid number(8,0), name varchar2(20), sex char(2), birthday date, addre ...
调用scanf函数的一个陷阱
我们在写C程序时,经常使用scanf函数,让用户输入数据,可是有时候会出现一些很奇怪的问题.例如,下面的程序是一个简单的四则运算: #include <stdio.h> int main( ...
Go语言解密上篇中用java aes实现的加密
上一篇java aes文件加解密中加密的梅须逊雪三分白,雪却输梅一段香.使用go语言解密. 解密代码如下: AESUtil.go package util import ( "crypto/ ...
ElasticSearch01--安装ElasticSearch服务（Linux）
在linux系统上安装ElasticSearch服务 Linux系统要求: 1.centos6或centos7 2.jdk1.8及以上 1. 新建用户新建一个用户 useradd yuank 修改用 ...
字符串如何实现反转?python实现
今天和一个同事出去吃饭,突然话风转变,考了问我一个问题,他说哥,你知道字符串怎么反转吗? 我想了想,我擦,回家看我博客.作为一个资深开发,怎么可能被一个毛头小子问住了! 于是,我今天就稍微的整理了一下 ...
个人永久性免费-Excel催化剂功能第21波-Excel与Sqlserver零门槛交互-执行SQL语句篇
在前两波中,已完成了Excel与Sqlserver的查询和上传功能,但难免许多临时的或更深入地操作数据库需要用Sql语句来操作,对一般用户电脑里,不可能有条件轻易安装一个数据库客户端软件,就算安装了对 ...
VUE动态(自动)Loading【绑定到URL】，同页面多个Loading互不冲突
需求来源:当使用React时,使用 umi loading 很方便,页面对http请求发生改变时,也会自动改变loading的相关状态(true/false) 对VUE插件进行找寻,发现没找到合适内容 ...
C#2.0新增功能03 匿名方法
连载目录 [已更新最新开发文章,点击查看详细] 在 2.0 之前的 C# 版本中,声明委托的唯一方式是使用命名方法. C# 2.0 引入匿名方法,在 C# 3.0 及更高版本中,Lambda 表 ...

unimrcp-voice-activity语音检测

unimrcp-voice-activity语音检测的更多相关文章

随机推荐

热门专题