语音活动检测(VAD)】的更多相关文章

这是学习时的笔记,包含相关资料链接,有的当时没有细看,记录下来在需要的时候回顾. 有些较混乱的部分,后续会再更新. 欢迎感兴趣的小伙伴一起讨论,跪求大神指点~ VAD(ffnn神经网络)-Alex tags:voice Documentation(README)中说现在的NN VAD方法比GMM方法效果好的多. Material Paper [ ] [神经网络在语音信号检测中的研究](http://xueshu.baidu.com/s?wd=paperuri%3A%28b54de14b7f2f1…
本文内容均翻译自这篇博文:(该博主的相关文章都比较好,感兴趣的可以自行学习) Voice Activity Detection(VAD) Tutorial 语音端点检测一般用于鉴别音频信号当中的语音出现(speech presence)和语音消失(speech absence).这里将提供一个简单的VAD方法,当检测到语音时输出为1,否则,输出为0. 语音是否出现或者在背景噪声上是否平坦决定了VAD方法的检测是否稳定(The job of a VAD is to reliably determi…
论文原称:R-C3D: Region Convolutional 3D Network for Temporal Activity Detection(2017) 主要贡献: 1.提出一个包括活动候选区和任意长度活动的分类的端到端模型.如下图所示 2.提出在候选区生成和分类部分共享全卷积C3D特征,实现了比当前模型快5倍的速度. 论文主要从Faster R-CNN受启发而来,论文大部分idea都是Faster R-CNN中提出的(看这篇论文的时候,我真是深感生不逢时啊),作者将2D目标检测的方法…
https://tools.ietf.org/html/rfc4749 git://git.linphone.org/linphone-android.git http://stackoverflow.com/questions/31099875/how-to-integrate-g-729-codec-with-pjsip-project doc for the API to use bcg729 is directly in the source code, see include/bcg7…
vlc 详细使用方法:libvlc_media_add_option 函数中的参数设置 [转载自]tinyle的专栏 [原文链接地址]http://blog.csdn.net/myaccella/article/details/7027962 [手记] 下面列出的参数可以在命令行中执行,也可以在VLC界面中填写.当然,更重要的是能在 程序中调用. 程序中调用的时候要注意,什么是全局参数,什么是会话参数.例如: RTP over TCP的选项,必须用冒号.用双减号则没有效果. 正确写法:libvl…
用法: vlc [选项] [流] ...您可以在命令行中指定多个流.它们将被加入播放列表队列.指定的首个项目将被首先播放. 选项样式: --选项 用于设置程序执行期间的全局选项. -选项 单字母版本的全局 --选项. :选项 一个仅在流之前应用的选项, 且将覆盖先前的设置. 流 MRL 语法: [[协议][/去复用]://]URL[#[标题][:章节][-[标题][:章节]]] [:选项=值 ...] 许多全局 --选项 也可被用作 MRL 特定的 :选项. 可指定多对 :选项=值. URL 语…
论文题目:2018_说话人验证的广义端到端损失 论文代码:https://google.github.io/speaker-id/publications/GE2E/ 地址:https://www.cnblogs.com/LXP-Never/p/11799985.html 作者:凌逆战 摘要 在本论文中,我们提出了一种新的损失函数,称为广义端到端( generalized end-to-end,GE2E)损失,使得说话人验证模型的训练比以往基于元组的端到端(tuple based end to…
论文地址:基于DNN的语音带宽扩展及其在窄带语音自动识别中加入高频缺失特征的应用 论文代码:github 博客作者:凌逆战 博客地址:https://www.cnblogs.com/LXP-Never/p/12361112.html 摘要 我们提出了一些增强技术来提高从窄带到宽带扩频(BWE)中的语音质量,解决了三个在实际应用中可能非常关键的问题,即:(1)窄带频谱和估计的高频频谱之间的不连续性,(2) 测试和训练话语之间的能量不匹配,(3)扩大了域外语音信号的带宽.通过带宽扩展语音中高频特征缺…
论文地址:https://dl.acm.org/doi/abs/10.1145/3330393.3330399 基于深度神经网络的回声消除回归方法 摘要 声学回声消除器(AEC)的目的是消除近端传声器接收到的混合信号中的声学回声.传统的方法是使用自适应有限脉冲响应(FIR)滤波器来识别房间脉冲响应(RIR),因为房间脉冲响应对各种野外场景都不具有鲁棒性.在本文中,我们提出了一种基于深度神经网络的回归方法,从近端和远端混合信号中提取的特征直接估计近端目标信号的幅值谱.利用深度学习强大的建模和泛化能…
论文地址:ECAPA-TDNN:在基于TDNN的说话人验证中强调通道注意.传播和聚集 论文代码:https://github.com/TaoRuijie/ECAPA-TDNN 引用格式:Desplanques B, Thienpondt J, Demuynck K. Ecapa-tdnn: Emphasized channel attention, propagation and aggregation in tdnn based speaker verification[J]. arXiv p…