作者:桂. 时间:2017-06-03  15:06:37 链接:http://www.cnblogs.com/xingshansi/p/6937635.html 原文链接:http://pan.baidu.com/s/1pKOYuiJ 前言 本文的算法就是在阵列信号增强中非常经典的Frost's Algorithm.上个世纪70年代的技术了,梳理一下该算法的思路. 一.理论框架 首先交代理论模型.噪声为加性噪声: X为带噪信号,L为理想信号,N为噪声信号,目的是希望利用一组滤波器,实现特定信号…
作者:桂. 时间:2017-06-03  21:46:59 链接:http://www.cnblogs.com/xingshansi/p/6937259.html 原文下载:http://pan.baidu.com/s/1hs5kgh2 前言 1982年的文章了,主要是基于GSC框架的麦克风阵列增强,梳理一下文章的思路.这篇文章主要有两点特色: 1)在Frost’s algorithm基础上,进行了理论扩展; 2)论述了基于麦克风阵列的GSC框架. 一.理论回顾 假设噪声为加性: 其中s是des…
作者:桂. 时间:2017-06-08  08:01:41 链接:http://www.cnblogs.com/xingshansi/p/6957027.html 原文链接:http://pan.baidu.com/s/1nvp1bJF 前言 理论上借助VAD可以实现噪声估计,但这是远远不够的,例如在low-SNR场景下,甚至Noise是non-staitonary,原文交代了噪声估计的重要性: The majority of the VAD algorithms encounter probl…
作者:桂. 时间:2017-06-03  15:40:33 链接:http://www.cnblogs.com/xingshansi/p/6937576.html 前言 本文主要记录麦克风阵列的几个基本知识点,并简单介绍基本的波束合成方法:Delay and sum (DSB). 一.栅瓣效应 类似干涉仪中的phase-wrapping问题:传感器的距离超过半波长的距离. A-Beam Pattern 以线性阵列为例 输出为 对应的增益,也就是output,取频率为1KHz的数据: 有时候也用极…
作者:桂. 时间:2017-06-06 13:25:58 链接:http://www.cnblogs.com/xingshansi/p/6943833.html 论文原文:http://pan.baidu.com/s/1hsuuQYK 前言 上一篇GSC是基于delay的框架进行处理,这是在无混响的情况下一种简单近似处理.许多更为复杂的应用场景,如存在的混响较严重Rt=450ms,则基于delay的模型是不合适的,有学者就考虑直接利用系统的响应函数,也就是传递函数(Transfer functi…
作者:桂. 时间:2017-06-06  16:10:47 链接:http://www.cnblogs.com/xingshansi/p/6951494.html 原文链接:http://pan.baidu.com/s/1i51Kymp omlsa代码:http://pan.baidu.com/s/1bpkvLVp omlsa论文:http://pan.baidu.com/s/1i5j3Adv 前言 这篇文章是TF-GSC的改进版.虽然TF-GSC对于方向性干扰的抑制效果不错,对于弥散噪声(di…
目前基于麦克风阵列的声源定位方法大致可以分为三类:基于最大输出功率的可控波束形成技术.基于高分辨率谱图估计技术和基于声音时间差(time-delay estimation,TDE)的声源定位技术. 基于TDE的算法核心在于对传播时延的准确估计,一般通过对麦克风间信号做互相关处理得到.进一步获得声源位置信息,可以通过简单的延时求和.几何计算或是直接利用互相关结果进行可控功率响应搜索等方法.这类算法实现相对简单,运算量小,便于实时处理,因此在实际中运用最广. GCC-PHAT 基于广义互相关函数的时…
语音识别有近场和远场之分,且很多场景下都会用到麦克风阵列(micphone array).所谓麦克风阵列是一组位于空间不同位置的麦克风按一定的形状规则布置形成的阵列,是对空间传播声音信号进行空间采样的一种装置,采集到的信号包含了其空间位置信息.近场语音识别将声波看成球面波,它考虑各麦克风接收信号间的幅度差:远场语音识别将声波看成平面波,它忽略各麦克风接收信号间的幅度差,近似认为各接收信号之间是简单的时延关系.麦克风阵列可分为一维.二维和三维麦克风阵列.一维麦克风阵列,即线性麦克风阵列,各个麦克风…
一.论文整体思路: 作者提出了一种基于前缀树的数据结构,NegNodeset,其实是对之前前缀树的一种改进,主要区别在于采用了位图编码,通过这种数据结构产生的算法称为negFIN. negFIN算法高效有三个原因 二.问题定义 I= {i1,i2,…, init} 表示事务数据库所有项的集合,T表示每个事务,T⊆I ,DB = {T1,T2,…, Tnt} 是所有事务的集合 P称为k-项集,如果P⊆T ,那么事务T包含了项集P,support(P)是DB中包含P的百分比,如果support(P)…
文章提出了一种分布式聚类的算法,这是第一个有理论保障的考虑离群点的分布式聚类算法(文章里自己说的).与之前的算法对比有以下四个优点: 1.耗时短O(max{k,logn}*n), 2.传递信息规模小:对抗分区O(klogn+t),随机分区O(klogn+t/s) 3.算法有良好的近似保证, 4.能够有效的检测出离群点. 其中,k聚类中心个数,n数据集大小,t离群点个数,s站点数(分区个数) 符号说明: 算法总体描述: 文中提出的算法分为两个阶段,第一阶段的算法是在[1]中改进,将[1]中纯净的数…
论文地址:基于通用传递函数GSC和后置滤波的语音增强 博客作者:凌逆战 博客地址:https://www.cnblogs.com/LXP-Never/p/12232341.html 摘要 在语音增强应用中,麦克风阵列后置滤波可进一步减少波束形成器输出处的噪声成分.在麦克风阵列结构中,最近提出的通用传递函数广义旁瓣消除器(TF-GSC)在定向噪声场中显示出令人印象深刻的降噪能力,同时仍保持低语音失真.但是,在扩散噪声场中,可获得的降噪效果不明显.当噪声信号不稳定时,性能甚至会进一步下降. 在本文中…
作者:凌逆战 地址:https://www.cnblogs.com/LXP-Never/p/12071748.html 题目:带后置滤波的双通道广义旁瓣相消器(GSC)的分析 作者:Israel Cohen, Senior Member, IEEE 摘要 本文分析了非平稳噪声环境下带有后置滤波的双通道广义旁瓣相消器.后置滤波包括:检测 波束形成器的输出和参考信号处的瞬变,比较他们的瞬变功率,估计信号存在概率,估计噪声频谱以及频谱增强,以使他们对数谱的均方误差最小化.基于局部非平稳性的测量方法来检…
前面我们介绍了 WebRTC 音频 3A 中的声学回声消除(AEC:Acoustic Echo Cancellation)的基本原理与优化方向,这一章我们接着聊另外一个 "A" -- 自动增益控制(AGC:Auto Gain Control).本文将结合实例全面解析 WebRTC AGC 的基本框架,一起探索其基本原理.模式的差异.存在的问题以及优化方向. 作者|珞神 审校|泰一 前言 自动增益控制(AGC:Auto Gain Control)是我认为链路最长,最影响音质和主观听感的音…
论文地址:https://ieeexploreieee.fenshishang.com/abstract/document/9142362 神经网络支持的回声.混响和噪声联合多通道降噪 摘要 我们考虑同时降低回声.混响和噪声的问题.在真实场景中,这些失真源可能同时出现,减少它们意味着组合相应的失真特定滤波器.当这些过滤器互相接触时,它们必须被联合优化.我们建议使用多通道高斯建模框架对线性回声消除和去混响后的目标和剩余信号进行建模,并通过神经网络联合表示它们的频谱.我们开发了一个迭代的块坐标上升算…
论文地址:https://ieeexplore.ieee.org/abstract/document/9357975/ 基于半盲源分离的非线性回声消除 摘要: 当使用非线性自适应滤波器时,数值模型与实际非线性模型之间的不匹配是非线性声回声消除(NAEC)的一个挑战.为了解决这一问题,我们提出了一种基于半盲源分离(SBSS)的有效方法,该方法对无记忆非线性进行基泛展开,然后将未知的非线性展开系数合并到回声路径中.将远端输入信号的所有基函数视为已知的等效参考信号,推导了一种基于约束比例自然梯度策略的…
论文地址:https://asa.scitation.org/doi/abs/10.1121/1.5036725 深度神经网络在浅水环境中的源定位 摘要: 深度神经网络(DNNs)在表征复杂的非线性关系方面具有优势.本文将DNNs应用于浅水环境下的源定位.提出了两种方法,通过不同的神经网络结构来估计宽带源的范围和深度.第一阶段采用经典的两阶段方案,特征提取和DNN分析是两个独立的步骤;与模态信号空间相关联的特征向量被提取为输入特征.然后,利用时滞神经网络对长期特征表示进行建模,构建回归模型;第二…
论文地址:https://dl.acm.org/doi/abs/10.1145/3330393.3330399 基于深度神经网络的回声消除回归方法 摘要 声学回声消除器(AEC)的目的是消除近端传声器接收到的混合信号中的声学回声.传统的方法是使用自适应有限脉冲响应(FIR)滤波器来识别房间脉冲响应(RIR),因为房间脉冲响应对各种野外场景都不具有鲁棒性.在本文中,我们提出了一种基于深度神经网络的回归方法,从近端和远端混合信号中提取的特征直接估计近端目标信号的幅值谱.利用深度学习强大的建模和泛化能…
论文地址:https://arxiv.53yu.com/abs/2104.04325 联合在线多通道声学回声消除.语音去混响和声源分离 摘要: 本文提出了一种联合声源分离算法,可同时减少声学回声.混响和干扰源.通过最大化相对于其他源的独立性,将目标语音从混合中分离出来.结果表明,分离过程可以分解为级联的子过程,分别与声学回声消除.语音去混响和源分离相关,所有这些都使用基于辅助函数的独立分量/矢量分析技术及其求解顺序来求解是可交换的.级联解决方案不仅导致较低的计算复杂度,而且比普通联合算法具有更好…
This article come from HEREARS-L1: Learning Tuesday 10:30–12:30; Oral Session; Room: Leonard de Vinci 10:30  ARS-L1.1—GROUP STRUCTURED DIRTY DICTIONARY LEARNING FOR CLASSIFICATION Yuanming Suo, Minh Dao, Trac Tran, Johns Hopkins University, USA; Hojj…
引言 前面在Ubuntu16.04+GTX1080配置TensorFlow并实现图像风格转换中介绍了TensorFlow的配置过程,以及运用TensorFlow实现图像风格转换,主要是使用了文章A Neural Algorithm of Artistic Style中的方法,今天,我将主要对这篇文章进行解读,并对基于TensorFlow版本的Neural Style开源代码进行解析.  论文地址:A Neural Algorithm of Artistic Style  源码地址:Neural…
1. 主要观点总结 0x1:什么场景下应用时序算法有效 历史数据可以被用来预测未来数据,对于一些周期性或者趋势性较强的时间序列领域问题,时序分解和时序预测算法可以发挥较好的作用,例如: 四季与天气的关系模式 以交通量计算的交通高峰期的模式 心跳的模式 股票市场和某些产品的销售周期 数据需要有较强的稳定性,例如”预测商店营业额“和"预测打车订单"的稳定性就比"预测某台服务器何时处于被入侵的异常状态"要强.从形成机制上讲,商店营业额和打车订单是由人的行为驱动的,风是由自…
前阵子用一个JavaCV的FFmpeg库实现了YUV视频数据地采集,同样的采集PCM音频数据也可以采用JavaCV的FFmpeg库. 传送门:JavaCV FFmpeg采集摄像头YUV数据 首先引入 javacpp-ffmpeg依赖: <dependency> <groupId>org.bytedeco.javacpp-presets</groupId> <artifactId>ffmpeg</artifactId> <version>…
I collect and make up this pseudocode from the book: <<Introduction to the Design and Analysis of Algorithms_Second Edition>> _ Anany LevitinNote that throughout the paper, we assume that inputs to algorithms fall within their specified ranges…
BOost Algorithm provides algorithms that complement the algorithms from the standard library. Unlike Boost Range, Boost Algorithm doesn't introduce new concepts. The algorithms defined by Boost Algorithm resemble the algorithms from the standard libr…
2.1.1 题目与摘要 1.为什么要增强IPD? The phase differences between the discrete Fourier transform (DFT) coefficients for two microphone signals are one of popular spatial cues in the frequency domain. 非理想情况下,IPD会失真,会偏离纯净语音提取的IPD. 2.IPD在复杂场景(混响.噪声)下受到了什么影响? 我们可以从…
AI产品经理成长路 https://www.jianshu.com/p/4b98314ad3c0 以下都是自己平时知识的一些总结,只是一些个人的愚见,下面出现的公司.书籍.视频.网站都是自己看过体验过的,不是给他们打广告,不是广告!不是广告!不是广告!不同意见的评论区留下意见即可 一.     AI的兴起与互联网 1.互联网的红利消失 1) PC端和移动端使用人数固定 目前来看,PC端和移动端的每年出货量都在一个值上下,移动端大概在每年4亿台,PC端更少而且每年还在下降. 2) 大流量入口被巨头…
红外与蓝牙的差别 1.距离 红外:对准.直接.1—2米,单对单 红外线可以用你的手机摄像头看到  蓝牙:10米左右,可加强信号,可以绕弯,可以不对准,可以不在同一间房间,链接最大数目可达7个,同时区分硬件. 2.速度 红外:快 蓝牙:慢 3.安全 红外:无区别 蓝牙:加密 4.成本 红外:几元-几十元 蓝牙:百元左右 最通俗的解释:两部手机红外传输的时候,中间不能有物体遮挡.否则挡住红外传输的路线之后,两部手机之间的传输就中断了.就像电视遥控器中间有人挡住就不能再控制电视调台了.蓝牙虽然也是无线…
%传统波束形成,CBF (Ps:这个程序是别人的,不是我写的,但是具体是在哪里找到的已经忘了) clear all; close all; clc; %---------初始化常量----------% c = 334;      % 声速c fs = 1000;    % 抽样频率fs T = 0.1;       % t = 0:1/fs:T;  % 时间 [0,0.1] L = length(t); % 时间长度,采样总点数:101个 f = 500;       % 感兴趣的频率,信号自…
sklearn实战-乳腺癌细胞数据挖掘(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 参考资料 https://www.cnblogs.com/webRobot/p/9034079.html 逻辑回归重点: 1.sigmoid函数(…
http://www.artrobot.com/ 钢铁侠ROS智能机器人 钢铁侠ROS智能机器人 型号 ARTrobot-ROS 产品图片:   产品概述: ARTrobot-ROS全开放机器人套件服务于广大机器人行业.企业.院校及研究机构,广泛用于企业前期开发验证.院校教学研究,一体高度集成硬件驱动模块,提供各种类型的驱动模块,简单明了的软件设计框架,完善的服务支持,让每一个客户能够快速上手ROS机器人操作系统及高效的进行二次开发,可实现地图构建,自主导航,深度摄像头,是一套学习智能机器人及无…