一:LLDs特征和HSFs特征 (1)首先区分一下frame和utterance,frame就是一帧语音.utterance是一段语音,是比帧高一级的语音单位,通常指一句话,一个语音样本.utterance由多帧语音组成,通常对一个utterance做分帧来得到多帧信号. (2)LLDs(low level descriptors)LLDs指的是手工设计的一些低水平特征,一般是在一帧语音上进行的计算,是用来表示一帧语音的特征. (3)HSFs(high level statistics func…
一:原始信号 从音频文件中读取出来的原始语音信号通常称为raw waveform,是一个一维数组,长度是由音频长度和采样率决定,比如采样率Fs为16KHz,表示一秒钟内采样16000个点,这个时候如果音频长度是10秒,那么raw waveform中就有160000个值,值的大小通常表示的是振幅. 二:(线性)声谱图 (1)对原始信号进行分帧加窗后,可以得到很多帧,对每一帧做FFT(快速傅里叶变换),傅里叶变换的作用是把时域信号转为频域信号,把每一帧FFT后的频域信号(频谱图)在时间上堆叠起来就可…
一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeech) (1)分帧加窗,每一帧采用的特征向量为eGeMAPS特征集中的20个特征,每个utterance使用裁剪和padding的做法使得定长512帧,所以输入为20x512的矩阵.每个样本归一化到0均值1标准差(根据对应的说话人).使用的数据集为EmoDB. (2)准确率为88.9% 二:Speec…
一:An Attention Pooling based Representation Learning Method for Speech Emotion Recognition(2018 InterSpeech) (1)论文的模型如下图,输入声谱图,CNN先用两个不同的卷积核分别提取时域特征和频域特征,concat后喂给后面的CNN,在最后一层使用attention pooling的技术,在IEMOCAP的四类情感上取得71.8% 的weighted accuracy (WA) 和68% 的…
摘要:本文为大家带来InterSpeech2020 语音情感分析25篇论文中的其中8篇的总结. 本文分享自华为云社区<INTERSPEECH2020 语音情感分析论文总结一>,原文作者:Tython. 1. Learning Utterance-level Representations with Label Smoothing for Speech Emotion Recognition(INTERSPEECH2020) (1)数据处理:IEMOCAP四分类,leave-one-speake…
动机(Motivation) 在自动语音识别(Automated Speech Recognition, ASR)中,只是把语音内容转成文字,但是人们对话过程中除了文本还有其它重要的信息,比如语调,情感,响度.这些信息对于语音的理解也是很重要的.本文关注其中一个点,如何识别出语音的情感,即语音情感识别(Speech Emotion Recognition, SER). 语音情感识别的三个难点 1. 感情是主观的:不同人对于同一段语音,理解出的情感不尽相同,而且存在一定的文化差异. 2. 感情在语…
欢迎使用AI语音验证码识别v4.0程序程序调用方法:http://code.hbadmin.com/?url=http://code.hbadmin.com/demo/2118534.wav [试听]参数解释:url=语音验证码远程访问地址…
论文笔记1:Deep Learning         2015年,深度学习三位大牛(Yann LeCun,Yoshua Bengio & Geoffrey Hinton),合作在Nature上发表深度学习的综述性论文,介绍了什么是监督学习.反向传播来训练多层神经网络.卷积神经网络.使用深度卷积网络进行图像理解.分布式特征表示与语言处理.递归神经网络,并对深度学习技术的未来发展进行展望. 原文摘要: 1,深度学习可以让那些拥有多个处理层的计算模型来学习具有多层次抽象的数据的表示.        …
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不吝指正交流,谢谢.…
看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.这项任务要求模型可以识别图片中的物体.理解物体间的关系,并用一句自然语言表达出来. 应用场景:比如说用户在拍了一张照片后,利用Image Caption技术可以为其匹配合适的文字,方便以后检索或省去用户手动配字:此外它还可以帮助视觉障碍者去理解图像内容.类似的任务还有Video Caption,输入是一段视频,输出是对视频的…
基于3D卷积神经网络的人体行为理解(论文笔记) zouxy09@qq.com http://blog.csdn.net/zouxy09 最近看Deep Learning的论文,看到这篇论文:3D Convolutional Neural Networks for Human Action Recognition.比较感兴趣是CNN是怎么应用于行为理解的,所以就看看.这篇论文发表在TPAMI2013.它基本上没有公式的,论文倾于从论述角度描述它的基本方法和实现效果.另外,对于怎么去训练也没有具体的…
Deep Learning论文笔记之(六)Multi-Stage多级架构分析 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不…
论文笔记(2):A fast learning algorithm for deep belief nets. 这几天继续学习一篇论文,Hinton的A Fast Learning Algorithm for Deep Belief Nets.这篇论文一开始读起来是相当费劲的,学习了好几天才了解了相关的背景,慢慢的思路也开始清晰起来.DBN算法就是Wake-Sleep算法+RBM,但是论文对Wake-Sleep算法解释特别少.可能还要学习Wake-Sleep和RBM相关的的知识才能慢慢理解,今天…
论文笔记系列-Neural Network Search :A Survey 论文 笔记 NAS automl survey review reinforcement learning Bayesian Optimization evolutionary algorithm  注:本文主要是结合自己理解对原文献的总结翻译,有的部分直接翻译成英文不太好理解,所以查阅原文会更直观更好理解. 本文主要就Search Space.Search Strategy.Performance Estimatio…
论文笔记之:Natural Language Object Retrieval 2017-07-10  16:50:43   本文旨在通过给定的文本描述,在图像中去实现物体的定位和识别.大致流程图如下: 此处,作者强调了一点不同之处: Natural language object retrieval differs from text-based image retrieval task as it involves spatial information about objects with…
Mastering the game of Go with deep neural networks and tree search Nature 2015  这是本人论文笔记系列第二篇 Nature 的文章了,第一篇是 DQN.好紧张!好兴奋! 本文可谓是在世界上赚够了吸引力! 围棋游戏被看做是 AI 领域最有挑战的经典游戏,由于其无穷的搜索空间 和 评价位置和移动的困难.本文提出了一种新的方法给计算机来玩围棋游戏,即:利用 "value network" 来评价广泛的位置 和 “p…
Deep Learning论文笔记之(一)K-means特征学习 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不吝指正交流,…
论文笔记 <Maxout Networks> && <Network In Network> 发表于 2014-09-22   |   1条评论 出处 maxout:http://arxiv.org/pdf/1302.4389v4.pdfNIN:http://arxiv.org/abs/1312.4400 参考 maxout和NIN具体内容不作解释下,可以参考:Deep learning:四十五(maxout简单理解)Network In Network 各用一句话…
Deep Learning论文笔记之(三)单层非监督学习网络分析 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不吝指正交流,…
打算整理一个关于Person Re-identification的系列论文笔记,主要记录近年CNN快速发展中的部分有亮点和借鉴意义的论文. 论文笔记流程采用contributions->algorithm pipeline>experiments->个人评价 Scalable Person Re-identification: A Benchmark Zheng L, Shen L, Tian L, et al. Scalable Person Re-identification: A…
若该文为原创文章,未经允许不得转载原博主博客地址:https://blog.csdn.net/qq21497936原博主博客导航:https://blog.csdn.net/qq21497936/article/details/102478062本文章博客地址:https://blog.csdn.net/qq21497936/article/details/106926496各位读者,知识无穷而人力有穷,要么改需求,要么找专业人士,要么自己研究红胖子(红模仿)的博文大全:开发技术集合(包含Qt实…
论文:<Learning Fashion Compatibility with Bidirectional LSTMs> 论文地址:https://arxiv.org/abs/1707.05691 代码地址:https://github.com/xthan/polyvore 联系方式: Github:https://github.com/ccc013 知乎专栏:机器学习与计算机视觉,AI 论文笔记 微信公众号:AI 算法笔记 1. 简介 时尚搭配推荐的需求越来越大,本文是基于两个方面的时尚推荐…
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不吝指正…
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015  CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做是一个 黑匣子,只是用来提取特征,而是在大量的图像和 ImageNet 分类任务上关于 CNN 的 feature 做了大量的深度的研究.这些发现促使他们设计了该跟踪系统,他们发现: 不同的卷积层会从不同的角度来刻画目标.顶层的 layer 编码了更多的关于 语义特征并且可以作为种类检测器,而底层的…
OTP(One Time Programable)是MCU的一种存储器类型,意思是一次性可编程:程序烧入IC后,将不可再次更改和:因此OTP语音芯片就是指一次性烧录的语音IC. 从OTP定义上来看,只能一次性烧录的语音芯片,同时大家都知道OTP没有最小数量的限制,只要客户提供声音,环芯OTP语音芯片IC公司把声音处理和编程后通过烧录工具烧入OTP芯片中.这种方式是最常见的OTP烧录方式,一般一次只能烧录1片或者5-10片,烧录工具不同决定的.烧录效率比较低下,人力成本高,同时只能对封装芯片进行烧…
Twitter 新一代流处理利器--Heron 论文笔记之Heron架构 标签(空格分隔): Streaming-process realtime-process Heron Architecture Heron 架构例如以下图: 用户编写公布topoloy到Aurora调度器.每个topology都作为一个Aurora的job在执行.每个job包含几个container,这些container由Aurora来分配和调度.第一个container作为Topology Master.其它的Cont…
小猪猪C++笔记基础篇(五) 关键词:表达式.语句 本章的内容比较简单,基本上没有什么理解上的困难,都是知识上的问题.先开始想要不要写呢,本来是不准备写的,但是既然读了书就要做笔记,还是写一写,毕竟还是有点点收获的东西.那么,我只就一些容易弄糊涂和忽略的地方提出来,为日后变成作参考. 一.表达式 (一)概念 表达式时由一个或者多个运算对象组成的,对一个表达式求值将得到一个结果.把一个运算发和一个或者多个运算对象组合起来可以生成较为复杂的表达式. 作用于一个对象的运算符是一元运算符例如:“&”,“…
论文笔记:Towards Diverse and Natural Image Descriptions via a Conditional GAN ICCV 2017 Paper: http://openaccess.thecvf.com/content_ICCV_2017/papers/Dai_Towards_Diverse_and_ICCV_2017_paper.pdf Implementation(Torch): https://github.com/doubledaibo/gancapt…
[论文笔记]Malware Detection with Deep Neural Network Using Process Behavior 论文基本信息 会议: IEEE(2016 IEEE 40th Annual Computer Software and Applications Conference) 单位: Nagoya University(名古屋大学).NTT Secure Platform Laboratories(NTT安全平台实验室) 方法概述 数据:81个恶意软件日志文件…
Java基于opencv实现图像数字识别(五)-投影法分割字符 水平投影法 1.水平投影法就是先用一个数组统计出图像每行黑色像素点的个数(二值化的图像): 2.选出一个最优的阀值,根据比这个阀值大或小,用一个数组记录相应Y轴的坐标: 3.因为是水平切割我们只需要Y轴的切割点即可,宽度默认图像的宽,高度可以用相邻的切割点相减得到: 4.优化切割点,把切割点靠近的都清除掉 5.设置感应区的区域,切割图片 垂直投影法和水平投影法类似,对比思考一下 因为我做的是表格的切割,你如果想实现验证码的切割,或者…