一:An Attention Pooling based Representation Learning Method for Speech Emotion Recognition(2018 InterSpeech)
(1)论文的模型如下图,输入声谱图,CNN先用两个不同的卷积核分别提取时域特征和频域特征,concat后喂给后面的CNN,在最后一层使用attention pooling的技术,在IEMOCAP的四类情感上取得71.8% 的weighted accuracy (WA) 和68% 的unweighted accuracy (UA),WA就是平时说的准确率,而UA是求各类的准确率然后做平均 。比state-of-art多了3%的WA和4%的UA。
(2)实验中的其中一篇baseline刚好也看了一下(就是下一篇要提到的论文),baseline用的是五折交叉而且带验证集的,而本论文用的是十折交叉只带测试集的,所以直接对比应该是不太科学的。
(3)我在复现这篇论文模型的时候一直都达不到论文中的结果,反复看了一下,最后是注意到论文在attention pooling合并前对bottom-up attention的feature map先做了一个softmax,这个softmax我觉得很奇怪,把它去掉后发现准确率飙升,可以达到论文中的实验结果,甚至可以超出。可能具体实现细节上有一些其它的出入。
(4)复现的时候我用的python_speech_feature库,其中有三种声谱图可以选择,振幅图,能量图,log能量图,debug的时候发现振幅和能量值的range还是挺大的,用log可以把range很大的值压到比较小的范围,所以我用的是log能量图。论文中提到对声谱图做一个预处理,说是可以让训练过程更加稳定,我在实现论文的时候有发现不加这个预处理结果会比较高。预处理的做法是先归一化到[-1, 1]然后做一个u为256的u率压扩,看到这里的256我估计论文是把声谱图直接保存成图像后做的归一化,而我是保存成声谱图矩阵来作为输入。


二:Efficient Emotion Recognition from Speech Using Deep Learning on Spectrograms(2017 InterSpeech)
(1)这篇论文是上一篇论文的其中一个baseline,于是也看了一下。模型结构图如下图,输入的也是声谱图,和上一篇稍微不同的是预处理方面,上篇是切割成小于2s的样本,本文是小于3s。数据集用的也是IEMOCAP。
(2)论文还探讨了几种预处理(频率分辨率用10HZ还是20HZ)和网络结构(几个卷积层,LSTM用多少隐藏单元)的实验影响,以及评估了模型的噪音免疫能力。
(3)论文还介绍了一种两步预测的方法,先经过1个四分类器(4个情感),如果是中立类,则要另外通过3个二分类器来判定最后的情感。这么做可以提升UA,其背后直觉的解释是,一个非中立情感的大部分性质都是中立的,情感性质只占一小部分,所以对于中立类,需要进一步判定。


三:Deep Spectrum Feature Representations for Speech Emotion Recognition(2018 ACM MM workshop——ASMMC-MMAC)
(1)输入的是梅尔尺度的声谱图(可以用librosa库调包得到),论文没有详细介绍输入部分和网络的衔接,CNN这边如何处理变长语音不明确,BLSTM则是把很多帧当成一个序列来输入。数据集用的也是IEMOCAP。
(2)论文也探讨了几种预处理和网络结构的实验影响。比较了声谱图特征和其它两个特征集(eGeMAPS和ComParE)的效果(喂给SVM),声谱图特征会稍微好一点。


四:An Image-based Deep Spectrum Feature Representation for the Recognition of Emotional Speech(2017 ACM MM)
(1)输入声谱图,放缩裁剪成227x227,送进caffe中预训练好的AlexNet训练,然后从第二个全连接层取出特征向量,跟两种传统特征集eGeMAPS,ComParE和BoAW(bag-of-audio-words,对LLDs特征的一种组织,LLDs指那些人工设计的低水平描述符)进行比较(喂给SVM),论文简单介绍了这三种特征。数据集用的是FAU-AIBO,有两种分类方式,一种是五分类,一种是二分类。
(2)做特征比较的时候使用了三个版本的FAU-AIBO数据比较,分别是clean,noisy和de-noised。其中de-noised是对noisy数据做了一个去噪,使用了一个三层LSTM模型,输入是100个Mel谱,模型在几个噪音版本的Audio Visual Interest Corpus上训练。
(3)比较发现声谱图提取的特征对于噪音数据具有更好的鲁棒性,同时可以看到de-noised系统的去噪并没有生效(和noisy版本的表现一样差)。


五:Emotion Recognition from Variable-Length Speech Segments Using Deep Learning on Spectrograms(2018 InterSpeech)
(1)分帧加窗DFT转为log能量谱,然后做0均值1标准差的归一化(根据训练集),使用IEMOCAP数据集。模型结构如下图所示。卷积学习空间信息,GRU学习时间信息,全连接层做最后的分类。
(2)通常的定长做法:为了使得模型能够输入定长样本,通常会把语音划分成等长样本(比如3秒)训练,然后在预测阶段也做分割,做多个预测来平均得分。
(3)变长做法:本文用了一种可以在预测阶段直接接受变长样本而不需要切割的方法,具体做法为:使时间长度类似的样本放在一个batch中然后pad到当前batch最长样本的长度。训练/预测的时候使用一个Mask矩阵(向量)来获得有效(valid)的输入区域,padding区域丢弃即可,需要注意的是max pooling的时候要处理好边界问题,对于跨边界数据把边缘值作为padding数据。
(4)训练的时候给不同长度的句子(loss)分配反比权重。另外为了处理IEMOCAP的不平衡问题给不同类别也分配反比权重,之前几篇在IEMOCAP上做实验的论文也有用到这个方法,还有使用重采样的方法。


六:Investigation on Joint Representation Learning for Robust Feature Extraction in Speech Emotion Recognition (2018 InterSpeech)
(1)最近结合了CNN和RNN和CRNN被广泛用于语音情感识别,然而这些模型只是简单地使用了声谱图的信息,并不能捕捉足够的情感特征。本文提出的HSF-CRNN模型结合了HSF手工特征,可以学习更好的情感特征,在2018 InterSpeech非典型情感挑战数据集 和 IEMOCAP 上做了实验,比baseline(CRNN)的效果要好。
(2)模型如下两图,第一个是baseline,第二个是本文的模型。CRNN部分输入的是声谱图,而LLD(Low Level Descriptors)指的是基频,能量,过零率,MFCC,LPCC等这些特征。HSF(High level Statistics Functions)是在LLD基础上做统计得到的特征,描述了整个utterance的动态情感内容。


七:Using Regional Saliency for Speech Emotion Recognition(2017 ICASSP)
(1)将CNN应用于低水平的时域特征(本文用的是40维的log Mel filterbank)来识别情感显著区,这样就不需要在utterance水平上做统计运算。如下图所示,在时间方向上卷积,一帧一帧地卷,然后用全局最大池化来捕捉时间上的重要区域。数据集用的是IEMOCAP和MSP-IMPROV。
(2)实验表明了论文的模型(使用区域显著信息)比“在utterance水平上做统计然后送入全连接”(使用统计特征)的效果好。实验还对比了和“流行的特征集InterSpeech09,InterSpeech13,GeMAPS和eGeMAPS用在SVM”的表现,有优有劣,不过论文的模型只使用了40个特征。另外还使用了速度增强来提高表现。


八:3-D Convolutional Recurrent Neural Networks with Attention Model for Speech Emotion Recognition(2018 IEEE Signal Processing Letters)
(1)对语音信号DFT后的能量谱进行梅尔滤波然后取log,得到log-Mels,又计算log-Mels的deltas和delta-deltas特征,如下图所示,三种特征组成三个通道,横向上是梅尔滤波组,论文设定为40个,纵向上是时间,丢进3维卷积,池化,线性层,LSTM,然后做个attention,最后接全连接和softmax分类。数据集是IEMOCAP和EmoDB。
(2)论文做了消解(ablation)学习,发现6个卷积层在IEMOCAP上效果最好,5个卷积层在EmoDB上最好。另外对比了DNN-ELM和二维卷积,发现本文模型效果最好。


九:A Feature Fusion Method Based On Extreme Learning Machine For Speech Emotion Recognition(2018 ICASSP)
(1)本文在流行的“声谱图+CRNN”框架上做了改进,第一个改进是加入启发性特征,第二个改进是用ELM的方法替代BLSTM。
(2)启发性特征有384维,是2009 InterSpeech挑战赛提议的统计特征,使用openSMILE获得。数据集为EmoDB
(3)BLSTM结构比较复杂,而ELM是一种单隐层网络的学习算法,它的训练更快。另外,BLSTM在数据不充足的时候训练效果并不理想。

论文笔记:语音情感识别(二)声谱图+CRNN的更多相关文章

  1. 论文笔记:语音情感识别(四)语音特征之声谱图,log梅尔谱,MFCC,deltas

    一:原始信号 从音频文件中读取出来的原始语音信号通常称为raw waveform,是一个一维数组,长度是由音频长度和采样率决定,比如采样率Fs为16KHz,表示一秒钟内采样16000个点,这个时候如果 ...

  2. 论文笔记:语音情感识别(三)手工特征+CRNN

    一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeec ...

  3. 论文笔记:语音情感识别(五)语音特征集之eGeMAPS,ComParE,09IS,BoAW

    一:LLDs特征和HSFs特征 (1)首先区分一下frame和utterance,frame就是一帧语音.utterance是一段语音,是比帧高一级的语音单位,通常指一句话,一个语音样本.uttera ...

  4. INTERSPEECH2020 语音情感分析论文之我见

    摘要:本文为大家带来InterSpeech2020 语音情感分析25篇论文中的其中8篇的总结. 本文分享自华为云社区<INTERSPEECH2020 语音情感分析论文总结一>,原文作者:T ...

  5. 论文笔记:Emotion Recognition From Speech With Recurrent Neural Networks

    动机(Motivation) 在自动语音识别(Automated Speech Recognition, ASR)中,只是把语音内容转成文字,但是人们对话过程中除了文本还有其它重要的信息,比如语调,情 ...

  6. Multimodal —— 看图说话(Image Caption)任务的论文笔记(一)评价指标和NIC模型

    看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.这项任务要求模型可以识别图 ...

  7. 《基于WEB的独立学院补考重修管理系统研究》论文笔记(二十)

    <基于WEB的独立学院补考重修管理系统研究>论文笔记(1) 一.基本信息 标题:基于WEB的独立学院补考重修管理系统研究 时间:2016 来源:南通大学杏林学院 关键词:WEB:补考重修管 ...

  8. 如何将声学的spectrogram(声谱图)重新反变换成时域语音信号

    最近在研究一些信号分析的事情,感兴趣如何将频谱信号反变换成时域信号.fft 与ifft可以顺畅的转变,但是这个是一帧信号,当时间较长的信号再一起是,通过反变换变成一帧一帧的时域信号,如何把他们拼接起来 ...

  9. 论文笔记(1):Deep Learning.

    论文笔记1:Deep Learning         2015年,深度学习三位大牛(Yann LeCun,Yoshua Bengio & Geoffrey Hinton),合作在Nature ...

随机推荐

  1. 在jmeter测试中模拟不同的带宽环境

    怎么去测试在手机app中和在web的不同的连接速度对服务器的影响呢? 大部分情况下,手机终端用户通过移动网络访问网站.所以在不同的网络连接数据下,我们的网站或程序可以同时处理多少链接?今天,这篇文件就 ...

  2. python requests模块中返回时间elapsed解析

    一.问题: Python 中requests库在发送http请求时相当方便好用,但在使用时一直受一个问题困扰,怎么才能查看请求时长呢? 自己写时间函数再相减?NO,这个方法肯定不行. 二.解决: 好吧 ...

  3. [转]理解Linux的处理器负载均值

    [转自]http://www.mike.org.cn/articles/understanding-of-linux-processor-load-average/ 你可能对于Linux的负载均值(l ...

  4. thinkphp开启事物的简单方法

    使用thinkphp开启事务,ThinkPHP 3.2.2实现事务操作的方法: 开启事务: $User->startTrans() 提交事务: $User->commit() 事务回滚: ...

  5. java成员变量和局部变量的初始化和内存中的运行机制

    成员变量: 当系统加载类或创建类的实例时,系统会自动为成员变量分配内存空间,并在分配内存空间后,自动为成员变量指定初始值. eyeNum是类属性.name是实例属性 所有person实例访问eyeNu ...

  6. HDFS 命令深入浅出

    HDFS 命令深入浅出~ [root@neusoft-master ~]# hadoop dfs Usage: hadoop fs [generic options] [-appendToFile & ...

  7. python中super的使用方法

    说白了,super的使用就是要子类要调用父类的方法,我们就用super,那你要有调用的规范,我们明白这个规范就可以了. 在python2和python3中,调用方法不同,注意就是了.Python3.x ...

  8. 11.21 CSS学习-下午

    CSS框模型,看似一个盒子,封装周围的HTML元素,包括:边距.边框.填充和实际内容Margin:清除边框区域,没有背景色,完全透明Border:边框周围的填充和内容,边框是受到盒子的背景色影响Pad ...

  9. java正则表达式使用

    用正则表达式进行字符串校验,截取十分方便,项目开发中灵活的使用正则表达式能让你的代码简洁优雅并且不易出错.在实际的应用中,掌握以下几点知识就可以应付绝大多数的开发场景了. 1. 字符串开始结束匹配:^ ...

  10. 洛谷P1494小Z的袜子 [国家集训队] 莫队

    正解:莫队 解题报告: 这是,传送门qwq 昂大概是莫队板子题? 首先可以推出来答案是(∑C(2,color[i]))/C(2,r-l+1)趴?挺显然的不解释了qwq 然后显然除数直接做就成,考虑怎么 ...