论文笔记：语音情感识别（二）声谱图+CRNN

一：An Attention Pooling based Representation Learning Method for Speech Emotion Recognition（2018 InterSpeech）
（1）论文的模型如下图，输入声谱图，CNN先用两个不同的卷积核分别提取时域特征和频域特征，concat后喂给后面的CNN，在最后一层使用attention pooling的技术，在IEMOCAP的四类情感上取得71.8% 的weighted accuracy (WA) 和68% 的unweighted accuracy (UA)，WA就是平时说的准确率，而UA是求各类的准确率然后做平均。比state-of-art多了3%的WA和4%的UA。
（2）实验中的其中一篇baseline刚好也看了一下（就是下一篇要提到的论文），baseline用的是五折交叉而且带验证集的，而本论文用的是十折交叉只带测试集的，所以直接对比应该是不太科学的。
（3）我在复现这篇论文模型的时候一直都达不到论文中的结果，反复看了一下，最后是注意到论文在attention pooling合并前对bottom-up attention的feature map先做了一个softmax，这个softmax我觉得很奇怪，把它去掉后发现准确率飙升，可以达到论文中的实验结果，甚至可以超出。可能具体实现细节上有一些其它的出入。
（4）复现的时候我用的python_speech_feature库，其中有三种声谱图可以选择，振幅图，能量图，log能量图，debug的时候发现振幅和能量值的range还是挺大的，用log可以把range很大的值压到比较小的范围，所以我用的是log能量图。论文中提到对声谱图做一个预处理，说是可以让训练过程更加稳定，我在实现论文的时候有发现不加这个预处理结果会比较高。预处理的做法是先归一化到[-1, 1]然后做一个u为256的u率压扩，看到这里的256我估计论文是把声谱图直接保存成图像后做的归一化，而我是保存成声谱图矩阵来作为输入。

二：Efficient Emotion Recognition from Speech Using Deep Learning on Spectrograms（2017 InterSpeech）
（1）这篇论文是上一篇论文的其中一个baseline，于是也看了一下。模型结构图如下图，输入的也是声谱图，和上一篇稍微不同的是预处理方面，上篇是切割成小于2s的样本，本文是小于3s。数据集用的也是IEMOCAP。
（2）论文还探讨了几种预处理（频率分辨率用10HZ还是20HZ）和网络结构（几个卷积层，LSTM用多少隐藏单元）的实验影响，以及评估了模型的噪音免疫能力。
（3）论文还介绍了一种两步预测的方法，先经过1个四分类器（4个情感），如果是中立类，则要另外通过3个二分类器来判定最后的情感。这么做可以提升UA，其背后直觉的解释是，一个非中立情感的大部分性质都是中立的，情感性质只占一小部分，所以对于中立类，需要进一步判定。

三：Deep Spectrum Feature Representations for Speech Emotion Recognition（2018 ACM MM workshop——ASMMC-MMAC）
（1）输入的是梅尔尺度的声谱图（可以用librosa库调包得到），论文没有详细介绍输入部分和网络的衔接，CNN这边如何处理变长语音不明确，BLSTM则是把很多帧当成一个序列来输入。数据集用的也是IEMOCAP。
（2）论文也探讨了几种预处理和网络结构的实验影响。比较了声谱图特征和其它两个特征集（eGeMAPS和ComParE）的效果（喂给SVM），声谱图特征会稍微好一点。

四：An Image-based Deep Spectrum Feature Representation for the Recognition of Emotional Speech（2017 ACM MM）
（1）输入声谱图，放缩裁剪成227x227，送进caffe中预训练好的AlexNet训练，然后从第二个全连接层取出特征向量，跟两种传统特征集eGeMAPS，ComParE和BoAW（bag-of-audio-words，对LLDs特征的一种组织，LLDs指那些人工设计的低水平描述符）进行比较（喂给SVM），论文简单介绍了这三种特征。数据集用的是FAU-AIBO，有两种分类方式，一种是五分类，一种是二分类。
（2）做特征比较的时候使用了三个版本的FAU-AIBO数据比较，分别是clean，noisy和de-noised。其中de-noised是对noisy数据做了一个去噪，使用了一个三层LSTM模型，输入是100个Mel谱，模型在几个噪音版本的Audio Visual Interest Corpus上训练。
（3）比较发现声谱图提取的特征对于噪音数据具有更好的鲁棒性，同时可以看到de-noised系统的去噪并没有生效（和noisy版本的表现一样差）。

五：Emotion Recognition from Variable-Length Speech Segments Using Deep Learning on Spectrograms（2018 InterSpeech）
（1）分帧加窗DFT转为log能量谱，然后做0均值1标准差的归一化（根据训练集），使用IEMOCAP数据集。模型结构如下图所示。卷积学习空间信息，GRU学习时间信息，全连接层做最后的分类。
（2）通常的定长做法：为了使得模型能够输入定长样本，通常会把语音划分成等长样本（比如3秒）训练，然后在预测阶段也做分割，做多个预测来平均得分。
（3）变长做法：本文用了一种可以在预测阶段直接接受变长样本而不需要切割的方法，具体做法为：使时间长度类似的样本放在一个batch中然后pad到当前batch最长样本的长度。训练/预测的时候使用一个Mask矩阵（向量）来获得有效（valid）的输入区域，padding区域丢弃即可，需要注意的是max pooling的时候要处理好边界问题，对于跨边界数据把边缘值作为padding数据。
（4）训练的时候给不同长度的句子（loss）分配反比权重。另外为了处理IEMOCAP的不平衡问题给不同类别也分配反比权重，之前几篇在IEMOCAP上做实验的论文也有用到这个方法，还有使用重采样的方法。

六：Investigation on Joint Representation Learning for Robust Feature Extraction in Speech Emotion Recognition （2018 InterSpeech）
（1）最近结合了CNN和RNN和CRNN被广泛用于语音情感识别，然而这些模型只是简单地使用了声谱图的信息，并不能捕捉足够的情感特征。本文提出的HSF-CRNN模型结合了HSF手工特征，可以学习更好的情感特征，在2018 InterSpeech非典型情感挑战数据集和 IEMOCAP 上做了实验，比baseline（CRNN）的效果要好。
（2）模型如下两图，第一个是baseline，第二个是本文的模型。CRNN部分输入的是声谱图，而LLD（Low Level Descriptors）指的是基频，能量，过零率，MFCC，LPCC等这些特征。HSF（High level Statistics Functions）是在LLD基础上做统计得到的特征，描述了整个utterance的动态情感内容。

七：Using Regional Saliency for Speech Emotion Recognition（2017 ICASSP）
（1）将CNN应用于低水平的时域特征（本文用的是40维的log Mel filterbank）来识别情感显著区，这样就不需要在utterance水平上做统计运算。如下图所示，在时间方向上卷积，一帧一帧地卷，然后用全局最大池化来捕捉时间上的重要区域。数据集用的是IEMOCAP和MSP-IMPROV。
（2）实验表明了论文的模型（使用区域显著信息）比“在utterance水平上做统计然后送入全连接”（使用统计特征）的效果好。实验还对比了和“流行的特征集InterSpeech09，InterSpeech13，GeMAPS和eGeMAPS用在SVM”的表现，有优有劣，不过论文的模型只使用了40个特征。另外还使用了速度增强来提高表现。

八：3-D Convolutional Recurrent Neural Networks with Attention Model for Speech Emotion Recognition（2018 IEEE Signal Processing Letters）
（1）对语音信号DFT后的能量谱进行梅尔滤波然后取log，得到log-Mels，又计算log-Mels的deltas和delta-deltas特征，如下图所示，三种特征组成三个通道，横向上是梅尔滤波组，论文设定为40个，纵向上是时间，丢进3维卷积，池化，线性层，LSTM，然后做个attention，最后接全连接和softmax分类。数据集是IEMOCAP和EmoDB。
（2）论文做了消解（ablation）学习，发现6个卷积层在IEMOCAP上效果最好，5个卷积层在EmoDB上最好。另外对比了DNN-ELM和二维卷积，发现本文模型效果最好。

九：A Feature Fusion Method Based On Extreme Learning Machine For Speech Emotion Recognition（2018 ICASSP）
（1）本文在流行的“声谱图+CRNN”框架上做了改进，第一个改进是加入启发性特征，第二个改进是用ELM的方法替代BLSTM。
（2）启发性特征有384维，是2009 InterSpeech挑战赛提议的统计特征，使用openSMILE获得。数据集为EmoDB
（3）BLSTM结构比较复杂，而ELM是一种单隐层网络的学习算法，它的训练更快。另外，BLSTM在数据不充足的时候训练效果并不理想。

论文笔记：语音情感识别（二）声谱图+CRNN的更多相关文章

论文笔记：语音情感识别（四）语音特征之声谱图，log梅尔谱，MFCC，deltas
一:原始信号从音频文件中读取出来的原始语音信号通常称为raw waveform,是一个一维数组,长度是由音频长度和采样率决定,比如采样率Fs为16KHz,表示一秒钟内采样16000个点,这个时候如果 ...
论文笔记：语音情感识别（三）手工特征+CRNN
一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeec ...
论文笔记：语音情感识别（五）语音特征集之eGeMAPS，ComParE，09IS，BoAW
一:LLDs特征和HSFs特征 (1)首先区分一下frame和utterance,frame就是一帧语音.utterance是一段语音,是比帧高一级的语音单位,通常指一句话,一个语音样本.uttera ...
INTERSPEECH2020 语音情感分析论文之我见
摘要:本文为大家带来InterSpeech2020 语音情感分析25篇论文中的其中8篇的总结. 本文分享自华为云社区<INTERSPEECH2020 语音情感分析论文总结一>,原文作者:T ...
论文笔记：Emotion Recognition From Speech With Recurrent Neural Networks
动机(Motivation) 在自动语音识别(Automated Speech Recognition, ASR)中,只是把语音内容转成文字,但是人们对话过程中除了文本还有其它重要的信息,比如语调,情 ...
Multimodal —— 看图说话（Image Caption）任务的论文笔记（一）评价指标和NIC模型
看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.这项任务要求模型可以识别图 ...
《基于WEB的独立学院补考重修管理系统研究》论文笔记（二十）
<基于WEB的独立学院补考重修管理系统研究>论文笔记(1) 一.基本信息标题:基于WEB的独立学院补考重修管理系统研究时间:2016 来源:南通大学杏林学院关键词:WEB:补考重修管 ...
如何将声学的spectrogram（声谱图）重新反变换成时域语音信号
最近在研究一些信号分析的事情,感兴趣如何将频谱信号反变换成时域信号.fft 与ifft可以顺畅的转变,但是这个是一帧信号,当时间较长的信号再一起是,通过反变换变成一帧一帧的时域信号,如何把他们拼接起来 ...
论文笔记(1)：Deep Learning.
论文笔记1:Deep Learning 2015年,深度学习三位大牛(Yann LeCun,Yoshua Bengio & Geoffrey Hinton),合作在Nature ...

随机推荐

【咸鱼教程】JsZip压缩与解压教程
引擎版本3.0.6 教程目录一为什么要用jszip二如何使用jszip 2.1 下载jszip库 2.2 导入jszip库 2.3 加载和解压zip代码三 Demo源码下载一 ...
关于在Linux下apache-maven的安装
本文所涉及到的软件如下:jdk版本号:1.7.0_45apache-maven版本号:3.1.1 apache-maven的安装过程如下: apache-maven的官方网址:http://maven ...
分布式搜索elasticsearch几个概念解析
原文链接:http://blog.csdn.net/july_2/article/details/24367177 介绍下es的几个概念:cluster 代表一个集群,集群中有多个节点,其中有 ...
Testlink自动执行用例小程序
记得原来在一个公司时,具体很多原因,testlink上项目中的用例都需要执行形成漂亮的报告,但实际测试中又不需要去执行,所以就必须将用例根据上一次测试报告一个一个手工去贴结果刷用例,几百条用例,几天就 ...
mac操作
资料搜集: mac终端常用命令操作 mac osx常用快捷键一览 mac chrome快捷键
MPD大会北京上海两站圆满落幕
MPD大会北京上海两站圆满落幕由麦思博(MSUP)主办的亚太软件研发团队管理峰会(以下简称MPD大会)分别于6月15及6月22日在北京.上海成功举办.国内外知名软件.互联网行业项目领头人及业内从业人 ...
为什么面试要问 hashmap 的原理
我们都知道哪里要用HashMap,知道Hashtable和HashMap之间的区别,那么为何这道面试题如此特殊呢?是因为这道题考察的深度很深.这题经常出现在高级或中高级面试中.投资银行更喜欢问这个问题 ...
jquery中的ajax方法参数的用法和他的含义：
转自:https://www.cnblogs.com/huiyuantang/p/5458278.html 1.url: 要求为String类型的参数,(默认为当前页地址)发送请求的地址. 2.ty ...
ECharts修改坐标轴，坐标轴字体，坐标轴网格样式以及控制坐标轴是否显示
转自:http://blog.csdn.net/kirinlau/article/details/72876689 首先要将一个图表显示在前端页面上: var myChart = echarts.in ...
vue-cli搭建vue项目更新
vue-cli搭建vue项目更新更新之前一篇博客错误的地方,在使用vue init webpack xxx 之后并不需要使用npm install 下载依赖包,而是直接根据提示打开文件夹再npm ...

论文笔记：语音情感识别（二）声谱图+CRNN

论文笔记：语音情感识别（二）声谱图+CRNN的更多相关文章

随机推荐

热门专题