论文标题:Multi-task Learning for Multi-modal Emotion Recognition and Sentiment Analysis

论文链接:http://arxiv.org/abs/1905.05812

文章同时使用视觉、语音、和文本(语言)信息进行情感分析,通过增加视觉和语音信号,补足了一些无法通过文本来进行判断的情况,例如下图中,第一句话需要图像才能判断为负面情绪,第二句话同时语音和图像才能判断为负面情绪。

一、模型架构

模型整体思路

  • 1.首先,每一个模态的信息都会通过一个bi-directional GRU ,双向GRU可以有效的表征单一模态内部的相互关系。
  • 2.得到的表征 A V T 需要通过本文提出的CIM 注意力机制去获得俩俩模态之间的互注意力( AV , AT, VT ),通过这个步骤可以获取到对模型分类最重要的信息。
  • 3.将获得的注意力和 单模态特征 A V T进行拼接,得到最终表征。
  • 4.将表征链接最后的分类层,进行分类任务。

CIM注意力机制( Contextual Inter-modal (CIM) Attention

Framework )

本文主要的特色是提出了CIM注意力方法,来提取模态间的互注意力,筛选出关键的信息,思路如下:

  • 1.通过两个表征矩阵互相乘积得到跨模态信息M1,M2(可以理解为,一个模态中,每一个维度的信息和另外一个模态的所有维度信息做点积操作,可以得到两个模态之间的关系表征,类似于通过外积进行模态融合的bilinear pooling 操作)
  • 2.通过soft-attention得到注意力分布N1,N2,在通过与特征进行乘积得到最终的注意力表征信息O1和O2。 这里的N1[ i , j ] 表示的是第一个模态第 i 个特征 与 第二个模态 第 j 个特征相关性,值越大,说明这个特征跟另外一个特征的交互性越强,也就越重要,所以O1 和 O2 得到的就是对 互注意力 贡献最大的特征的维度信息
  • 3.通过注意力表征O1,O2与特征相乘得到最终的注意力特征A1,A2,这里使用的是乘法过滤机制,用过注意力表征和特征相乘,得到最终的经过过滤的特征。

二、数据集 CMU-MOSEI

全称: CMU Multi-modal Opinion Sentiment and Emotion Intensity (CMU-MOSEI)

总共包含 3,229 个视频片段,总共有23,000个句子,来自于1,000 个 youtueb视频 。

其中Training Set:16216,Validation Set : 1835 Test Set : 4625  

每个样本对应六个标签:anger, disgust, fear, happy, sad and surprise,具体统计如下图Table2 所示

文章中还测试了多标签分类任务,其中关于数据集多标签的统计入下图Table3 所示

三、结果

单模态下,语言模态效果最好,双模态下,语言+视觉 效果最好,总体而言三个模态效果最好,但是不明显。

多标签分类的效果整体上都领先于单标签分类

主要原因是多标签可以捕获更多的信息,来帮助模型进行判断

与已有模型对比也取得了很好的效果

论文阅读:Multi-task Learning for Multi-modal Emotion Recognition and Sentiment Analysis的更多相关文章

  1. [论文阅读笔记] Adversarial Learning on Heterogeneous Information Networks

    [论文阅读笔记] Adversarial Learning on Heterogeneous Information Networks 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问 ...

  2. 【论文阅读】Between-class Learning for Image Classification

    文章:Between-class Learning for Image Classification 链接:https://arxiv.org/pdf/1711.10284.pdf CVPR2018 ...

  3. 【论文阅读】CVPR2022: Learning from all vehicles

    Column: March 23, 2022 1:08 PM Last edited time: March 23, 2022 11:13 PM Sensor/组织: 现leaderboard第一名, ...

  4. 论文阅读 Inductive Representation Learning on Temporal Graphs

    12 Inductive Representation Learning on Temporal Graphs link:https://arxiv.org/abs/2002.07962 本文提出了时 ...

  5. 论文阅读:MDNet: Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

    前言 CVPR2016 来自Korea的POSTECH这个团队   大部分算法(例如HCF, DeepLMCF)只是用在大量数据上训练好的(pretrain)的一些网络如VGG作为特征提取器,这些做法 ...

  6. [论文阅读] Deep Residual Learning for Image Recognition(ResNet)

    ResNet网络,本文获得2016 CVPR best paper,获得了ILSVRC2015的分类任务第一名. 本篇文章解决了深度神经网络中产生的退化问题(degradation problem). ...

  7. 论文阅读《End-to-End Learning of Geometry and Context for Deep Stereo Regression》

    端到端学习几何和背景的深度立体回归 摘要     本文提出一种新型的深度学习网络,用于从一对矫正过的立体图像回归得到其对应的视差图.我们利用问题(对象)的几何知识,形成一个使用深度特征表示的代价量(c ...

  8. 论文阅读 | CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data

    CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data ...

  9. 【CV论文阅读】Two stream convolutional Networks for action recognition in Vedios

    论文的三个贡献 (1)提出了two-stream结构的CNN,由空间和时间两个维度的网络组成. (2)使用多帧的密集光流场作为训练输入,可以提取动作的信息. (3)利用了多任务训练的方法把两个数据集联 ...

随机推荐

  1. C#LeetCode刷题之#167-两数之和 II - 输入有序数组(Two Sum II - Input array is sorted)

    问题 该文章的最新版本已迁移至个人博客[比特飞],单击链接 https://www.byteflying.com/archives/3903 访问. 给定一个已按照升序排列 的有序数组,找到两个数使得 ...

  2. Flutter 容器Container类和布局Layout类

    1.布局和容器 [布局]是把[容器]按照不同的方式排列起来. Scaffold包含的主要部门:appBar,body,bottomNavigator 其中body可以是一个布局组件,也可以是一个容器组 ...

  3. Who Am I? Personality Detection based on Deep Learning for Texts 阅读笔记

    文章目录 源代码github地址 摘要 2CLSTM 过程 1. 词嵌入 2. 2LSTM处理 3. CNN学习LSGCNN学习LSG 4. Softmax分类 源代码github地址 https:/ ...

  4. P、NP、NPC问题详解

    转载地址 https://blog.csdn.net/bcb5202/article/details/51202589 P.NP.NPC 概念 > P问题:能够在多项式时间内解决的决策问题. - ...

  5. 将阿里矢量图添加到element-ui

    在阿里矢量图的操作 选择需要的图标添加至购物车   选择图标 将购物车中的图标, 添加至项目   添加至项目 会自动跳转到我的项目   项目页面 在 更多操作 中选择 编辑项目   更多操作 将 Fo ...

  6. hdfs学习(二)

    一.HDFS文件限额配置 在多人共用HDFS的环境下,配置设置非常重要.特别是在Hadoop处理大量资料的环境,如果没有配额管理,很容易把所有的空间用完造成别人无法存取.Hdfs的配额设定是针对目录而 ...

  7. SparkSQL /DataFrame /Spark RDD谁快?

    如题所示,SparkSQL /DataFrame /Spark RDD谁快? 按照官方宣传以及大部分人的理解,SparkSQL和DataFrame虽然基于RDD,但是由于对RDD做了优化,所以性能会优 ...

  8. 精讲RestTemplate第9篇-如何通过HTTP Basic Auth认证

    本文是精讲RestTemplate第9篇,前篇的blog访问地址如下: 精讲RestTemplate第1篇-在Spring或非Spring环境下如何使用 精讲RestTemplate第2篇-多种底层H ...

  9. 细讲前端设置cookie, 储存用户登录信息

    细讲前端设置cookie 引言 正文 一.设置cookie 二.查看cookie 三.删除cookie 四.封装cookie操作 结束语 引言 我们都知道如果想做一个用户登录并使浏览器保存其登录信息, ...

  10. Ubuntu 20.04美化及QQ、微信安装

    1.前言 电脑用了很多年了,安装的windows7,经常出现很卡的情况,于是今天索性重装了系统.既然重装系统,选择什么系统好呢,windows10系统的话,对于我这老旧本来说,可能真的是为难它了.刚好 ...