论文标题:Multi-task Learning for Multi-modal Emotion Recognition and Sentiment Analysis

论文链接:http://arxiv.org/abs/1905.05812

文章同时使用视觉、语音、和文本(语言)信息进行情感分析,通过增加视觉和语音信号,补足了一些无法通过文本来进行判断的情况,例如下图中,第一句话需要图像才能判断为负面情绪,第二句话同时语音和图像才能判断为负面情绪。

一、模型架构

模型整体思路

  • 1.首先,每一个模态的信息都会通过一个bi-directional GRU ,双向GRU可以有效的表征单一模态内部的相互关系。
  • 2.得到的表征 A V T 需要通过本文提出的CIM 注意力机制去获得俩俩模态之间的互注意力( AV , AT, VT ),通过这个步骤可以获取到对模型分类最重要的信息。
  • 3.将获得的注意力和 单模态特征 A V T进行拼接,得到最终表征。
  • 4.将表征链接最后的分类层,进行分类任务。

CIM注意力机制( Contextual Inter-modal (CIM) Attention

Framework )

本文主要的特色是提出了CIM注意力方法,来提取模态间的互注意力,筛选出关键的信息,思路如下:

  • 1.通过两个表征矩阵互相乘积得到跨模态信息M1,M2(可以理解为,一个模态中,每一个维度的信息和另外一个模态的所有维度信息做点积操作,可以得到两个模态之间的关系表征,类似于通过外积进行模态融合的bilinear pooling 操作)
  • 2.通过soft-attention得到注意力分布N1,N2,在通过与特征进行乘积得到最终的注意力表征信息O1和O2。 这里的N1[ i , j ] 表示的是第一个模态第 i 个特征 与 第二个模态 第 j 个特征相关性,值越大,说明这个特征跟另外一个特征的交互性越强,也就越重要,所以O1 和 O2 得到的就是对 互注意力 贡献最大的特征的维度信息
  • 3.通过注意力表征O1,O2与特征相乘得到最终的注意力特征A1,A2,这里使用的是乘法过滤机制,用过注意力表征和特征相乘,得到最终的经过过滤的特征。

二、数据集 CMU-MOSEI

全称: CMU Multi-modal Opinion Sentiment and Emotion Intensity (CMU-MOSEI)

总共包含 3,229 个视频片段,总共有23,000个句子,来自于1,000 个 youtueb视频 。

其中Training Set:16216,Validation Set : 1835 Test Set : 4625  

每个样本对应六个标签:anger, disgust, fear, happy, sad and surprise,具体统计如下图Table2 所示

文章中还测试了多标签分类任务,其中关于数据集多标签的统计入下图Table3 所示

三、结果

单模态下,语言模态效果最好,双模态下,语言+视觉 效果最好,总体而言三个模态效果最好,但是不明显。

多标签分类的效果整体上都领先于单标签分类

主要原因是多标签可以捕获更多的信息,来帮助模型进行判断

与已有模型对比也取得了很好的效果

论文阅读:Multi-task Learning for Multi-modal Emotion Recognition and Sentiment Analysis的更多相关文章

  1. [论文阅读笔记] Adversarial Learning on Heterogeneous Information Networks

    [论文阅读笔记] Adversarial Learning on Heterogeneous Information Networks 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问 ...

  2. 【论文阅读】Between-class Learning for Image Classification

    文章:Between-class Learning for Image Classification 链接:https://arxiv.org/pdf/1711.10284.pdf CVPR2018 ...

  3. 【论文阅读】CVPR2022: Learning from all vehicles

    Column: March 23, 2022 1:08 PM Last edited time: March 23, 2022 11:13 PM Sensor/组织: 现leaderboard第一名, ...

  4. 论文阅读 Inductive Representation Learning on Temporal Graphs

    12 Inductive Representation Learning on Temporal Graphs link:https://arxiv.org/abs/2002.07962 本文提出了时 ...

  5. 论文阅读:MDNet: Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

    前言 CVPR2016 来自Korea的POSTECH这个团队   大部分算法(例如HCF, DeepLMCF)只是用在大量数据上训练好的(pretrain)的一些网络如VGG作为特征提取器,这些做法 ...

  6. [论文阅读] Deep Residual Learning for Image Recognition(ResNet)

    ResNet网络,本文获得2016 CVPR best paper,获得了ILSVRC2015的分类任务第一名. 本篇文章解决了深度神经网络中产生的退化问题(degradation problem). ...

  7. 论文阅读《End-to-End Learning of Geometry and Context for Deep Stereo Regression》

    端到端学习几何和背景的深度立体回归 摘要     本文提出一种新型的深度学习网络,用于从一对矫正过的立体图像回归得到其对应的视差图.我们利用问题(对象)的几何知识,形成一个使用深度特征表示的代价量(c ...

  8. 论文阅读 | CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data

    CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data ...

  9. 【CV论文阅读】Two stream convolutional Networks for action recognition in Vedios

    论文的三个贡献 (1)提出了two-stream结构的CNN,由空间和时间两个维度的网络组成. (2)使用多帧的密集光流场作为训练输入,可以提取动作的信息. (3)利用了多任务训练的方法把两个数据集联 ...

随机推荐

  1. C#LeetCode刷题之#27-移除元素(Remove Element)

    问题 该文章的最新版本已迁移至个人博客[比特飞],单击链接 https://www.byteflying.com/archives/3624 访问. 给定一个数组 nums 和一个值 val,你需要原 ...

  2. Vue 离开页面时的校验-mixin-beforeRouteLeave

    一定要看下函数前的注释, 需要在使用的页面定义[needCheckFlag]data属性 一定要看下函数前的注释, 需要在使用的页面定义[needCheckFlag]data属性 一定要看下函数前的注 ...

  3. 精讲RestTemplate第6篇-文件上传下载与大文件流式下载

    本文是精讲RestTemplate第6篇,前篇的blog访问地址如下: 精讲RestTemplate第1篇-在Spring或非Spring环境下如何使用 精讲RestTemplate第2篇-多种底层H ...

  4. element-ui 格式化树形数组在table组件中展示(单元格合并)

    最近做的项目涉及到很多单元格合并问题,element-ui组件对于单元格合并的处理虽然很灵活,但是需要事先计算好每个单元格合并的rowspan和colspan,直接在span-method属性中计算实 ...

  5. 【深度学习】:一门入门3D计算机视觉

    一.导论 目前深度学习已经在2D计算机视觉领域取得了非凡的成果,比如使用一张图像进行目标检测,语义分割,对视频当中的物体进行目标跟踪等任务都有非常不错的效果.传统的3D计算机视觉则是基于纯立体几何来实 ...

  6. ybt1107题解和方法总结

    今天花了三个小时的时间刷了些基础题,虽说是简单题,但是有一些还是有点难度的 比如ybt1107,我死嗑了半个小时. [题目描述] 某校大门外长度为L的马路上有一排树,每两棵相邻的树之间的间隔都是1米. ...

  7. sizeof的用法 2007-12-19 11:06

    sizeof的作用是什么?sizeof是C/C++中的一个操作符(operator),简单的说其作用就是返回一个对象或者类型所占的内存字节数.其返回值类型为size_t,在头文件stddef.h中定义 ...

  8. SpringBoot ---yml 整合 Druid(1.1.23) 数据源

    SpringBoot ---yml 整合 Druid(1.1.23) 数据源 搜了一下,网络上有在配置类写 @Bean 配置的,也有 yml 配置的. 笔者尝试过用配置类配置 @Bean 的方法,结果 ...

  9. Spring Boot系列(三):Spring Boot整合Mybatis源码解析

    一.Mybatis回顾 1.MyBatis介绍 Mybatis是一个半ORM框架,它使用简单的 XML 或注解用于配置和原始映射,将接口和Java的POJOs(普通的Java 对象)映射成数据库中的记 ...

  10. 微信公众号请求code时报redirect_uri 参数错误

    (1) 检查微信公众号中"接口权限"--"网页授权获取用户基本信息"中的网页授权域名.域名不带http(s) (2)如果在拼接跳转到微信授权接口的URL时,使用 ...