Note:[ wechat:Y466551 | 付费咨询,非诚勿扰 ]

论文信息

论文标题:CNN-Based Broad Learning for Cross-Domain Emotion Classification
论文作者:Rong Zeng, Hongzhan Liu , Sancheng Peng , Lihong Cao, Aimin Yang, Chengqing Zong,Guodong Zhou
论文来源:2023 aRxiv
论文地址:download 
论文代码:download
视屏讲解:click

1 介绍

  出发点:许多研究者关注的是传统的跨域情感分类,即粗粒度情绪分类。然而,跨领域的情绪分类问题却很少被涉及到。

  摘要:在本文中,提出了一种基于卷积神经网络(CNN)的广泛学习方法,通过结合 CNN 和广泛学习的强度来进行跨域情感分类。首先利用 CNN 同时提取领域不变和领域特定特征,通过广泛学习来训练两个更有效的分类器。然后,为了利用这两个分类器,设计了一个共同训练模型来为它们进行提升。

  贡献:

    • 提出了一种结合深度学习和广泛学习的模型,即基于卷积神经网络(CNN)的广泛学习(CBL);
    • 开发了四个真实世界的数据集,涉及四个不同领域;
    • 结果表明,该方法比基线方法能更有效地提高情绪分类的性能;

2 方法

模型框架:

  

2.1 Maximum mean discrepancy

  MMD 公式:

    $\operatorname{MMD}\left(X_{s}, X_{t}\right)=\left\|\frac{1}{N_{s}} \sum_{i=1}^{N_{s}} \phi\left(x_{s}^{i}\right)-\frac{1}{N_{t}} \sum_{i=1}^{N_{t}} \phi\left(x_{t}^{i}\right)\right\|_{\mathcal{H}}^{2}  \quad\quad(1)$

2.2 Feature extraction

  本小节,为了同时提取 DIF(域不变特征) 和 DSF (域特定特征),先使用两个不同的映射器将数据映射到一个域不变的空间和一个域特定的空间中。

  首先使用 BERT 来生成 $X_s$ 和 $X_{tl}$ 的词向量,其描述如下:

    $\begin{array}{l}\boldsymbol{W}_{i n v}^{s}=\operatorname{BERT}_{i n v}\left(X_{s} ; \theta_{i n v}^{\mathrm{BERT}}\right) \in \mathbf{R}^{\left(N_{s} l\right) \times 768} \\\boldsymbol{W}_{i n v}^{t l}=\operatorname{BERT}_{i n v}\left(X_{t l} ; \theta_{i n v}^{\mathrm{BERT}}\right) \in \mathbf{R}^{\left(N_{t l} l\right) \times 768}  \\\boldsymbol{W}_{s p e c}^{s}=\operatorname{BERT}_{s p e c}\left(X_{s} ; \theta_{\text {spec }}^{\mathrm{BERT}}\right) \in \mathbf{R}^{\left(N_{s} l\right) \times 768}  \\\boldsymbol{W}_{s p e c}^{t l}=\operatorname{BERT}_{s p e c}\left(X_{t l} ; \boldsymbol{\theta}_{\text {spec }}^{\mathrm{BERT}}\right) \in \mathbf{R}^{\left(N_{t l} l\right) \times 768}\end{array} \quad\quad(2)$

  基于此,使用 CNN 和 最大池化 ,提取 n-gram feature 和 salient feature,可以描述如下:

    $\begin{array}{l}\boldsymbol{F}_{i n v}^{s}=\mathrm{CNN}_{i n v}\left(\boldsymbol{W}_{i n v}^{s} ; \theta_{i n v}^{\mathrm{CNN}}\right) \in \mathbf{R}^{N_{s} \times q}  \\\boldsymbol{F}_{i n v}^{t l}=\mathrm{CNN}_{i n v}\left(\boldsymbol{W}_{i n v}^{t l} ; \theta_{i n v}^{\mathrm{CNN}}\right) \in \mathbf{R}^{N_{t l} \times q}  \\\boldsymbol{F}_{s p e c}^{s}=\mathrm{CNN}_{s p e c}\left(\boldsymbol{W}_{s p e c}^{s} ; \boldsymbol{\theta}_{\text {spec }}^{\mathrm{CNN}}\right) \in \mathbf{R}^{N_{s} \times q}  \\\boldsymbol{F}_{\text {spec }}^{t l}=\mathrm{CNN}_{\text {spec }}\left(\boldsymbol{W}_{\text {spec }}^{t l} ; \boldsymbol{\theta}_{\text {spec }}^{\mathrm{CNN}}\right) \in \mathbf{R}^{N_{t l} \times q}\end{array} \quad\quad(3)$

  对于 DIF,希望它能够编码源域和目标域共享的特性:

    $L_{s i m}=\operatorname{MMD}\left(\boldsymbol{F}_{i n v}^{s}, \boldsymbol{F}_{i n v}^{t l}\right) \quad\quad(4)$

  对于 DSF,希望它只从目标域中提取特征,这些特性通常应该出现在目标域中,而很少出现在源域中:

    $L_{d i f f}=-\operatorname{MMD}\left(\boldsymbol{F}_{\text {spec }}^{s}, \boldsymbol{F}_{\text {spec }}^{t l}\right) \quad\quad(5)$

2.3 BL-Based classifier

  为增强节点语义特征,设计了基于 DIF 的域不变分类器(DIC)和基于 DSF 的域特定分类器(DSC)两种分类器。

  对于 DIC,第 $i$ 组增强节点可以表示如下:

    $\begin{array}{l}\boldsymbol{E}_{i n v}^{i} & =\varphi\left(\theta_{i n v}^{i}\left[\boldsymbol{F}_{i n v}^{s}, \boldsymbol{F}_{i n v}^{t l}\right]+\boldsymbol{\beta}_{i n v}^{i}\right) \\i & =1,2, \ldots, n_{i n v}\end{array}  \quad\quad(6)$

  增强的节点特征:$\boldsymbol{E}_{i n v} \triangleq\left[\boldsymbol{E}_{i n v}^{1}, \boldsymbol{E}_{i n v}^{2}, \ldots, \boldsymbol{E}_{i n v}^{n_{i n v}}\right]$ 。

  因此,DIC 的输出可以表示如下:

    $\hat{\boldsymbol{Y}}_{i n v}=\left[\boldsymbol{F}_{i n v}^{s}, \boldsymbol{F}_{i n v}^{t l}, \boldsymbol{E}_{i n v}\right] \boldsymbol{\theta}_{i n v}^{\mathrm{BL}}=\boldsymbol{A}_{i n v} \theta_{i n v}^{\mathrm{BL}}   \quad\quad(7)$

  由于 DSC 只需要对目标域数据进行分类,因此我们对 $\boldsymbol{F}_{\text {spec }}^{\text {tl }}$ 到增强节点的 $n_{\text {spec }}$ 组进行了非线性映射。因此,第 $j$ 组增强节点可以表示如下:

    $\begin{array}{l}\boldsymbol{E}_{s p e c}^{j} & =\varphi\left(\boldsymbol{\theta}_{s p e c}^{j} \boldsymbol{F}_{s p e c}^{t l}+\boldsymbol{\beta}_{s p e c}^{j}\right) \\j & =1,2, \ldots, n_{s p e c}\end{array}  \quad\quad(8)$

  增强的节点特征:$\boldsymbol{E}_{\text {spec }} \triangleq\left[\boldsymbol{E}_{\text {spec }}^{1}, \boldsymbol{E}_{\text {spec }}^{2}, \ldots, \boldsymbol{E}_{\text {spec }}^{n_{\text {spec }}}\right]$

  因此,DSC的输出可以表示如下:

    $\hat{\boldsymbol{Y}}_{s p e c}=\left[\boldsymbol{F}_{s p e c}^{t l}, \boldsymbol{E}_{s p e c}\right] \boldsymbol{\theta}_{s p e c}^{\mathrm{BL}}=\boldsymbol{A}_{s p e c} \theta_{s p e c}^{\mathrm{BL}}   \quad\quad(9)$

2.4 Co-training

  至于DIF,训练的目的是尽量减少以下损失:

    $L_{i n v}=L_{s i m}\left(\theta_{i n v}^{\mathrm{BERT}}, \boldsymbol{\theta}_{i n v}^{\mathrm{CNN}}\right)+\alpha L_{c}\left(\boldsymbol{\theta}_{i n v}^{\mathrm{BERT}}, \theta_{i n v}^{\mathrm{CNN}}\right)   \quad\quad(10)$

    $\begin{aligned}L_{c}= & \frac{1}{N_{s}+N_{t l}} \sum_{i=1}^{N_{s}}-y_{s}^{i} \ln P\left(y_{s}^{i} \mid \boldsymbol{F}_{i n v}^{s i}\right)+  \frac{1}{N_{s}+N_{t l}} \sum_{j=1}^{N_{t l}}-y_{t l}^{j} \ln P\left(y_{t l}^{j} \mid \boldsymbol{F}_{i n v}^{t l j}\right)\end{aligned}  \quad\quad(11)$

  在到DSF时,训练的目的是尽量减少下面的损失:

    $L_{\text {spec }}=L_{\text {diff }}\left(\boldsymbol{\theta}_{\text {spec }}^{\mathrm{BERT}}, \theta_{\text {spec }}^{\mathrm{CNN}}\right)+\gamma L_{t}\left(\theta_{\text {spec }}^{\mathrm{BERT}}, \boldsymbol{\theta}_{\text {spec }}^{\mathrm{CNN}}\right)  \quad\quad(12)$
    $L_{t}=\frac{1}{N_{t l}} \sum_{i=1}^{N_{t l}}-\boldsymbol{Y}_{t l}^{i} \log f c\left(y_{t l}^{i} \mid \boldsymbol{F}_{s p e c}^{t l i}\right)  \quad\quad(13)$
  对于 DIC,我们需要求解一个合适的 $\boldsymbol{\theta}_{i n v}^{\mathrm{BERT}}$,使 $\boldsymbol{Y}_{i n v}$ 和 $\hat{\boldsymbol{Y}}_{i n v}$ 之间的差异尽可能小,其中 $\boldsymbol{Y}_{i n v}$ 表示标记源数据和标记目标数据的地面真实标签。因此,采用岭回归作为目标函数,其表示如下:

    $\underset{\boldsymbol{\theta}_{i n v}^{\mathrm{BL}}}{\operatorname{argmin}}\left(\left\|\boldsymbol{Y}_{i n v}-\hat{\boldsymbol{Y}}_{i n v}\right\|_{2}^{2}+\lambda_{1}\left\|\boldsymbol{\theta}_{i n v}^{\mathrm{BL}}\right\|_{2}^{2}\right) \quad\quad(14)$

  对于 DSC,同样,目标函数表示如下:

    $\underset{\boldsymbol{\theta}_{\text {spec }}^{\mathrm{BL}}}{\operatorname{argmin}}\left(\left\|\boldsymbol{Y}_{\text {spec }}-\hat{\boldsymbol{Y}}_{\text {spec }}\right\|_{2}^{2}+\lambda_{2}\left\|\boldsymbol{\theta}_{\text {spec }}^{\mathrm{BL}}\right\|_{2}^{2}\right) \quad\quad(15)$

  $\boldsymbol{Y}_{\text {spec }}$ 表示已标记的目标数据的地面真实标签。

  因此,采用岭回归作为目标函数,得到最优解 $\theta_{i n v}^{\mathrm{BL}}$,表示如下:

    $\boldsymbol{\theta}_{i n v}^{\mathrm{BL}}=\left(\lambda_{1} \boldsymbol{I}+\boldsymbol{A}_{i n v} \boldsymbol{A}_{i n v}^{\mathrm{T}}\right)^{-1} \boldsymbol{A}_{i n v}^{\mathrm{T}} \boldsymbol{Y}_{i n v}   \quad\quad(16)$

  其中,$I$ 表示单位矩阵。

  同样,得到最优解 $\theta_{\text {spec }}^{\mathrm{BL}}$ 规范,表示如下:

    $\theta_{\text {spec }}^{\mathrm{BL}}=\left(\lambda_{2} \boldsymbol{I}+\boldsymbol{A}_{\text {spec }} \boldsymbol{A}_{\text {spec }}^{\mathrm{T}}\right)^{-1} \boldsymbol{A}_{\text {spec }}^{\mathrm{T}} \boldsymbol{Y}_{\text {spec }}  \quad\quad(17)$

2.5 完整算法

    

3 实验结果

数据集

  

情感分类

  

论文解读(CBL)《CNN-Based Broad Learning for Cross-Domain Emotion Classification》的更多相关文章

  1. CVPR2020论文解读:CNN合成的图片鉴别

    CVPR2020论文解读:CNN合成的图片鉴别 <CNN-generated images are surprisingly easy to spot... for now> 论文链接:h ...

  2. 论文解读(LG2AR)《Learning Graph Augmentations to Learn Graph Representations》

    论文信息 论文标题:Learning Graph Augmentations to Learn Graph Representations论文作者:Kaveh Hassani, Amir Hosein ...

  3. 论文解读(ARVGA)《Learning Graph Embedding with Adversarial Training Methods》

    论文信息 论文标题:Learning Graph Embedding with Adversarial Training Methods论文作者:Shirui Pan, Ruiqi Hu, Sai-f ...

  4. 论文解读(GLA)《Label-invariant Augmentation for Semi-Supervised Graph Classification》

    论文信息 论文标题:Label-invariant Augmentation for Semi-Supervised Graph Classification论文作者:Han Yue, Chunhui ...

  5. 《Stereo R-CNN based 3D Object Detection for Autonomous Driving》论文解读

    论文链接:https://arxiv.org/pdf/1902.09738v2.pdf 这两个月忙着做实验 博客都有些荒废了,写篇用于3D检测的论文解读吧,有理解错误的地方,烦请有心人指正). 博客原 ...

  6. 自监督学习(Self-Supervised Learning)多篇论文解读(下)

    自监督学习(Self-Supervised Learning)多篇论文解读(下) 之前的研究思路主要是设计各种各样的pretext任务,比如patch相对位置预测.旋转预测.灰度图片上色.视频帧排序等 ...

  7. 自监督学习(Self-Supervised Learning)多篇论文解读(上)

    自监督学习(Self-Supervised Learning)多篇论文解读(上) 前言 Supervised deep learning由于需要大量标注信息,同时之前大量的研究已经解决了许多问题.所以 ...

  8. A Unified Deep Model of Learning from both Data and Queries for Cardinality Estimation 论文解读(SIGMOD 2021)

    A Unified Deep Model of Learning from both Data and Queries for Cardinality Estimation 论文解读(SIGMOD 2 ...

  9. 论文解读(MGAE)《MGAE: Masked Autoencoders for Self-Supervised Learning on Graphs》

    论文信息 论文标题:MGAE: Masked Autoencoders for Self-Supervised Learning on Graphs论文作者:Qiaoyu Tan, Ninghao L ...

  10. 论文解读(USIB)《Towards Explanation for Unsupervised Graph-Level Representation Learning》

    论文信息 论文标题:Towards Explanation for Unsupervised Graph-Level Representation Learning论文作者:Qinghua Zheng ...

随机推荐

  1. 2021-08-03:完美洗牌问题。给定一个长度为偶数的数组arr,假设长度为N*2,左部分:arr[L1……Ln],右部分: arr[R1……Rn],请把arr调整成arr[L1,R1,L2,R2,

    2021-08-03:完美洗牌问题.给定一个长度为偶数的数组arr,假设长度为N*2,左部分:arr[L1--Ln],右部分: arr[R1--Rn],请把arr调整成arr[L1,R1,L2,R2, ...

  2. Midjourney|文心一格prompt教程[Text Prompt(上篇)]:品牌log、App、徽章、插画、头像场景生成,各种风格选择:科技风、运动风

    Midjourney|文心一格prompt教程[Text Prompt(上篇)]:品牌log.App.徽章.插画.头像场景生成,各种风格选择:科技风.运动风 1.撰写 Text Prompt 注意事项 ...

  3. Elasticsearch与Clickhouse数据存储对比

    1 背景 京喜达技术部在社区团购场景下采用JDQ+Flink+Elasticsearch架构来打造实时数据报表.随着业务的发展Elasticsearch开始暴露出一些弊端,不适合大批量的数据查询,高频 ...

  4. springboot 静态资源导入

    1.根据源码可以看到需要去webjars官网下载jquery的依赖 <dependency> <groupId>org.webjars</groupId> < ...

  5. python 学习 ---函数(带参数)

    函数式编程最重要的是增强代码的重用性和可读性 1 def 函数名(参数): 2 3 ... 4 函数体 5 ... 函数的定义主要有如下要点: def:表示函数的关键字 函数名:函数的名称,日后根据函 ...

  6. 面试官问:kafka为什么如此之快?

    前言 天下武功,唯快不破.同样的,kafka在消息队列领域,也是非常快的,这里的块指的是kafka在单位时间搬运的数据量大小,也就是吞吐量,下图是搬运网上的一个性能测试结果,在同步发送场景下,单机Ka ...

  7. Kubernetes(k8s)服务service:service的发现和service的发布

    目录 一.系统环境 二.前言 三.Kubernetes service简介 四.使用hostPort向外界暴露应用程序 4.1 创建deploy 4.2 使用hostPort向外界暴露pod的端口 五 ...

  8. 全球唯一云厂商!华为云高分入选2023Gartner Peer Insights™云数据库管理系统“客户之选”

    本文分享自华为云社区<华为云高分入选2023Gartner Peer Insights云数据库管理系统"客户之选">,作者:GaussDB 数据库 . 近日,Gartn ...

  9. Aerospike架构设计与实现细节

    目录 1. 引言 2. 技术原理及概念 2.1. 基本概念解释 2.2. 技术原理介绍 2.3. 相关技术比较 3. 实现步骤与流程 3.1. 准备工作:环境配置与依赖安装 3.2. 核心模块实现 3 ...

  10. docker中的mysql中文乱码解决办法

    博主最近在做谷粒商城,因为要使用docker安装mysql,但是由于安装的时候没有指定mysql的数据库的utf8格式,导致插入的时候就出现了中文是问号的情况,到处百度终于解决,于是打算记录一下自己的 ...