Note：[ wechat：Y466551 | 可加勿骚扰，付费咨询 ]

论文信息

论文标题：SentiX: A Sentiment-Aware Pre-Trained Model for Cross-Domain Sentiment Analysis
论文作者：Jie Zhou, Junfeng Tian, Rui Wang, Yuanbin Wu, Wenming Xiao, Liang He
论文来源：
论文地址：download
论文代码：download
视屏讲解：click

1 介绍

　　出发点：预先训练好的语言模型已被广泛应用于跨领域的 NLP 任务，如情绪分析，实现了最先进的性能。然而，由于用户在不同域间的情绪表达的多样性，在源域上对预先训练好的模型进行微调往往会过拟合，导致在目标域上的结果较差；

　　思路：通过大规模 review 数据集的领域不变情绪知识对情感软件语言模型（SENTIX）进行预训练，并将其用于跨领域情绪分析任务，而无需进行微调。本文提出了一些基于现有的标记和句子级别的词汇和注释的训练前任务，如表情符号、情感词汇和评级，而不受人为干扰。进行了一系列的实验，结果表明，该模型具有巨大的优势。

　　预训练模型在跨域情感分析上存在的问题：

- 现有的预训练模型侧重于通过自监督策略学习语义内容，而忽略了预训练短语的情绪特定知识；
- 在微调阶段，预训练好的模型可能会通过学习过多的特定领域的情绪知识而过拟合源域，从而导致目标域的性能下降；

　　贡献：

- 提出了 SENTIX 用于跨域情绪分类，以在大规模未标记的多域数据中学习丰富的域不变情绪知识；
- 在标记水平和句子水平上设计了几个预训练目标，通过掩蔽和预测来学习这种领域不变的情绪知识；
- 实验表明，SENTIX 获得了最先进的跨领域情绪分析的性能，并且比 BERT 需要更少的注释数据才能达到等效的性能；

2 方法

2.1 模型框架

2.2 Sentiment Masking

　　评论包含了许多半监督的情绪信号，如情绪词汇、表情符号和评级，而大规模的评论数据可以从像 Yelp 这样的在线评论网站上获得。

- 情绪词汇（Sentiment Words）：积极（P），消极（N），其他（0）；
- 情感符（Emoticons）：经常用于表示用户情感的特殊符号，如（“)”、“(”、“:”、“D”），本文选择语料库中经常出现的 100 个特殊符号作为情感符，并将其标记为 “E”，其他为 “0”；
- 评分（Rating）：情绪评分分为 5 个等级；

　　策略：

Sentiment Word Masking (SWM)：为丰富情绪信息，用 30% 的比率掩盖了情绪词；
Emoticon Masking (EM)：由于一个句子中的表情符号数量相对较少，并且删除表情符号不会影响句子的语义信息，所以为每个句子屏蔽了 50% 的表情符号；
General Word Masking (GWM)：如果只关注情感词和表情符号，模型可能会失去其他单词的一般语义信息。因此，使用 [MASK] 并用 15% 的比率替换句子中的一般单词来学习语义信息；

2.3 Pre-training Objectives

Sentiment-aware Word Prediction (SWP)

　　将损坏的句子 $\hat{x}$ 输入编码器，获得单词表示 $h_{i}$ 和句子表示 $h_{[C L S]}$，然后计算单词概率 $P\left(x_{i} \mid \hat{x}_{i}\right)=\operatorname{Softmax}\left(W_{w} \cdot h_{i}+b_{w}\right)$。损失函数 $L_{w}$ 是预测概率与真词标签之间的交叉熵：

　　$\mathcal{L}_{w}=-\frac{1}{|\hat{\mathcal{X}}|} \sum_{\hat{x} \in \hat{\mathcal{X}}} \frac{1}{|\hat{x}|} \sum_{i=1}^{|\hat{x}|} \log \left(P\left(\left|x_{i}\right| \hat{x}_{i}\right)\right)$

Word Sentiment Prediction (WSP)

　　根据情感知识，把词的情绪分为积极的、消极的和其他的。因此，设计了 WSP 来学习标记的情感知识。我们的目的是推断单词 $w_{i}$ 的情绪极性 $s_{i}$ 根据 $h_{i}$，$P\left(s_{i} \mid \hat{x_{i}}\right)= \operatorname{Softmax}\left(W_{s} \cdot h_{i}+b_{s}\right) $。这里使用交叉熵损失：

　　　　$\mathcal{L}_{s}=-\frac{1}{|\hat{\mathcal{X}}|} \sum_{\hat{x} \in \hat{\mathcal{X}}} \frac{1}{|\hat{x}|} \sum_{i=1}^{|\hat{x}|} \log \left(P\left(s_{i} \mid \hat{x}_{i}\right)\right)$

Rating Prediction (RP)

　　以上任务侧重于学习 Token 水平的情感知识。评级代表了句子级评论的情绪得分。推断评级将带来句子水平的情感知识。与BERT类似，使用最终状态 $h_{[\mathrm{CLS}]}$ 作为句子表示。该评级由 $P(r \mid \hat{x})=\operatorname{Softmax}\left(W_{r} \cdot h_{[C L S]}+b_{r}\right)$ 进行预测，并根据预测的评级分布计算损失：

　　　　$\mathcal{L}_{r}=-\frac{1}{|\hat{\mathcal{X}}|} \sum_{\hat{x} \in \hat{\mathcal{X}}} \log (P(r \mid \hat{x}))$

2.4 Joint Training

　　最后，我们共同优化了标记级目标 $\mathcal{L}_{T}$ 和句子级目标 $\mathcal{L}_{S}$。总损失为

　　　　$\mathcal{L}=\mathcal{L}_{T}+\mathcal{L}_{S}$

　　其中：

　　　　$\mathcal{L}_{T}=\mathcal{L}_{w}+\mathcal{L}_{s}+\mathcal{L}_{e} $

　　　　$\mathcal{L}_{S}=\mathcal{L}_{r}$

3 实验

论文解读（SentiX）《SentiX: A Sentiment-Aware Pre-Trained Model for Cross-Domain Sentiment Analysis》的更多相关文章

CVPR2020论文解读：三维语义分割3D Semantic Segmentation
CVPR2020论文解读:三维语义分割3D Semantic Segmentation xMUDA: Cross-Modal Unsupervised Domain Adaptation for 3 ...
VLDB'22 HiEngine极致RTO论文解读
摘要:<Index Checkpoints for Instant Recovery in In-Memory Database Systems>是由华为云数据库创新Lab一作发表在数据库 ...
itemKNN发展史----推荐系统的三篇重要的论文解读
itemKNN发展史----推荐系统的三篇重要的论文解读本文用到的符号标识 1.Item-based CF 基本过程: 计算相似度矩阵 Cosine相似度皮尔逊相似系数参数聚合进行推荐根据用户 ...
CVPR2019 | Mask Scoring R-CNN 论文解读
Mask Scoring R-CNN CVPR2019 | Mask Scoring R-CNN 论文解读作者 | 文永亮研究方向 | 目标检测.GAN 推荐理由: 本文解读的是一篇发表于CVPR ...
AAAI2019 | 基于区域分解集成的目标检测论文解读
Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测论文解读作者 | 文永亮学 ...
Gaussian field consensus论文解读及MATLAB实现
Gaussian field consensus论文解读及MATLAB实现作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 一.Introduction ...
zz扔掉anchor！真正的CenterNet——Objects as Points论文解读
首发于深度学习那些事已关注写文章扔掉anchor!真正的CenterNet——Objects as Points论文解读 OLDPAN 不明觉厉的人工智障程序员关注他 JustDoIT 等 ...
NIPS2018最佳论文解读：Neural Ordinary Differential Equations
NIPS2018最佳论文解读:Neural Ordinary Differential Equations 雷锋网2019-01-10 23:32 雷锋网 AI 科技评论按,不久前,NeurI ...
[论文解读] 阿里DIEN整体代码结构
[论文解读] 阿里DIEN整体代码结构目录 [论文解读] 阿里DIEN整体代码结构 0x00 摘要 0x01 文件简介 0x02 总体架构 0x03 总体代码 0x04 模型基类 4.1 基本逻辑 ...
【抓取】6-DOF GraspNet 论文解读
[抓取]6-DOF GraspNet 论文解读 [注]:本文地址:[抓取]6-DOF GraspNet 论文解读若转载请于明显处标明出处. 前言这篇关于生成抓取姿态的论文出自英伟达.我在读完该篇论 ...

随机推荐

2022-12-14：给定一个正数n, 表示从0位置到n-1位置每个位置放着1件衣服从0位置到n-1位置不仅有衣服，每个位置还摆着1个机器人给定两个长度为n的数组，powers和rates pow
2022-12-14:给定一个正数n, 表示从0位置到n-1位置每个位置放着1件衣服从0位置到n-1位置不仅有衣服,每个位置还摆着1个机器人给定两个长度为n的数组,powers和rates pow ...
2021-05-08：给定两个非负数组x和hp，长度都是N，再给定一个正数range。x有序，x[i]表示i号怪兽在x轴上的位置；hp[i]表示i号怪兽的血量。range表示法师如果站在x位置，用A
2021-05-08:给定两个非负数组x和hp,长度都是N,再给定一个正数range.x有序,x[i]表示i号怪兽在x轴上的位置:hp[i]表示i号怪兽的血量 .range表示法师如果站在x位置,用A ...
DataGridView数据内容自适应列宽
数据自适应宽度某一列dataGridView1.Columns[@"列名"].AutoSizeMode = DataGridViewAutoSizeColumnMode.AllCe ...
HyperPlatform
之前也写过一个vt的框架,但是比较简单,写的比较乱迁移什么的比较麻烦,于是阅读下HyperPlatform的源码学习下. 本文只对主体框架分析. vt的流程大概如下 1:检测是否支持VT. 2:vmx ...
PostgreSQL 12 文档: PostgreSQL 客户端工具
PostgreSQL 客户端应用这部份包含PostgreSQL客户端应用和工具的参考信息.不是所有这些命令都是通用工具,某些需要特殊权限.这些应用的共同特征是它们可以被运行在任何主机上,而不管数 ...
Jmeter压测实战：Jmeter二次开发之自定义函数
1 前言 Jmeter是Apache基金会下的一款应用场景非常广的压力测试工具,具备轻量.高扩展性.分布式等特性.Jmeter已支持实现随机数.计数器.时间戳.大小写转换.属性校验等多种函数,方便使用 ...
JAVA获取字符串内的括号对；获取括号对的内容；按指定规则返回括号对位置；
先看结果:处理字符串 "这个是一条测试用的字符串[ ( 5 ( 4( 3 [(1) (2)] ))(7))][(6)]" 结果解决思路:参考正则表达式里面出入站部分代码实现如下 ...
only-office以Docker方式安装使用
目录安装Docker 安装配置Docker 验证docker是否正常安装only-office server 系统需求创建数据目录启动docker容器开放防火墙端口可配置的参数使用文档 ...
kubernetes(k8s):解决不在同一网段加入集群失败问题
执行下面命令,将内外网进行映射. iptables -t nat -A OUTPUT -d 10.140.128.121 -j DNAT --to-destination 10.170.129.153 ...
SaaS软件工程师成长路径
背景 SaaS软件工程师的成长需要循序渐进,和SaaS业务一样有耐心.SaaS工程师需要在"业务"."技术"."管理"三个维度做好知识储备. ...

论文解读（SentiX）《SentiX: A Sentiment-Aware Pre-Trained Model for Cross-Domain Sentiment Analysis》