论文分享|《Universal Language Model Fine-tuning for Text Classificatio》

https://www.sohu.com/a/233269391_395209

本周我们要分享的论文是《Universal Language Model Fine-tuning for Text Classificatio》

迁移学习在计算机视觉方面取得了很多成功，但是同样的方法应用在NLP领域却行不通。文本分类还是需要从零开始训练模型。本文的作者提出了一种针对NLP的有效的迁移学习方法，通用语言模型微调（ULMFiT）并介绍了用于微调模型的关键技巧。

越底层的特征越通用，越顶层的特征越特殊

ULMFiT效果：该方法在6个文本分类任务上的性能明显优于现有的文本分类方法，在大部分的数据集上测试使得错误率降低了18-24%。此外，仅有100个标记样本训练的结果也相当不错。

Universal Language Model Fine-tuning

ULMFiT方法包括三个阶段：

LM pre-training：在语料库上训练语言模型，获取每个word在大语料库上面的representation；

LM fine-tuning：LM使用区分微调（Discriminative）和本文使用的是三角变化的学习率（Slanted triangular learning rates）两个trick对目标域数据进行微调，以学习每个word的特定语料上的representation。

Classifier fine-tuning：上层分类器训练，这一步也用了很多的trick。

文中使用的几种trick

Discr + STLR

Discr：每一层设置一个学习率的方法（第一层的特征具有通用性，所以设置相对较小的学习率，高层的特征与具体任务相关，因此设置相对较大的学习率）

STLR：学习率先逐渐增加后逐渐下降（由于具体任务的变化，先用较小的学习率，得到一个好的优化方向，再使用较大的学习率，进行优化，在训练后期再使用较小的学习率进行更细致的优化）

使用STLR技巧，学习率随迭代次数的变化

目标任务分类器微调（作者用了四种技巧）包括：

级联池化（Concat pooling）：把RNN模型里每一个时刻的输出pooling一下，然后concat到最后一层特征上

逐步解冻（Gradual unfreezing）

用于文本分类的BPTT（BPTT for Text Classification, BPTT backpropagation through time随时间的反向传播）

双向语言模型（Bidirectional language model）

实验

实验的主要目的有两个：一是验证该方法是否有效；二是验证该方法里面的哪一步更有效。

作者在六个比较常用的数据集上评估了该方法，这些数据文档的数量以及文档的长度都不尽相同，在三个常见的分类任务（情感分析、问题分类、主题分类）上进行实验。

通过和其他的一些文本分类方法进行比较，作者提出的ULMFiT方法错误率最低，效果最好。

在三类分类任务上，ULMFit的监督学习、半监督学习需要的数据比从头训练模型的数据要少得多，但是错误率却更低，模型的效果更好。

讨论LM fine-tuning的影响

论文中作者除了使用微调的方法，还增加了很多技巧以优化模型，所以需要对微调的方法是否有效进行讨论。

通过实验可以看出，从零开始训练模型和使用ULMFiT的方法，在三个测试集上错误率下降幅度较大，后面增加各种trick，使得模型的错误率进一步下降，但是下降的幅度却并不是很大，所以可以看出，确实是ULMFiT的方法是有效。

从论文中学习：

1、文中提到的ULMFiT方法，可以尝试使用在nlp迁移学习中。

2、在调模型时可以考虑增加一些技巧，可以优化结果。比如这篇文章中提到的一些技巧，可以参考。

论文链接：https://arxiv.org/abs/1801.06146v4

论文分享|《Universal Language Model Fine-tuning for Text Classificatio》的更多相关文章

将迁移学习用于文本分类《 Universal Language Model Fine-tuning for Text Classification》
将迁移学习用于文本分类 < Universal Language Model Fine-tuning for Text Classification> 2018-07-27 20:07:4 ...
#论文阅读# Universial language model fine-tuing for text classification
论文链接:https://aclweb.org/anthology/P18-1031 对文章内容的总结文章研究了一些在general corous上pretrain LM,然后把得到的model t ...
论文笔记 - Noisy Channel Language Model Prompting for Few-Shot Text Classification
Direct && Noise Channel 进一步把语言模型推理的模式分为了: 直推模式(Direct): 噪声通道模式(Noise channel). 直观来看: Direct ...
【论文翻译】KLMo: Knowledge Graph Enhanced Pretrained Language Model with Fine-Grained Relationships
KLMo:建模细粒度关系的知识图增强预训练语言模型 (KLMo: Knowledge Graph Enhanced Pretrained Language Model with Fine-Graine ...
论文分享NO.3（by_xiaojian）
论文分享第三期-2019.03.29 Fully convolutional networks for semantic segmentation,CVPR 2015,FCN 一.全连接层与全局平均池 ...
A Neural Probabilistic Language Model
A Neural Probabilistic Language Model,这篇论文是Begio等人在2003年发表的,可以说是词表示的鼻祖.在这里给出简要的译文 A Neural Probabili ...
Fine Tuning
(转载自:WikiPedia) Fine tuning is a process to take a network model that has already been trained for a ...
NLP问题特征表达基础 - 语言模型（Language Model）发展演化历程讨论
1. NLP问题简介 0x1:NLP问题都包括哪些内涵人们对真实世界的感知被成为感知世界,而人们用语言表达出自己的感知视为文本数据.那么反过来,NLP,或者更精确地表达为文本挖掘,则是从文本数据出发 ...
[论文分享] DHP: Differentiable Meta Pruning via HyperNetworks
[论文分享] DHP: Differentiable Meta Pruning via HyperNetworks authors: Yawei Li1, Shuhang Gu, etc. comme ...

随机推荐

Gym 100646 Problem E: Su-Su-Sudoku 水题
Problem E: Su-Su-Sudoku/center> 题目连接: http://codeforces.com/gym/100646/attachments Description By ...
【转】InitializingBean的作用
原文链接:http://blog.csdn.net/maclaren001/article/details/37039749 最近工作需要得到sping中的每个事物需要执行的sql,称机会简单研究了一 ...
让IIS支持10万并发
适用的IIS版本:IIS 7.0, IIS 7.5, IIS 8.0 适用的Windows版本:Windows Server 2008, Windows Server 2008 R2, Windows ...
vbs学习笔记1——判断文件和文件夹是否存在
首先分享一个“VBS脚本常用经典代码收集”,这里面关于vbs很丰富的内容. 所有vbs脚本都需要保存为.vbs形式才可以运行 FileSystemObject Object的所有方法参考:http:/ ...
JAVA GC 图解
http://www.cnblogs.com/hnrainll/archive/2013/11/06/3410042.html http://www.blogjava.net/ldwblog/arch ...
Android开发：仿美团下拉列表菜单，帮助类，复用简单
近期在项目中须要用到下拉菜单.公司比較推崇美团的下拉菜单,于是要实现该功能.想着.这个功能应该是一个常常会用到的.于是何不写一个帮助类,仅仅要往这个类里面传入特定的參数,既能够实现下来菜单,并且还能够 ...
mixpanel实验教程(1)
一.关于 mixpanel 这个我不想多说,不明确请看官方手冊:https://mixpanel.com/help/reference/ 二.注冊 mixpanel.com 是一个商业机构.它的用户分 ...
对一个前端使用AngularJS后端使用ASP.NET Web API项目的理解(3)
chsakell分享了一个前端使用AngularJS,后端使用ASP.NET Web API的项目. 源码: https://github.com/chsakell/spa-webapi-angula ...
在ASP.NET MVC中实现登录后回到原先的界面
有这样的一个需求:提交表单,如果用户没有登录,就跳转到登录页,登录后,跳转到原先表单提交这个页面,而且需要保持提交表单界面的数据. 提交表单的页面是一个强类型视图页,如果不考虑需要保持提交表单界面的数 ...
Android Butterknife框架
Android Butterknife框架注解攻略时间 2014-02-27 09:28:09 Msquirrel原文 http://www.msquirrel.com/?p=95 一.原理. ...

论文分享|《Universal Language Model Fine-tuning for Text Classificatio》

论文分享|《Universal Language Model Fine-tuning for Text Classificatio》的更多相关文章

随机推荐

热门专题