FastText 文本分类使用心得

http://blog.csdn.net/thriving_fcl/article/details/53239856

最近在一个项目里使用了fasttext[1]，这是facebook今年开源的一个词向量与文本分类工具，在学术上没有什么创新点，但是好处就是模型简单，训练速度又非常快。我在最近的一个项目里尝试了一下，发现用起来真的很顺手，做出来的结果也可以达到上线使用的标准。

其实fasttext使用的模型与word2vec的模型在结构上是一样的，拿cbow来说，不同的只是在于word2vec cbow的目标是通过当前词的前后N个词来预测当前词，在使用层次softmax的时候，huffman树叶子节点处是训练语料里所有词的向量。

而fasttext在进行文本分类时，huffmax树叶子节点处是每一个类别标签的词向量，在训练的过程中，训练语料的每一个词也会得到对应的词向量，输入为一个window内的词对应的词向量，hidden layer为这几个词的线性相加，相加的结果作为该文档的向量，再通过层次softmax得到预测标签，结合文档的真实标签计算loss，梯度与迭代更新词向量。

fasttext有别于word2vec的另一点是加了ngram切分这个trick，将长词再通过ngram切分为几个短词，这样对于未登录词也可以通过切出来的ngram词向量合并为一个词。由于中文的词大多比较短，这对英文语料的用处会比中文语料更大。

此外，fasttext相比deep learning模型的优点是训练速度极快。我们目前使用fasttext来进行客户填写的订单地址到镇这一级别的分类。每一个省份建立一个模型，每个模型要分的类别都有1000多类，200万左右的训练数据，12个线程1分钟不到就可以训练完成，最终的分类准确率与模型鲁棒性都比较高(区县级别分类正确准确率高于99.5%，镇级别高于98%)，尤其是对缩写地名，或者漏写了市级行政区、区县级行政区的情况也都可以正确处理。

参数方面

loss function选用hs（hierarchical softmax）要比ns(negative sampling) 训练速度要快很多倍，并且准确率也更高。
wordNgrams 默认为1，设置为2以上可以明显提高准确率。
如果词数不是很多，可以把bucket设置的小一点，否则预留会预留太多bucket使模型太大。

因为facebook提供的只是C++版本的代码，原本还以为要自己封装一个python接口，结果上github一搜已经有封装的python接口了[2]。用起来特别方便，觉得还不能满足自己的使用要求，修改源码也非常方便。

对于同样的文本分类问题，后来还用单向LSTM做了一遍，输入pre-trained的embedding词向量，并且在训练的时候fine-tune，与fasttext对比，即使使用了GTX 980的GPU，训练速度还是要慢很多，并且，准确准确率和fasttext是差不多的。

所以对于文本分类，先用fasttext做一个简单的baseline是很适合的。

[1]https://github.com/facebookresearch/fastText
[2]https://github.com/salestock/fastText.py

FastText 文本分类使用心得的更多相关文章

fastText文本分类算法
1.概述 FastText 文本分类算法是有Facebook AI Research 提出的一种简单的模型.实验表明一般情况下,FastText 算法能获得和深度模型相同的精度,但是计算时间却要远远小 ...
文本分类需要CNN？No！fastText完美解决你的需求（前篇）
http://blog.csdn.net/weixin_36604953/article/details/78195462?locationNum=8&fps=1 文本分类需要CNN?No!f ...
深度学习之文本分类模型-前馈神经网络(Feed-Forward Neural Networks)
目录 DAN(Deep Average Network) Fasttext fasttext文本分类 fasttext的n-gram模型 Doc2vec DAN(Deep Average Networ ...
文本分类需要CNN？No！fastText完美解决你的需求（后篇）
http://blog.csdn.net/weixin_36604953/article/details/78324834 想必通过前一篇的介绍,各位小主已经对word2vec以及CBOW和Skip- ...
带监督的文本分类算法FastText
该算法由facebook在2016年开源,典型应用场景是“带监督的文本分类问题”. 模型模型的优化目标如下: 其中,$<x_n,y_n>$是一条训练样本,$y_n$是训练目标,$ ...
文本分类（六）：使用fastText对文本进行分类--小插曲
http://blog.csdn.net/lxg0807/article/details/52960072 环境说明:python2.7.linux 自己打自己脸,目前官方的包只能在linux,mac ...
fastText、TextCNN、TextRNN……这里有一套NLP文本分类深度学习方法库供你选择
https://mp.weixin.qq.com/s/_xILvfEMx3URcB-5C8vfTw 这个库的目的是探索用深度学习进行NLP文本分类的方法. 它具有文本分类的各种基准模型,还支持多标签分 ...
文本分类（TFIDF/朴素贝叶斯分类器/TextRNN/TextCNN/TextRCNN/FastText/HAN）
目录简介 TFIDF 朴素贝叶斯分类器贝叶斯公式贝叶斯决策论的理解极大似然估计朴素贝叶斯分类器 TextRNN TextCNN TextRCNN FastText HAN Highway N ...
无所不能的Embedding 2. FastText词向量&文本分类
Fasttext是FaceBook开源的文本分类和词向量训练库.最初看其他教程看的我十分迷惑,咋的一会ngram是字符一会ngram又变成了单词,最后发现其实是两个模型,一个是文本分类模型[Ref2] ...

随机推荐

R基础学习（二）-- 连接sqlserver
测试环境:win10+RStudio 三个步骤:(1)创建ODBC数据源:(2)install.packages('RODBC') :(3)编写连接测试脚本 (1)创建ODBC数据源控制面板-> ...
UVALive 6889 City Park 并查集
City Park 题目连接: http://acm.hust.edu.cn/vjudge/contest/view.action?cid=122283#problem/F Description P ...
windows servier2008+virtualenv下部署Flask (IIS+wfastcgi)
由于业务只有一台windows server2008的服务器,一般的nginx+uwsgi的部署方式不行,以下记录部署过程,本文参考自:https://www.cnblogs.com/xiaolecn ...
CentOS下KVM配置NAT网络（网络地址转换模式）
KVM虚拟机Nat方式上网: # 查看当前活跃的网络 virsh net-list # 查看该网络的详细配置 virsh net-dumpxml default 客户机的XML配置文件中interfa ...
linearLayout 和 relativeLayout的属性区别(转)
LinearLayout和RelativeLayout 共有属性:java代码中通过btn1关联次控件android:id="@+id/btn1" 控件宽度android:layo ...
VGA Output from STM32F4 Discovery board
VGA Output from STM32F4 Discovery board I love the web! There are so many cool projects out there, a ...
【DevOps】谁说大象不能跳舞?
作者:范军 (Frank Fan) 新浪微博:@frankfan7 微信:frankfan7 很多企业,尤其是大企业在产品开发和运维上存在着一些普遍问题,比如开发周期长.人员合作程度不高.开发和运 ...
Spring Boot 2.0 + zipkin 分布式跟踪系统快速入门
原文:https://www.jianshu.com/p/9bfe103418e2 注意 Spring Boot 2.0之后,使用EnableZipkinServer创建自定义的zipkin服务器已经 ...
spring源码之—Assert.notNull
org.springframework.util.Assert Assert翻译为中文为"断言".用过JUNIT的应该都知道这个概念了. 就是断定某一个实际的值就为自己预期想得到的 ...
【python】python安装步骤
1.官网下载python 官网地址:https://www.python.org/getit/ 2.下载完成后点击安装勾选Add python to PATH 是可以自己去配置环境变量的注意:这里 ...

FastText 文本分类使用心得

参数方面

FastText 文本分类使用心得的更多相关文章

随机推荐

热门专题