fastText 训练和使用

2019-09-09 16:33:11

问题描述：fastText是如何进行文本分类的。

问题求解：

fastText是一种Facebook AI Research在16年开源的一个文本分类器。其特点就是fast。相对于其它文本分类模型，如SVM，Logistic Regression和neural network等模型，fastText在保持分类效果的同时，大大缩短了训练时间。
fastText专注于文本分类，在许多标准问题上的分类效果非常好。

训练fastText

    trainDataFile = 'train.txt'

    classifier = fasttext.train_supervised(

        input = trainDataFile,

        label_prefix = '__label__',

        dim = 256,

        epoch = 50,

        lr = 1,

        lr_update_rate = 50,

        min_count = 3,

        loss = 'softmax',

        word_ngrams = 2,

        bucket = 1000000)

    classifier.save_model("Model.bin")

在训练fastText的时候有两点需要特别注意，一个是word_ngrams，一个是loss，这两个是fastText的精髓所在，之后会提到。

在使用fastText进行文本训练的时候需要提前分词，这里的ngrams是根据分词的结果来组织架构的；

事实上在训练文本分类的时候有个副产物就是word2vec，fastText在实现文本分类的时候其实和cbow非常类似，就是把word2vec求和之后过了一个fc进行的分类。

使用fastText进行预测

使用fastText进行预测是非常简单的，可以直接使用下述的代码进行预测。

    testDataFile = 'test.txt'

    classifier = fasttext.load_model('Model.bin')  

    result = classifier.test(testDataFile)

    print '测试集上数据量', result[0]

    print '测试集上准确率', result[1]

    print '测试集上召回率', result[2]

Bag of tricks for efficient text classification

1）分层softmax：对于类别过多的类目，fastText并不是使用的原生的softmax过交叉熵，而是使用的分层softmax，这样会大大提高模型的训练和预测的速度。

2）n-grams：fastText使用了字符级别的n-grams来表示一个单词。对于单词“apple”，假设n的取值为3，则它的trigram有

“<ap”, “app”, “ppl”, “ple”, “le>”

其中，<表示前缀，>表示后缀。于是，我们可以用这些trigram来表示“apple”这个单词，进一步，我们可以用这5个trigram的向量叠加来表示“apple”的词向量。

这带来两点好处：

1. 对于低频词生成的词向量效果会更好。因为它们的n-gram可以和其它词共享。

2. 对于训练词库之外的单词，仍然可以构建它们的词向量。我们可以叠加它们的字符级n-gram向量。

fastText 运行速度快的原因

1）多线程训练：fastText在训练的时候是采用的多线程进行训练的。每个训练线程在更新参数时并没有加锁，这会给参数更新带来一些噪音，但是不会影响最终的结果。无论是 google 的 word2vec 实现，还是 fastText 库，都没有加锁。线程的默认是12个，可以手动的进行设置。

2）分层softmax：fastText在计算softmax的时候采用分层softmax，这样可以大大提高运行的效率。

fastText 所有可选参数

The following arguments are mandatory:

  -input              training file path

  -output             output file path

The following arguments are optional:

  -verbose            verbosity level [2]

The following arguments for the dictionary are optional:

  -minCount           minimal number of word occurrences [1]

  -minCountLabel      minimal number of label occurrences [0]

  -wordNgrams         max length of word ngram [1]

  -bucket             number of buckets [2000000]

  -minn               min length of char ngram [0]

  -maxn               max length of char ngram [0]

  -t                  sampling threshold [0.0001]

  -label              labels prefix [__label__]

The following arguments for training are optional:

  -lr                 learning rate [0.1]

  -lrUpdateRate       change the rate of updates for the learning rate [100]

  -dim                size of word vectors [100]

  -ws                 size of the context window [5]

  -epoch              number of epochs [5]

  -neg                number of negatives sampled [5]

  -loss               loss function {ns, hs, softmax} [softmax]

  -thread             number of threads [12]

  -pretrainedVectors  pretrained word vectors for supervised learning []

  -saveOutput         whether output params should be saved [0]

The following arguments for quantization are optional:

  -cutoff             number of words and ngrams to retain [0]

  -retrain            finetune embeddings if a cutoff is applied [0]

  -qnorm              quantizing the norm separately [0]

  -qout               quantizing the classifier [0]

  -dsub               size of each sub-vector [2]

fastText 训练和使用的更多相关文章

fastText训练word2vec并用于训练任务
最近测试OpenNRE,没有GPU服务器,bert的跑不动,于是考虑用word2vec,捡起fasttext 下载安装先clone代码 git clone https://github.com/fa ...
一个使用fasttext训练的新闻文本分类器/模型
fastext是什么? Facebook AI Research Lab 发布的一个用于快速进行文本分类和单词表示的库.优点是很快,可以进行分钟级训练,这意味着你可以在几分钟时间内就训练好一个分类模型 ...
fasttext使用笔记
http://blog.csdn.net/m0_37306360/article/details/72832606 这里记录使用fastText训练word vector笔记 github地址:htt ...
FastText总结,fastText 源码分析
文本分类单层网络就够了.非线性的问题用多层的. fasttext有一个有监督的模式,但是模型等同于cbow,只是target变成了label而不是word. fastText有两个可说的地方:1 在w ...
FastText的内部机制
文章来源:https://towardsdatascience.com/fasttext-under-the-hood-11efc57b2b3 译者 | Revolver fasttext是一个被用于 ...
NLP获取词向量的方法（Glove、n-gram、word2vec、fastText、ELMo 对比分析）
自然语言处理的第一步就是获取词向量,获取词向量的方法总体可以分为两种两种,一个是基于统计方法的,一种是基于语言模型的. 1 Glove - 基于统计方法 Glove是一个典型的基于统计的获取词向量的方 ...
是时候给你的产品配一个AI问答助手了！
本文由云+社区发表 | 导语问答系统是信息检索的一种高级形式,能够更加准确地理解用户用自然语言提出的问题,并通过检索语料库.知识图谱或问答知识库返回简洁.准确的匹配答案.相较于搜索引擎,问答系统能更 ...
词表征 3：GloVe、fastText、评价词向量、重新训练词向量
原文地址:https://www.jianshu.com/p/ca2272addeb0 (四)GloVe GloVe本质是加权最小二乘回归模型,引入了共现概率矩阵. 1.基本思想 GloVe模型的目标 ...
fasttext模型　训练THUCNews
# _*_coding:utf-8 _*_ import fasttext import jieba from sklearn import metrics import random def rea ...

随机推荐

OAuth 2.0学习笔记
文章目录 OAuth的作用就是让"客户端"安全可控地获取"用户"的授权,与"服务商提供商"进行互动. OAuth在"客户端&quo ...
Alberto Del Bimbo：为什么说研究员要有想象力？
Del Bimbo:为什么说研究员要有想象力?" title="Alberto Del Bimbo:为什么说研究员要有想象力?"> 说到科研,与日本式的&q ...
【基础篇】hexo博客搭建教程
[基础篇]搭建hexo博客(一) 作者:Huanhao bilibili:Mrhuanhao 前言你是否想拥有属于自己的博客?你是否无奈与自己不会写网站而烦恼? 不要担心,本系列教程将会实现你白嫖的 ...
Java框架之SpringBoot-Web构建-yml-模块-注解
SpringBoot Spring Boot是一站式整合所有应用框架的框架,简化Spring应用开发,约定大于配置,去繁从简,开箱即用,准生产环境的运行时应用监控框架快速构建 SpringBoot ...
PHP文件上传（以上传txt文件为例）
1.前端代码 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <ti ...
React项目实战：react-redux-router基本原理
React相关 React 是一个采用声明式,高效而且灵活的用来构建用户界面的框架. JSX 本质上来讲,JSX 只是为React.createElement(component, props, .. ...
为什么要使用webpack？
在网页中会引用到哪些常见的静态资源? js (.js .jsx .coffee .ts) css (.css .less .sass .scss scss是sass的plus版) imag ...
YiGo表单建立
做一个请假单表单(下图是最后的成品图) 表单的类型实体表单 1.可存储 2.可编辑虚拟表单视图(不可存储数据,只有显示功能) 不可编辑字典报表备注 :一张表单是实体还是虚拟取决于其数据对象 ...
简单配置Vue路由
简单配置Vue路由 1. 创建一个单文件组件Test.vue <template> <div>Test</div> </template> <s ...
selenium中js定位
学习selenium的时候经常用扫的定位方式WebDriver定位方式,但是一些Windows的窗口就无力了,这时候可以用js定位使用js定位的时候是用DOM树定位方式 eg: document.g ...

fastText 训练和使用

fastText 训练和使用的更多相关文章

随机推荐

热门专题