fasttext的基本使用 java 、python为例子

今天早上在地铁上看到知乎上看到有人使用fasttext进行文本分类,到公司试了下情况在GitHub上找了下,最开始是c++版本的实现,不过有JavaPython版本的实现了,正好拿下来试试手,

python情况:

python版本参考,作者提供了详细的实现,并且提供了中文分词之后的数据,正好拿下来用用,感谢作者,代码提供的数据作者都提供了,点后链接在上面有百度盘,可下载,java接口用到的数据也一样:

  1. http://blog.csdn.net/lxg0807/article/details/52960072
  1. import logging
  2. import fasttext
  3. logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
  4. #classifier = fasttext.supervised("fasttext/news_fasttext_train.txt","fasttext/news_fasttext.model",label_prefix="__label__")
  5. #load训练好的模型
  6. classifier = fasttext.load_model('fasttext/news_fasttext.model.bin', label_prefix='__label__')
  7. result = classifier.test("fasttext/news_fasttext_test.txt")
  8. print(result.precision)
  9. print(result.recall)
  10. labels_right = []
  11. texts = []
  12. with open("fasttext/news_fasttext_test.txt") as fr:
  13. lines = fr.readlines()
  14. for line in lines:
  15. labels_right.append(line.split("\t")[1].rstrip().replace("__label__",""))
  16. texts.append(line.split("\t")[0])
  17. #     print labels
  18. #     print texts
  19. #     break
  20. labels_predict = [e[0] for e in classifier.predict(texts)] #预测输出结果为二维形式
  21. # print labels_predict
  22. text_labels = list(set(labels_right))
  23. text_predict_labels = list(set(labels_predict))
  24. print(text_predict_labels)
  25. print(text_labels)
  26. A = dict.fromkeys(text_labels,0)  #预测正确的各个类的数目
  27. B = dict.fromkeys(text_labels,0)   #测试数据集中各个类的数目
  28. C = dict.fromkeys(text_predict_labels,0) #预测结果中各个类的数目
  29. for i in range(0,len(labels_right)):
  30. B[labels_right[i]] += 1
  31. C[labels_predict[i]] += 1
  32. if labels_right[i] == labels_predict[i]:
  33. A[labels_right[i]] += 1
  34. print(A )
  35. print(B)
  36. print( C)
  37. #计算准确率,召回率,F值
  38. for key in B:
  39. p = float(A[key]) / float(B[key])
  40. r = float(A[key]) / float(C[key])
  41. f = p * r * 2 / (p + r)
  42. print ("%s:\tp:%f\t%fr:\t%f" % (key,p,r,f))

java版本情况:

githup上下载地址:
  1. https://github.com/ivanhk/fastText_java
看了下sh脚本的使用方法,自己简单些了个text的方法,正好用用,后面会拿xgboost进行对比,看看效果,效果可以的写成service进行上线:
  1. package test;
  2. import java.util.List;
  3. import fasttext.FastText;
  4. import fasttext.Main;
  5. import fasttext.Pair;
  6. public class Test {
  7. public static void main(String[] args) throws Exception {
  8. String[] text = {
  9. "supervised",
  10. "-input",
  11. "/Users/shuubiasahi/Documents/python/fasttext/news_fasttext_train.txt",
  12. "-output", "/Users/shuubiasahi/Documents/faste.model", "-dim",
  13. "10", "-lr", "0.1", "-wordNgrams", "2", "-minCount", "1",
  14. "-bucket", "10000000", "-epoch", "5", "-thread", "4" };
  15. Main op = new Main();
  16. op.train(text);
  17. FastText fasttext = new FastText();
  18. String[] test = { "就读", "科技", "学生" ,"学生","学生"};
  19. fasttext.loadModel("/Users/shuubiasahi/Documents/faste.model.bin");
  20. List<Pair<Float, String>> list = fasttext.predict(test, 6);  //得到最大可能的六个预测概率
  21. for (Pair<Float, String> parir : list) {
  22. System.out.println("key is:" + parir.getKey() + "   value is:"
  23. + parir.getValue());
  24. }
  25. System.out.println(Math.exp(list.get(0).getKey()));  //得到最大预测概率
  26. }
  27. }
这里设置bucket不适用设置过大,过大会产生OOM,而且模型保存太大,上面的设置模型保存就有1个g,-wordNgrams可以设置为2比设置为1能提高模型分类的准确性,
 
结果情况:

key is:0.0   value is:__label__edu

key is:-17.75125   value is:__label__affairs

key is:-17.75125   value is:__label__economic

key is:-17.75125   value is:__label__ent

key is:-17.75125   value is:__label__fashion

key is:-17.75125   value is:__label__game

1.0

注意fasttext对输入格式有要求,label标签使用  “__label__”+实际标签的形式,   over

有问题联系我

2016年5月26   我的模型已经上线了    效果还不错

fasttext的基本使用 java 、python为例子的更多相关文章

  1. 梯度迭代树(GBDT)算法原理及Spark MLlib调用实例(Scala/Java/python)

    梯度迭代树(GBDT)算法原理及Spark MLlib调用实例(Scala/Java/python) http://blog.csdn.net/liulingyuan6/article/details ...

  2. 编程开发(C/C++&Java&Python&JavaScript&Go&PHP&Ruby&Perl&R&Erlang)

    使用Docker快速部署主流编程语言的开发.编译环境及其常用框架,包括C.C++.Java.Python.JavaScript.Go.PHP.Ruby.Perl.R.Erlang等. 在今后采用编程语 ...

  3. (八)map,filter,flatMap算子-Java&Python版Spark

    map,filter,flatMap算子 视频教程: 1.优酷 2.YouTube 1.map map是将源JavaRDD的一个一个元素的传入call方法,并经过算法后一个一个的返回从而生成一个新的J ...

  4. 芒果TV招聘研发工程师(JAVA PYTHON),地点长沙

    长沙芒果TV招聘高级 JAVA Python 工程师,工作地点:湖南广电   有兴趣的邮件0xmalloc@gmail.com; zealotyin@qq.com 公司有一大批从北京上海一线互联网企业 ...

  5. paip.提高效率---集合的存取括号方式 uapi java python php js 的实现比较

    paip.提高效率---集合的存取括号方式 uapi java python php js 的实现比较 ##java ----------- 在JDK1.7中,摒弃了Java集合接口的实现类,如:Ar ...

  6. paip.复制文件 文件操作 api的设计uapi java python php 最佳实践

    paip.复制文件 文件操作 api的设计uapi java python php 最佳实践 =====uapi   copy() =====java的无,要自己写... ====php   copy ...

  7. paip.获取文件名从路径uapi java python php总结...

    paip.获取文件名从路径uapi java python php总结... =====uapi basename_noext($fname); =============java  自己写.. St ...

  8. paip.日期时间操作以及时间戳uapi php java python 总结

    paip.日期时间操作以及时间戳uapi php java python 总结 ///uapi Date 函数 | Day 函数 | Hour 函数 | Minute 函数 | Month 函数 | ...

  9. paip.文件读写api php java python总结.txt

    paip.文件读写api php java python总结.txt 一.多种方式读文件内容.    1.按字节读取文件内容   以字节为单位读取文件,常用于读二进制文件,如图片.声音.影像等文件. ...

随机推荐

  1. JavaWeb开发中遇到的错误:org.apache.catalina.core.StandardWrapperValve invoke

    org.apache.catalina.core.StandardWrapperValve invoke 今天写代码,竟然接连遇到这个异常好几次.debug几个小时才弄明白,晕. 上网找了些拼凑下做个 ...

  2. Elasticsearch之index_closed_exception

    索引的打开与关闭 关闭索引 POST /index_name/_close 尝试插入数据 PUT /shakespeare/_doc/ { "title":"kibana ...

  3. Linux串口驱动程序(3)-打开设备

    先来分析一下串口打开的过程: 1.用户调用open函数打开串口设备文件:2.在内核中通过tty子系统,把open操作层层传递到串口驱动程序中:3.在串口驱动程序中的xx_open最终实现这个操作.这里 ...

  4. PHP中文无乱码截取

    正在上传文件反正无聊 就把php无乱码截取写出来吧` 参数说明 gbk    字符编码中,存储中文字符要2个字节 uft-8  字符编码中,存储中文字符要3个字节 0xa0  半个汉字 ord()—  ...

  5. 安卓apk反编译、修改、重新打包、签名全过程

    首先明确,反编译别人apk是一件不厚道的事情.代码是程序员辛苦工作的成果,想通过这种手段不劳而获,是不对的.这也说明,代码混淆是非常重要的.本文抱着学习的态度,研究在一些特殊的情况下如果有需要,该怎么 ...

  6. 牛客 最大值减去最小值小于或等于 num 的子数组数量

    题目链接:https://www.nowcoder.com/practice/5fe02eb175974e18b9a546812a17428e?tpId=101&tqId=33086& ...

  7. PHP-FPM 远程代码执行漏洞(CVE-2019-11043)复现-含EXP

    搭建容器 安装golang 利用程序 https://github.com/neex/phuip-fpizdam 安装git Cobra包安装 go get -v github.com/spf13/c ...

  8. pycharm中django同步数据库问题

    一.Django数据同步过程中遇到的问题: 1.raise ImproperlyConfigured('mysqlclient 1.3.13 or newer is required; you hav ...

  9. CM集群管理

    用CM装完cdh 版本后,将不同机架的服务器已经认为拆掉网线,但是主机管理那边还是显示已经下载的服务器存在. 如图: 该怎么配置 node8 和node9会自动消失:     DataNode已经显示 ...

  10. 2019年Pandas官方用户调研

    import pandas as pd import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline plt.rcP ...