fasttext模型　训练THUCNews

# _*_coding:utf-8 _*_

import fasttext

import jieba

from sklearn import metrics

import random

def read_file(filename):

    i=0;

    sentences =[]

    out = open('data/cnews/fast_test.txt','a+')

    with open(filename) as ft:

        for line in ft:

            label, content = line.strip().split('\t')

            segs = jieba.cut(content)

            segs = filter(lambda x:len(x)>1,segs)

            sentences.append("__label__"+str(label)+"\t"+" ".join(segs))

        random.shuffle(sentences)

        for sentence in sentences:

            out.write(sentence+"\n")

    out.close()

read_file('data/cnews/cnews.train.txt')

classifier = fasttext.supervised('data/cnews/fast_train.txt','new_fasttext.model')

classifier = fasttext.load_model('new_fasttext.model.bin')

categories = ['体育',  '财经','房产','家居','教育', '科技', '时尚', '时政', '游戏', '娱乐']

read_file('data/cnews/cnews.test.txt')

result = classifier.test('data/cnews/fast_test.txt')

print("准确率为：%f"%result.precision)

print("召回率为: %f"%result.recall)

with open('data/cnews/cnews.test.txt') as fw:

    contents,labels = [],[]

    for line in fw:

        label ,content = line.strip().split('\t')

        segs = jieba.cut(content)

        segs = filter(lambda x:len(x)>1,segs)

        contents.append(" ".join(segs))

        labels.append('__label__'+label)

    label_predict = [e[0] for e in classifier.predict(contents)]

    print("Precision,Recall and F1-Score....")

    print(metrics.classification_report(labels,label_predict,target_names=categories))

关于fasttext的使用一些疑问：fasttext.supervised的参数label_prefix　一直提示我这个参数使用有问题...　然而，搜素了半天，我也没搞明白这个参数哪里有问题

还有一点需要注意的地方：fasttext的识别标签统一需要在标签前面加上"__label__"

后续会更新fastext的原理

fasttext模型　训练THUCNews的更多相关文章

[Kaggle] dogs-vs-cats之模型训练
上一步建立好模型之后,现在就可以训练模型了. 主要代码如下: import sys #将当期路径加入系统path中 sys.path.append("E:\\CODE\\Anaconda\\ ...
A TensorBoard plugin for visualizing arbitrary tensors in a video as your network trains.Beholder是一个TensorBoard插件，用于在模型训练时查看视频帧。
Beholder is a TensorBoard plugin for viewing frames of a video while your model trains. It comes wit ...
AI佳作解读系列(一)——深度学习模型训练痛点及解决方法
1 模型训练基本步骤进入了AI领域,学习了手写字识别等几个demo后,就会发现深度学习模型训练是十分关键和有挑战性的.选定了网络结构后,深度学习训练过程基本大同小异,一般分为如下几个步骤定义算法公 ...
VGG19模型训练+读取
目录 VGG-19模型简单介绍 VGG-19模型文件介绍分析模型文件 mean值查看 Weight和Bias查看读取代码读取模型训练代码参考资料 VGG-19的介绍和训练这里不做说明,网上资 ...
机器学习使用sklearn进行模型训练、预测和评价
cross_val_score(model_name, x_samples, y_labels, cv=k) 作用:验证某个模型在某个训练集上的稳定性,输出k个预测精度. K折交叉验证(k-fold) ...
谷歌大规模机器学习：模型训练、特征工程和算法选择 (32PPT下载)
本文转自:http://mp.weixin.qq.com/s/Xe3g2OSkE3BpIC2wdt5J-A 谷歌大规模机器学习:模型训练.特征工程和算法选择 (32PPT下载) 2017-01-26 ...
facenet模型训练
做下记录,脚本如下: 对比 python3 src/compare.py ../models/-/ ../faces/pyimgs/dashenlin/ytwRkvSdG1000058.png ../ ...
人脸检测及识别python实现系列（3）——为模型训练准备人脸数据
人脸检测及识别python实现系列(3)——为模型训练准备人脸数据机器学习最本质的地方就是基于海量数据统计的学习,说白了,机器学习其实就是在模拟人类儿童的学习行为.举一个简单的例子,成年人并没有主动 ...
【机器学习PAI实践十】深度学习Caffe框架实现图像分类的模型训练
背景我们在之前的文章中介绍过如何通过PAI内置的TensorFlow框架实验基于Cifar10的图像分类,文章链接:https://yq.aliyun.com/articles/72841.使用Te ...
kaldi基于GMM的单音素模型训练部分
目录 1. gmm-init-mono 模型初始化 2. compile-train-graghs 训练图初始化 3. align-equal-compiled 特征文件均匀分割 4. gmm-acc ...

随机推荐

Qt界面阴影效果(背景图片)
实现原理: 1.顶层窗体设置为无边框,背景半透明 2.顶层窗体的子窗体使用带有阴影的图片做背景代码: //CMainWindow.h#ifndef CMAINWINDOW_H#define CMAI ...
Java Comparable与Comparator区别
1,两种接口的展示下面的程序是两个类各自实现了Comparable接口.Comparator接口 package com.cnblogs.mufasa.Solution; import java.u ...
自定义AuthorizeFilter
using Microsoft.AspNetCore.Authorization; using Microsoft.AspNetCore.Authorization.Infrastructure; u ...
Go context 介绍和使用
context 上下文管理 context 翻译过来就是上下文管理,主要作用有两个: 控制 goroutine 的超时保存上下文数据 WithTimeout 通过下面的一个简单的 http 例子进行 ...
django.http.request中QueryDict 对象
在一个 HttpRequest 对象中, GET 和 POST 属性都是 django.http.QueryDict 的实例. QueryDict 是一个类似于字典的类,专门用来处理用一个键的多值.当 ...
判断上传文件是否为excel
1. 可以在input上传组件上添加属性accept,这样上传文件的时候,就只能选择excel文件了. <input type="file" accept="app ...
RZ70注册SLD
本文的将S4 abap系统向PO JAVA系统中注册. S4 QASERPAP01 NR=60 ASCS=61 PO QASPISAP01 NR=60 SCS=61 http://qaspisap01 ...
linux跳板机开发之trap信号机应用
场景1:公司新招聘了一个配置管理员,他的工作是负责将公司开发人员写的新代码依次分发到办公室测试环境.IDC测试环境和正式线上环境.因此公司需要开发一个程序,当配置管理员登录服务器,只能进入分发的管理界 ...
服务发现之consul理论整理_结合Docker+nginx+Tomcat简单部署案例
目录一.理论概述服务发现的概念简述 consul简述二.部署docker+consul+Nginx案例环境部署三.测试四.总结一.理论概述服务发现的概念简述在以前使用的是,N台机器 ...
Computer Vision_33_SIFT：Robust scale-invariant feature matching for remote sensing image registration——2009
此部分是计算机视觉部分,主要侧重在底层特征提取,视频分析,跟踪,目标检测和识别方面等方面.对于自己不太熟悉的领域比如摄像机标定和立体视觉,仅仅列出上google上引用次数比较多的文献.有一些刚刚出版的 ...

fasttext模型 训练THUCNews

fasttext模型 训练THUCNews的更多相关文章

随机推荐

热门专题

fasttext模型　训练THUCNews

fasttext模型　训练THUCNews的更多相关文章