做nlp的时候，如果用到tf-idf，sklearn中用CountVectorizer与TfidfTransformer两个类，下面对和两个类进行讲解

一、训练以及测试

CountVectorizer与TfidfTransformer在处理训练数据的时候都用fit_transform方法，在测试集用transform方法。fit包含训练的意思，表示训练好了去测试，如果在测试集中也用fit_transform，那显然导致结果错误。

#变量：content_train 训练集，content_test测试集
vectorizer = CountVectorizer()
tfidftransformer = TfidfTransformer()

#训练用fit_transform
count_train=vectorizer.fit_transform(content_train)
tfidf = tfidftransformer.fit_transform(count_train)

#测试
count_test=vectorizer.transform(content_test)
test_tfidf = tfidftransformer.transform(count_test)

测试集的if-idf
test_weight = test_tfidf.toarray()

二、tf-idf词典的保存

我们总是需要保存tf-idf的词典，然后计算测试集的tfidf，这里要注意sklearn中保存有两种方法：pickle与joblib。我们这里用pickle

 train_content = segmentWord(X_train)

 test_content = segmentWord(X_test)

 # replace 必须加，保存训练集的特征

 vectorizer = CountVectorizer(decode_error="replace")

 tfidftransformer = TfidfTransformer()

 # 注意在训练的时候必须用vectorizer.fit_transform、tfidftransformer.fit_transform

 # 在预测的时候必须用vectorizer.transform、tfidftransformer.transform

 vec_train = vectorizer.fit_transform(train_content)

 tfidf = tfidftransformer.fit_transform(vec_train)

 # 保存经过fit的vectorizer 与 经过fit的tfidftransformer,预测时使用

 feature_path = 'models/feature.pkl'

 with open(feature_path, 'wb') as fw:

     pickle.dump(vectorizer.vocabulary_, fw)

 tfidftransformer_path = 'models/tfidftransformer.pkl'

 with open(tfidftransformer_path, 'wb') as fw:

     pickle.dump(tfidftransformer, fw)

注意：vectorizer 与tfidftransformer都要保存，而且只能 fit_transform 之后保存，表示vectorizer 与tfidftransformer已经用训练集训练好了。

三、tf-idf加载，测试新数据

 # 加载特征

 feature_path = 'models/feature.pkl'

 loaded_vec = CountVectorizer(decode_error="replace", vocabulary=pickle.load(open(feature_path, "rb")))

 # 加载TfidfTransformer

 tfidftransformer_path = 'models/tfidftransformer.pkl'

 tfidftransformer = pickle.load(open(tfidftransformer_path, "rb"))

 #测试用transform，表示测试数据，为list

 test_tfidf = tfidftransformer.transform(loaded_vec.transform(test_content))

tfidf_CountVectorizer 与 TfidfTransformer 保存和测试的更多相关文章

tensorflow训练自己的数据集实现CNN图像分类2（保存模型&测试单张图片）
神经网络训练的时候,我们需要将模型保存下来,方便后面继续训练或者用训练好的模型进行测试.因此,我们需要创建一个saver保存模型. def run_training(): data_dir = 'C: ...
python selenium4 模拟点击+拖动+保存验证码测试对象+以验证码的返回ID保存命名 58同城验证码
#!/usr/bin/python # -*- coding: UTF-8 -*- # @Time : 2019/12/5 17:30 # @Author : shenghao/10347899@qq ...
python selenium3 模拟点击+拖动+保存验证码测试对象 58同城验证码
#!/usr/bin/python # -*- coding: UTF-8 -*- # @Time : 2019/12/5 17:30 # @Author : shenghao/10347899@qq ...
利用Angularjs测试引擎Karma进行自动化单元测试
Karma是Google用于angularjs框架单元测试的js引擎(javascript test runner ), angular1 和angular2项目源码的单元测试都是基于karma和ja ...
004.测试解析php，安装discuz
一.配置解析php 编辑nginx配置文件/usr/local/nginx/conf/nginx.conf [root@huh ~]# vim /usr/local/nginx/conf/nginx. ...
IOS（SystemConfiguration)框架中关于测试连接网络状态相关方法
1. 在SystemConfiguration.famework中提供和联网相关的function, 可用来检查网络连接状态. 2. SC(SystemConfiguration)框架中关于测试连接网 ...
VSTS负载测试——如何：使用 SQL 创建结果存储区
原文地址:http://www.cnblogs.com/chenxizhang/archive/2009/06/01/1493939.html 原文参见:http://msdn.microsoft.c ...
TPCC-UVA测试环境搭建与结果分析
一. 准备操作系统 :Linux, 内核版本2.6 需要软件:tpccuva-1.2.3, postgresql-8.1.15, gnuplot-4.2.5. tccuva是实现标准TPC-C ...
APP测试中的头疼脑热：测试人员如何驱动开发做好自测
如今,随着移动互联网的浪潮越翻越涌,移动APP测试工作的现状已经成了那本"家家难念"的经.不管公司大小,不管测试哪种类型的APP,让广泛测试者苦不堪言的就属重复性最多,测试工作量最 ...

随机推荐

Kriging插值法
克里金法是通过一组具有 z 值的分散点生成估计表面的高级地统计过程.与插值工具集中的其他插值方法不同,选择用于生成输出表面的最佳估算方法之前,有效使用克里金法工具涉及 z 值表示的现象的空间行为的交互 ...
ipa重签名
为什么要研究重签名问题?将程序打包成ipa包后,ipa包中会包含Provisioning Profile和_CodeSignature等文件,里面包含了对整个ipa的签名信息. 一旦改动ipa中的不论 ...
iOS 版本更新(强制更新)检测问题
iOS 版本更新(强制更新)检测问题通常iOS系统中是默认设置再wifi状态,且网络状况良好下自己更新应用的. 但是如果用户设置了不自动更新,但是我们的APP出现重要的版本,一定需要用户更新的情况下 ...
Unity和Android混合开发
通用的流程 https://blog.csdn.net/zhangdi2017/article/details/65629589 应用场景 Unity游戏中一些功能需要安卓系统的支持,如搜索wifi等 ...
hdoj：2042
#include <iostream> using namespace std; int main() { int n,a; while (cin >> n) { while ...
unable to locate package gparted
在unbuntu安装gparted的时候出现这个错误提示,意思为:找不到这个安装包可能的原因: 1.当前系统更新包没有更新,执行命令:sudo apt-get update 2.命令错误,重新检查需 ...
解决com.mysql.jdbc.PacketTooBigException: Packet for query is too large
在做查询数据库操作时,报了以上错误,还有out of memery heap hacp ,原因是MySQL的max_allowed_packet设置过小引起的,我一开始设置的是1M,后来改为了20M ...
Mysql 导入导出csv 中文乱码
这篇文章介绍了Mysql 导入导出csv 中文乱码问题的解决方法,有需要的朋友可以参考一下导入csv: load data infile '/test.csv' into table table ...
嵌入式开发之hi3519---GPIO 按键驱动
摸索了一个星期,终于把海思HI3515开发板的按键中断程序搞出来了,hi3515的核心芯片与网上例子较多的s3c之类的有一些区别,以至于浪费了好些时间去琢磨.管脚配置方式不一样,中断的使用情况也不一样 ...
占位 Bootstrap
中文网 http://www.bootcss.com/

tfidf_CountVectorizer 与 TfidfTransformer 保存和测试

一、训练以及测试

二、tf-idf词典的保存

三、tf-idf加载，测试新数据

tfidf_CountVectorizer 与 TfidfTransformer 保存和测试的更多相关文章

随机推荐

热门专题