TFIDF练习

直接上代码吧：

 """

     测试Demo

 """

 import lightgbm as lgb

 import numpy as np

 from sklearn.feature_extraction.text import TfidfVectorizer

 from sklearn.feature_extraction.text import CountVectorizer

 def use_lgb():

     # 训练数据，500个样本，10个维度

     train_data = np.random.rand(500, 10)

     # 构建二分类数据

     label = np.random.randint(2, size=500)

     # 放入到dataset中

     train = lgb.Dataset(train_data, label=label)

     print(train)

 def use_tfidf():

     sentence = ['没有 你 的 地方 都是 他乡', '没有 你 的 旅行 都是 流浪']

     # 不去掉停用词

     c = CountVectorizer(stop_words=None)

     # 拟合模型返回文本矩阵

     count_word_tf = c.fit_transform(sentence)

     # print(count_word_tf.toarray())

     # # 查看那些词，以字典的形式

     # print(c.vocabulary_)

     # # 得到特征

     # print(c.get_feature_names())

 ###############################

     stopword = ['都是']

     # 构建一个tfidf向量器,去除停用词

     tfidf = TfidfVectorizer(stop_words=stopword)

     # 给出tfidf的权重,将tfidf矩阵抽取出来

     weight = tfidf.fit_transform(sentence).toarray()

     # 给出特征名称

     word = tfidf.get_feature_names()

     print("有哪些词：")

     print(word)

     print("\n词汇表以及他们的位置索引：")

     for key, value in tfidf.vocabulary_.items():

         print(key, value)

     print("\n词频矩阵：")

     print(weight)

     print(len(weight))

     # 打印每类文本中的tfidf权重，第一个for变量所有样本，第二个for遍历某一类文档下的所有权重

     for i in range(len(weight)):

         print("这里输出的是第{}文本的词语tfidf权重".format(i))

         for j in range(len(word)):

             # 经过tfidf后，找出每篇文档相关的词，这些词就是精心挑选出来的。然后根据这些词到文档中去找到tfidf值

             print(word[j], weight[i][j])

 if __name__ == '__main__':

     use_tfidf()

输出：

 有哪些词：

 ['他乡', '地方', '旅行', '没有', '流浪']

 词汇表以及他们的位置索引：

 他乡 0

 旅行 2

 流浪 4

 地方 1

 没有 3

 词频矩阵：

 [[0.6316672  0.6316672  0.         0.44943642 0.        ]

  [0.         0.         0.6316672  0.44943642 0.6316672 ]]

 2

 这里输出的是第0文本的词语tfidf权重

 他乡 0.6316672017376245

 地方 0.6316672017376245

 旅行 0.0

 没有 0.4494364165239821

 流浪 0.0

 这里输出的是第1文本的词语tfidf权重

 他乡 0.0

 地方 0.0

 旅行 0.6316672017376245

 没有 0.4494364165239821

 流浪 0.6316672017376245

本文参考：https://blog.csdn.net/the_lastest/article/details/79093407

TFIDF练习的更多相关文章

TF-IDF算法学习报告
TF-IDF是一种统计方法,这个算法在我们项目提取关键词的模块需要被用到,TF-IDF算法是用来估计一个词汇对于一个文件集中一份文件的重要程度.从算法的定义中就可以看到,这个算法的有效实现是依靠一 ...
tf-idf知多少？
1.最完整的解释 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度.字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反 ...
TF-IDF提取行业关键词
1. TF-IDF简介 TF-IDF(Term Frequency/Inverse Document Frequency)是信息检索领域非常重要的搜索词重要性度量:用以衡量一个关键词\(w\)对于查询 ...
Lucene TF-IDF 相关性算分公式(转)
Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序 TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为向量空间模型,名字听起来很 ...
TF-IDF
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术.TF-IDF是一种统计方法,用以评估一字词对于一个文件集或 ...
TF-IDF 加权及其应用
TF-IDF 加权及其应用 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索的常用加权技术.TF-IDF是一种统计方法,用以评估某个 ...
TF-IDF算法
转自:http://www.cnblogs.com/eyeszjwang/articles/2330094.html TF-IDF(term frequency–inverse document fr ...
TF-IDF 文本相似度分析
前阵子做了一些IT opreation analysis的research,从产线上取了一些J2EE server运行状态的数据(CPU,Menory...),打算通过训练JVM的数据来建立分类模型, ...
基于TF-IDF值的汉语语义消歧算法
RT,学校课题需要233,没了话说,窝直接做个链接的集合好了,方便以后查找特征值提取之 -- TF-IDF值的简单介绍汉语语义消歧之 -- 句子相似度汉语语义消歧之 -- 词义消歧简介 c++ ...
Mahout源码分析之 -- 文档向量化TF-IDF
fesh个人实践,欢迎经验交流!Blog地址:http://www.cnblogs.com/fesh/p/3775429.html Mahout之SparseVectorsFromSequenceFi ...

随机推荐

静态库lib
步骤: 按普通方式编程,无需export 其中静态库就是中间文件,跟obj文件类似. 静态库的使用不太方便: 如果该静态库是vs2008编译的,那么APP也得用vs2008编译,版本必须一致.且编译方 ...
优矿众包对冲基金计划”优选策略---100w实盘资金管理权！！
https://uqer.io/contest/ http://www.cnblogs.com/dunitian/p/4939369.html 优连
C语言简单选择排序
#include <stdio.h> int main(int argc, char const *argv[]) { // 将数组按照从小到大排序 , , , , , }; int i, ...
VirtualBox 配置虚拟网卡(桥接),实现主机-虚拟机网络互通
记录下VirtualBox 配置虚拟网卡(桥接),实现主机-虚拟机网络互通过程,网上搜出来的比较乱,讲的不明不白,因此根据自己弄过一次,确认可行的方式,做个备份,方便日后查阅. 环境: 在Oracle ...
c++ __int64
C++的64位整数［原］by 赤兔在做ACM题时,经常都会遇到一些比较大的整数.而常用的内置整数类型常常显得太小了:其中long 和 int 范围是[-2^31,2^31),即-2147483648 ...
工厂模式(factory pattern) ------创造型模式
创建型模式简单工厂模式的缺点是: 当我们引入新产品时,由于静态工厂方法通过所传入参数的不同来创建不同的产品,需要修改工厂类的方法,违反了“开闭原则”. 工厂模式提供了一个抽象工厂接口来声明抽象工厂方 ...
Cookie管理工具
Cookie Editor 是管理 Cookie 的工具,能识别并编辑IE.Firfox.Netscope Cookie 文件,控制个人隐私信息,修改 Cookie 使用期限,删除历史文件,编辑和删除 ...
mysql数据库中，flush logs语句的作用是什么呢？
需求描述: 今天在研究mysql数据库的备份和恢复,用到了flush logs这个SQL语句. 所以,在此进行测试,并且记录该SQL语句的作用. 概念描述: 在mysql数据库,如果数据库启动的时候, ...
浅析Linux内核同步机制
非常早之前就接触过同步这个概念了,可是一直都非常模糊.没有深入地学习了解过,最近有时间了,就花时间研习了一下<linux内核标准教程>和<深入linux设备驱动程序内核机制>这 ...
开源免费 java CMS - FreeCMS1.9 移动APP生成网站列表数据
项目地址:http://www.freeteam.cn/ 生成网站列表数据提取同意移动APP訪问的网站列表,生成json数据到/mobile/index.html页面. 从左側管理菜单点击生成网站列 ...

TFIDF练习

TFIDF练习的更多相关文章

随机推荐

热门专题