【ZH奶酪】如何用sklearn计算中文文本TF-IDF?
1. 什么是TF-IDF
tf-idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
2. 如何用sklearn计算TF-IDF?
2.1 语料集
本文所用语料集为人机对话系统中的短文本语料,corpus列表中的每个元素是一条Query。(如果是长文本的话,每个元素是一篇文档)
corpus = [
"帮我 查下 明天 北京 天气 怎么样",
"帮我 查下 今天 北京 天气 好不好",
"帮我 查询 去 北京 的 火车",
"帮我 查看 到 上海 的 火车",
"帮我 查看 特朗普 的 新闻",
"帮我 看看 有没有 北京 的 新闻",
"帮我 搜索 上海 有 什么 好玩的",
"帮我 找找 上海 东方明珠 在哪"
]
2.2 将语料转换为词袋向量
step 1. 声明一个向量化工具vectorizer
本文使用的是CountVectorizer,默认情况下,CountVectorizer仅统计长度超过两个字符的词,但是在短文本中任何一个字都可能十分重要,比如“去/到”等,所以要想让CountVectorizer也支持单字符的词,需要加上参数
token_pattern='\\b\\w+\\b'。
step 2. 根据语料集统计词袋(fit);
step 3. 打印语料集的词袋信息;
step 4. 将语料集转化为词袋向量(transform);
step 5. 还可以查看每个词在词袋中的索引;
代码
from sklearn.feature_extraction.text import CountVectorizer
# step 1
vectoerizer = CountVectorizer(min_df=1, max_df=1.0, token_pattern='\\b\\w+\\b')
# step 2
vectoerizer.fit(corpus)
# step 3
bag_of_words = vectoerizer.get_feature_names()
print("Bag of words:")
print(bag_of_words)
print(len(bag_of_words))
# step 4
X = vectoerizer.transform(corpus)
print("Vectorized corpus:")
print(X.toarray())
# step 5
print("index of `的` is : {}".format(vectoerizer.vocabulary_.get('的')))
输出
Bag of words:
['上海', '东方明珠', '什么', '今天', '到', '北京', '去', '在哪', '天气', '好不好', '好玩的', '帮我', '怎么样', '找找', '搜索', '新闻', '明天', '有', '有没有', '查下', '查看', '查询', '火车', '特朗普', '的', '看看']
26
Vectorized corpus:
[[0 0 0 0 0 1 0 0 1 0 0 1 1 0 0 0 1 0 0 1 0 0 0 0 0 0]
[0 0 0 1 0 1 0 0 1 1 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0]
[0 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 1 0 1 0]
[1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 1 0]
[0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 1 1 0]
[0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 1 0 0 0 0 0 1 1]
[1 0 1 0 0 0 0 0 0 0 1 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0]
[1 1 0 0 0 0 0 1 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0]]
index of `的` is : 24
2.3 根据词袋向量统计TF-IDF
step 1. 声明一个TF-IDF转化器(TfidfTransformer);
step 2. 根据语料集的词袋向量计算TF-IDF(fit);
step 3. 打印TF-IDF信息:比如结合词袋信息,可以查看每个词的TF-IDF值;
step 4. 将语料集的词袋向量表示转换为TF-IDF向量表示;
from sklearn.feature_extraction.text import TfidfTransformer
# step 1
tfidf_transformer = TfidfTransformer()
# step 2
tfidf_transformer.fit(X.toarray())
# step 3
for idx, word in enumerate(vectoerizer.get_feature_names()):
print("{}\t{}".format(word, tfidf_transformer.idf_[idx]))
# step 4
tfidf = tfidf_transformer.transform(X)
print(tfidf.toarray())
输出
上海 1.8109302162163288
东方明珠 2.504077396776274
什么 2.504077396776274
今天 2.504077396776274
到 2.504077396776274
北京 1.587786664902119
去 2.504077396776274
在哪 2.504077396776274
天气 2.09861228866811
好不好 2.504077396776274
好玩的 2.504077396776274
帮我 1.0
怎么样 2.504077396776274
找找 2.504077396776274
搜索 2.504077396776274
新闻 2.09861228866811
明天 2.504077396776274
有 2.504077396776274
有没有 2.504077396776274
查下 2.09861228866811
查看 2.09861228866811
查询 2.504077396776274
火车 2.09861228866811
特朗普 2.504077396776274
的 1.587786664902119
看看 2.504077396776274
[[0. 0. 0. 0. 0. 0.3183848
0. 0. 0.42081614 0. 0. 0.20052115
0.50212047 0. 0. 0. 0.50212047 0.
0. 0.42081614 0. 0. 0. 0.
0. 0. ]
[0. 0. 0. 0.50212047 0. 0.3183848
0. 0. 0.42081614 0.50212047 0. 0.20052115
0. 0. 0. 0. 0. 0.
0. 0.42081614 0. 0. 0. 0.
0. 0. ]
[0. 0. 0. 0. 0. 0.33116919
0.52228256 0. 0. 0. 0. 0.20857285
0. 0. 0. 0. 0. 0.
0. 0. 0. 0.52228256 0.43771355 0.
0.33116919 0. ]
[0.38715525 0. 0. 0. 0.53534183 0.
0. 0. 0. 0. 0. 0.21378805
0. 0. 0. 0. 0. 0.
0. 0. 0.44865824 0. 0.44865824 0.
0.33944982 0. ]
[0. 0. 0. 0. 0. 0.
0. 0. 0. 0. 0. 0.23187059
0. 0. 0. 0.48660646 0. 0.
0. 0. 0.48660646 0. 0. 0.5806219
0.36816103 0. ]
[0. 0. 0. 0. 0. 0.33116919
0. 0. 0. 0. 0. 0.20857285
0. 0. 0. 0.43771355 0. 0.
0.52228256 0. 0. 0. 0. 0.
0.33116919 0.52228256]
[0.33420711 0. 0.4621274 0. 0. 0.
0. 0. 0. 0. 0.4621274 0.18454996
0. 0. 0.4621274 0. 0. 0.4621274
0. 0. 0. 0. 0. 0.
0. 0. ]
[0.37686288 0.52110999 0. 0. 0. 0.
0. 0.52110999 0. 0. 0. 0.20810458
0. 0.52110999 0. 0. 0. 0.
0. 0. 0. 0. 0. 0.
0. 0. ]]
参考资料
- TF-IDF-维基百科
- 学习sklearn之文本特征提取
- sklearn.feature_extraction.text.CountVectorizer
- sklearn.feature_extraction.text.TfidfTransformer
【ZH奶酪】如何用sklearn计算中文文本TF-IDF?的更多相关文章
- 【ZH奶酪】如何用textgenrnn处理中文
如何用textgenrnn处理中文 1. 什么是textgenrnn? textgenrnn是建立在Keras和TensorFlow之上的,可用于生成字级别和词级别文本.网络体系结构使用注意力加权来加 ...
- 利用sklearn计算文本相似性
利用sklearn计算文本相似性,并将文本之间的相似度矩阵保存到文件当中.这里提取文本TF-IDF特征值进行文本的相似性计算. #!/usr/bin/python # -*- coding: utf- ...
- word2vec词向量训练及中文文本类似度计算
本文是讲述怎样使用word2vec的基础教程.文章比較基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 官网Python ...
- 如何用Python从海量文本抽取主题?
摘自https://www.jianshu.com/p/fdde9fc03f94 你在工作.学习中是否曾因信息过载叫苦不迭?有一种方法能够替你读海量文章,并将不同的主题和对应的关键词抽取出来,让你谈笑 ...
- [转]python进行中文文本聚类(切词以及Kmeans聚类)
简介 查看百度搜索中文文本聚类我失望的发现,网上竟然没有一个完整的关于Python实现的中文文本聚类(乃至搜索关键词python 中文文本聚类也是如此),网上大部分是关于文本聚类的Kmeans聚类的原 ...
- 万字总结Keras深度学习中文文本分类
摘要:文章将详细讲解Keras实现经典的深度学习文本分类算法,包括LSTM.BiLSTM.BiLSTM+Attention和CNN.TextCNN. 本文分享自华为云社区<Keras深度学习中文 ...
- ChineseCounter.cs 统计中文文本中常用字占比
http://www.tuicool.com/articles/qmMba2 1 using System; using System.IO; using System.Collections.Gen ...
- 自然语言处理--中文文本向量化counterVectorizer()
1.载入文档 #!/usr/bin/python # -*- coding: utf-8 -*- import pandas as pd import re import jieba from skl ...
- 推荐 | 中文文本标注工具Chinese-Annotator(转载)
自然语言处理的大部分任务是监督学习问题.序列标注问题如中文分词.命名实体识别,分类问题如关系识别.情感分析.意图分析等,均需要标注数据进行模型训练.深度学习大行其道的今天,基于深度学习的 NLP 模型 ...
随机推荐
- jquery----data使用
- .data() - .data("key", value) 保存值,value可以是字符串,也可以是数组,也可以是jquery对象- .data("key" ...
- 【深度探索C++对象模型 | 02】构造函数语意学
默认构造函数的构造操作.拷贝构造函数额构造操作 注意:默认构造函数和拷贝构造函数在必要时的时候由编译器产生出来. 参考资料 关于默认构造函数的几个错误认识(四种情况下,编译器会生成默认构造函数)
- C# mongoDB Driver 使用对象方式查询语法大全
#region 查询方法 /// <summary> /// 获取单个对象 /// </summary> /// <typeparam name="T" ...
- Linux下apache支持PHP配置
https://www.cnblogs.com/qiuxiao/p/6815350.html https://www.cnblogs.com/polestar/p/6086552.html
- SpringBank 开发日志 重新设计Action调用Service的参数传递 使用泛型解决类型转换问题
之前想的比较简单,请求到达controller的时候,传给action的参数没有经过任何封装,就是一个Map.然后action再调用service的时候,传递的参数也是map @Controller ...
- AngularJS+Node.js+socket.io 开发在线聊天室
所有文章搬运自我的个人主页:sheilasun.me 不得不说,上手AngularJS比我想象得难多了,把官网提供的PhoneCat例子看完,又跑到慕课网把大漠穷秋的AngularJS实战系列看了一遍 ...
- thinkphp实现附件上传
先需要制定图片上传的目录 然后用uploadOne方法保存 有的时候需要缩略图,比如文章的封面图片 $config=array( 'rootPath' => './Application/Pub ...
- docker compose不同配置文件之间的 网络连接
一.引用自https://blog.csdn.net/luckyjiet/article/details/80979378 二.
- P3144 关闭农场 并查集 反向
FJ和他的奶牛们正在计划离开小镇做一次长的旅行,同时FJ想临时地关掉他的农场以节省一些金钱. 这个农场一共有被用M条双向道路连接的N个谷仓(1<=N,M<=3000).为了关闭整个农场,F ...
- 000 Python的运行
1.在命令行中运行 2.使用shell(IDLE) 3.新建.py脚本 只要是编辑器都可以 4.然后脚本在IDLE中运行 首先,需要先打开IDLE,然后使用File下面的open打开所需要的py文件, ...