sklearn 文本处理

from sklearn.feature_extraction.text import **

1. 向量的统计、tf-idf 的计算

考虑如下预料，三行 ⇒ 三个文档，不重复的单词共有 8 个，

corpus = ['I love you',

      'You love him',

      'He loves me']

from sklearn.feature_extraction.text import CountVectorizer

                            # 大写字母开头，显然是一个类

vectorizer = CountVectorizer()

csr_mat = vectorizer.fit_transform(corpus)

print(type(csr_mat))

            # scipy.sparse.csr.csr_matrix

            # 稀疏矩阵，一般而言，预料信息都是十分海量的，出于节省内存的考虑，将其作为稀疏形式存储。

print(csr_mat)

print(csr_mat.todense())

再来计算 tf-idf 的值：

from sklearn.feature_extraction.text import TfidfTransformer

transformer = TfidfTransformer()

tfidf = transformer.fit_transform(csr_mat)

print(type(tfidf))

print(tfidf)

print(tfidf.todense())

        # 最终算下来会与得到的结果有一定的不同，

        # 这是因为在 sklearn 内部会做一些去停用词、平滑、正则化等的操作，

另外，需要注意的是：note that CountVectorizer discards “words” that contain only one character, such as “s”。中文也是如此，我 和 I 都不会被 CountVectorizer 当作 term。

教你成为全栈工程师(Full Stack Developer) 三十三-利用scikit-learn计算tf-idf做文本词频分析 - SharEDITor - 关注大数据技术

 TF-IDF与余弦相似性的应用（一）：自动提取关键词

阮老师的这篇文章，计算 idf 时取的对数是以 10 为底的对数，则蜜蜂的 tf-idf 为 201000⋅log10250/0.484≈0.0543

sklearn 文本处理的更多相关文章

sklearn文本特征提取
http://cloga.info/2014/01/19/sklearn_text_feature_extraction/ 文本特征提取词袋(Bag of Words)表征文本分析是机器学习算法的 ...
Feature extraction - sklearn文本特征提取
http://blog.csdn.net/pipisorry/article/details/41957763 文本特征提取词袋(Bag of Words)表征文本分析是机器学习算法的主要应用领域 ...
sklearn文本特征提取——TfidfVectorizer
什么是TF-IDF IF-IDF(term frequency-inverse document frequency)词频-逆向文件频率.在处理文本时,如何将文字转化为模型可以处理的向量呢?IF-ID ...
【sklearn文本特征提取】词袋模型/稀疏表示/停用词/TF-IDF模型
1. 词袋模型 (Bag of Words, BOW) 文本分析是机器学习算法的一个主要应用领域.然而,原始数据的这些符号序列不能直接提供给算法进行训练,因为大多数算法期望的是固定大小的数字特征向量, ...
sklearn
Feature extraction - sklearn文本特征提取 http://blog.csdn.net/pipisorry/article/details/41957763 http://sc ...
文本分类之特征描述vsm和bow
当我们尝试使用统计机器学习方法解决文本的有关问题时,第一个需要的解决的问题是,如果在计算机中表示出一个文本样本.一种经典而且被广泛运用的文本表示方法,即向量空间模型(VSM),俗称“词袋模型”. 我们 ...
文本挖掘之特征选择(python 实现)
机器学习算法的空间.时间复杂度依赖于输入数据的规模,维度规约(Dimensionality reduction)则是一种被用于降低输入数据维数的方法.维度规约可以分为两类: 特征选择(feature ...
CountVectorizer()类解析
主要可以参考下面几个链接: 1.sklearn文本特征提取 2.使用scikit-learn tfidf计算词语权重 3.sklearn官方中文文档 4.sklearn.feature_extra ...
【scikit-learn】06：make_blobs聚类数据生成器
版权声明:本文为博主原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/kevinelstri/article/ ...

随机推荐

spark提交应用的方法(spark-submit)
参考自:https://spark.apache.org/docs/latest/submitting-applications.html 常见的语法: ./bin/spark-submit \ ...
js模仿块级作用域（js没有块级作用域私有作用域）
js模仿块级作用域(js没有块级作用域私有作用域) 一.总结 1.js没有块级作用域:在for循环中定义的i,出了for循环还是有这个i变量 2.js可以模拟块级作用域:用立即执行的匿名函数:(匿名函 ...
Oracle null 处理
null first null last 解决啦-
跟我学AngularJs:Service、Factory、Provider依赖注入使用与差别
林炳文Evankaka原创作品. 转载请注明出处http://blog.csdn.net/evankaka 本教程使用AngularJs版本号:1.5.3 AngularJ ...
OpenGL核心之视差映射
笔者介绍:姜雪伟,IT公司技术合伙人.IT高级讲师,CSDN社区专家,特邀编辑.畅销书作者;已出版书籍:<手把手教你¯的纹理坐标偏移T3来对fragment的纹理坐标进行位移.你能够看到随着深度 ...
JVM 调优 —— OutOfMemory
零. 简单介绍 OutOfMemory 意思就是须要申请更大的内存, 可是内存限制无法申请到须要的内存. 一. 解决方法基本上解决方向有两种: 检查程序是否有问题. 是不是写死循环不停地创建并持有对 ...
PHP数组foreach循环如何实现逆序访问？
PHP数组foreach循环如何实现逆序访问? 一.总结 1.array_reverse($array) :foreach(array_reverse($array) as $key=>$val ...
Android 长按事件和短按事件同时响应
在长按事件中的return false 改为return true就可以解决这个问题
Redis内存管理的基石zmallc.c源代码解读（一）
当我第一次阅读了这个文件的源代码的时候.我笑了,忽然想起前几周阿里电话二面的时候,问到了自己定义内存管理函数并处理8字节对齐问题. 当时无言以对,在面试官无数次的提示下才答了出来,结果显而易见,挂掉了 ...
Linux中特别要注意用户与文件权限的问题
1.在使用Linux中,肯定会涉及不同用户的切换,但是如果不合理切换的话,会造成很多应用启动不了,所以这时候要多多使用ll看一下文件目录的权限问题,因为如果习惯用root启动程序,然后切换普通用户继续 ...

sklearn 文本处理

1. 向量的统计、tf-idf 的计算

sklearn 文本处理的更多相关文章

随机推荐

热门专题