本篇blog是利用Python进行文章特征提取的续篇,主要介绍构建带TF-IDF权重的文章特征向量. In [1]: # 带TF-IDF权重的扩展词库 # 在第一篇文档里 主要是利用词库模型简单判断单词是否在文档中出现.然而与单词的顺序.频率无关.然后词的频率对文档更有意义.因此本文将词频加入特征向量 In [2]: # 1.计算单词在文档中的频率 from sklearn.feature_extraction.text import CountVectorizer In [5]: docume…
# 文字特征提取 词库模型(bag of words) 2016年2月26,星期五 # 1.词库表示法 In [9]: # sklearn 的 CountVectorizer类能够把文档词块化(tokenize),代码如下 from sklearn.feature_extraction.text import CountVectorizer corpus=['UNC played Duke in basketball','Duke lost the basketball game','I ate…