TF-IDF笔记（直接调用函数、手写）

首先TF-IDF 全称：term frequency–inverse document frequency，是一种用于信息检索与数据挖掘的常用加权技术。

TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。

上面是百度的结果

我的理解就是用来筛选特征的，看看那些词用来当特征比较好。

词频（TF）：就是一个词在一个文本里出现的次数除以文本词数。（文本内词出现次数 /文本内词总数）

逆文本频率指数（IDF）：就是总文本数除以包含这个词的文本数的10的对数，有点饶哈哈。lg(总文本数/包含这个词的文本数）

TF-IDF = TF*IDF

先看下调用的：

# CountVectorizer会将文本中的词语转换为词频矩阵
vectorizer = CountVectorizer(max_features=1200, min_df=12)

# TfidfTransformer用于统计vectorizer中每个词语的TF-IDF值
tf_idf_transformer = TfidfTransformer()

# vectorizer.fit_transform()计算每个词出现的次数
# tf_idf_transformer.fit_transform将词频矩阵统计成TF-IDF值
tf_idf = tf_idf_transformer.fit_transform(vectorizer.fit_transform(train_features['features'].values.astype('U'))) # .values.astype('U')

x_train_weight = tf_idf.toarray()  # 训练集TF-IDF权重矩阵

然后是我手写的：
参数格式是，[词1 词2 词3，词1 词2 词3，词1 词2 词3]
一个字符串列表，词与词间用空格隔开。

 print("-"*5+"构建tf-idf权重矩阵中"+"-"*5)
 def get_tf_idf(list_words):
     # 构建词典
     wordSet = list(set(" ".join(list_words).split()))

     # 统计词数
     def count_(words):
         wordDict = dict.fromkeys(wordSet, 0)
         for i in words:
             wordDict[i] += 1
         return wordDict

     # 计算tf
     def computeTF(words):
         cnt_dic = count_(words)
         tfDict = {}
         nbowCount = len(words)

         for word, count in cnt_dic.items():
             tfDict[word] = count / nbowCount

         return tfDict

     # 计算idf
     def get_idf():
         filecont = dict.fromkeys(wordSet, 0)
         for i in wordSet:
             for j in list_words:
                 if i in j.split():
                     filecont[i] += 1
         idfDict = dict.fromkeys(wordSet, 0)
         le = len(list_words)
         for word, cont in filecont.items():
             idfDict[word] = math.log10(le/cont+1)
         return idfDict

     # 计算每个词的TF*IDF的值
     def get_tf_idf(list_words):
         idf_dic = get_idf()
         ret = []
         for words in list_words:
             tf_dic = computeTF(words.split())
             tf_idf_dic = {}
             temp = []
             for word, tf in tf_dic.items():
                 idf = idf_dic[word]
                 tf_idf =  tf * math.log(len(list_words) / (idf+1))
                 tf_idf_dic[word] = tf_idf

             for word in wordSet:
                 temp.append(tf_idf_dic.get(word, 0))
             ret.append(temp)
         return ret
     return np.array(get_tf_idf(list_words))

tf-idf矩阵：
word_tf_idf = get_tf_idf(features)

慢的飞起，哈哈哈哈。

TF-IDF笔记（直接调用函数、手写）的更多相关文章

JDBC学习笔记(10)——调用函数&存储过程
如何使用JDBC调用存储在数据库中的函数或存储过程: * 1.通过COnnection对象的prepareCall()方法创建一个CallableStatement * 对象的实例,在使用Con ...
SVM学习笔记（二）----手写数字识别
引言上一篇博客整理了一下SVM分类算法的基本理论问题,它分类的基本思想是利用最大间隔进行分类,处理非线性问题是通过核函数将特征向量映射到高维空间,从而变成线性可分的,但是运算却是在低维空间运行的.考 ...
【转】JDBC学习笔记(10)——调用函数&存储过程
转自:http://www.cnblogs.com/ysw-go/ 如何使用JDBC调用存储在数据库中的函数或存储过程: * 1.通过COnnection对象的prepareCall()方法创建一个C ...
5 TensorFlow入门笔记之RNN实现手写数字识别
------------------------------------ 写在开头:此文参照莫烦python教程(墙裂推荐!!!) ---------------------------------- ...
tensorflow笔记（五）之MNIST手写识别系列二
tensorflow笔记(五)之MNIST手写识别系列二版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7455233.html ...
10分钟教你用python 30行代码搞定简单手写识别！
欲直接下载代码文件,关注我们的公众号哦!查看历史消息即可! 手写笔记还是电子笔记好呢? 毕业季刚结束,眼瞅着2018级小萌新马上就要来了,老腊肉小编为了咱学弟学妹们的学习,绞尽脑汁准备编一套大学秘籍, ...
一套手写ajax加一般处理程序的增删查改
倾述下感受:8天16次驳回.这个惨不忍睹. 好了不说了,说多了都是泪. 直接上代码 : 这个里面的字段我是用动软生成的,感觉自己手写哪些字段太浪费时间了,说多了都是泪 ajax.model层的代码: ...
python笔记六（函数的参数、返回值）
一调用函数在写函数之前,我们先尝试调用现有的函数 >>> abs(-9) 9 除此之外,还有我们之前使用的len()等.可以用于数据类型转换的 int() float() str ...
第三节，TensorFlow 使用CNN实现手写数字识别(卷积函数tf.nn.convd介绍)
上一节,我们已经讲解了使用全连接网络实现手写数字识别,其正确率大概能达到98%,这一节我们使用卷积神经网络来实现手写数字识别, 其准确率可以超过99%,程序主要包括以下几块内容 [1]: 导入数据,即 ...

随机推荐

Python库国内镜像
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ http://pypi.mirrors.ustc.edu.cn/simple/ 豆瓣 http://py ...
seqlist template
1 #include <iostream.h> 2 typedef int ElemType; 3 typedef struct{ 4 ElemType *elem; 5 int leng ...
从零开始，开发一个 Web Office 套件（14）：复制、粘贴、剪切、全选
这是一个系列博客,最终目的是要做一个基于 HTML Canvas 的.类似于微软 Office 的 Web Office 套件(包括:文档.表格.幻灯片--等等). 博客园:<从零开始, 开发一 ...
IDEA terminal无法从vim的编辑模式转换为命令模式
Git 修改最后一次的commit历史记录:https://www.baidu.com/link?url=2WF8yFd0iBuVmXLWfutmSoXa12K9D143e_B0A3PTYYHEP9r ...
Mock 或 Stub 有什么区别？
存根一个有助于运行测试的虚拟对象. 在某些可以硬编码的条件下提供固定行为. 永远不会测试存根的任何其他行为. 例如,对于空堆栈,您可以创建一个只为 empty()方法返回 true 的存根.因此, ...
Java 中，编写多线程程序的时候你会遵循哪些最佳实践？
这是我在写 Java 并发程序的时候遵循的一些最佳实践: a)给线程命名,这样可以帮助调试. b)最小化同步的范围,而不是将整个方法同步,只对关键部分做同步. c)如果可以,更偏向于使用 volati ...
spring @Bean和@Order 官方doc理解
今天阅读了spring的官方代码,(大概)理解了@Bean和@Order如何使用. @Bean 官方代码解读: 0.@Bean的注入,用于表示这个bean被spring容器管理(创建.销毁)(官方英文 ...
JavaScript的取值小技巧之“中括号[]取值法”
一.简介做下记录,今天看了一篇很有意思的文章,学到了这个取值的小技巧正常的话我们一般都是用对象直接去'.'对应的属性名(也就是键值对的键)来获取对应的值这里记录的是另一种取值方式,他是采用中括号 ...
业务网关之AK中心建设
啥是AK AK(Access Key)是一种身份证明,它解决了"资源的使用者是谁"这个问题,比如在生活中,身份证可以证明你是你,而在云计算或程序中,AK能证明你是这个应用的拥有者. ...
BMZCTF WEB_ezeval
WEB_ezeval 进入环境,源码给出 <?php highlight_file(__FILE__); $cmd=$_POST['cmd']; $cmd=htmlspecialchars($c ...

TF-IDF笔记（直接调用函数、手写）

TF-IDF笔记（直接调用函数、手写）的更多相关文章

随机推荐

热门专题