绪论

最近做课题，需要分析短文本的标签，在短时间内学习了自然语言处理，社会标签推荐等非常时髦的技术。我们的需求非常类似于从大量短文本中获取关键词（融合社会标签和时间属性）进行用户画像。这一切的基础就是特征词提取技术了，本文主要围绕关键词提取这个主题进行介绍（英文）。

不同版本python混用（官方用法）

Python2 和python3 是一个神一般的存在，如何让他们共存呢，直到我用了pycharm我才知道为啥这么多人选择它，如下图所示配置两个目录直接可以混用了，叼炸天。

插播一个广告，想修改pycharm中python注释的颜色找了半天居然得这么搞：

当大家搜索如何在系统中混合使用python2和python3，国内网站经常会让大家把其中一个python.exe改个名字，这样区分开两个可执行文件的名字，但是这样做有一个重大的隐患，就是修改了名字的那个python对应的pip将无法使用。有时候还是需要用用命令行的，怎么办？

官方用法为：

　　在安装Python3（>=3.3）时，Python的安装包实际上在系统中安装了一个启动器py.exe，默认放置在文件夹C:\Windows\下面。这个启动器允许我们指定使用Python2还是Python3来运行代码（当然前提是你已经成功安装了Python2和Python3）。

　　

　　如果你有一个Python文件叫 hello.py，那么你可以这样用Python2运行它

　　

py -2 hello.py

　　类似的，如果你想用Python3运行它，就这样

py -3 hello.py

　　去掉参数 -2/-3

　　

　　每次运行都要加入参数-2/-3还是比较麻烦，所以py.exe这个启动器允许你在代码中加入说明，表明这个文件应该是由python2解释运行，还是由python3解释运行。说明的方法是在代码文件的最开始加入一行

　　

#! python2

或者

#! python3

　　分别表示该代码文件使用Python2或者Python3解释运行。这样，运行的时候你的命令就可以简化为

　　

py hello.py
使用pip

　　

　　当Python2和Python3同时存在于windows上时，它们对应的pip都叫pip.exe，所以不能够直接使用 pip install 命令来安装软件包。而是要使用启动器py.exe来指定pip的版本。命令如下：

　　

py -2 -m pip install XXXX

　　-2 还是表示使用 Python2，-m pip 表示运行 pip 模块，也就是运行pip命令了。如果是为Python3安装软件，那么命令类似的变成

　　

py -3 -m pip install XXXX

　　
#! python2 和 # coding: utf-8 哪个写在前面？

　　对于Python2用户还有另外一个困惑，Python2要在代码文件顶部增加一行说明，才能够在代码中使用中文。如果指明使用的Python版本也需要在文件顶部增加一行，那哪一行应该放在第一行呢？

　　

　　#! python2 需要放在第一行，编码说明可以放在第二行。所以文件开头应该类似于：

　　

#!python2

# coding: utf-8

　　有了这些技巧，Python2和Python3就可以愉快地在一起玩耍了～

　　

　　Python标准：https://www.python.org/dev/peps/pep-0397/

信息检索概述

信息检索是当前应用十分广泛的一种技术，论文检索、搜索引擎都属于信息检索的范畴。通常，人们把信息检索问题抽象为：在文档集合D上，对于由关键词w[1] … w[k]组成的查询串q，返回一个按查询q和文档d匹配度 relevance (q, d)排序的相关文档列表D。

对于这一基问题，先后出现了布尔模型、向量模型等各种经典的信息检索模型，它们从不同的角度提出了自己的一套解决方案。

布尔模型以集合的布尔运算为基础，查询效率高，但模型过于简单，无法有效地对不同文档进行排序，查询效果不佳。

向量模型把文档和查询串都视为词所构成的多维向量，而文档与查询的相关性即对应于向量间的夹角。不过，由于通常词的数量巨大，向量维度非常高，而大量的维度都是0，计算向量夹角的效果并不好。另外，庞大的计算量也使得向量模型几乎不具有在互联网搜索引擎这样海量数据集上实施的可行性。

TF-IDF原理概述

如何衡量一个特征词在文本中的代表性呢？以往就是通过词出现的频率，简单统计一下，从高到低，结果发现了一堆的地得，和英文的介词in of with等等，于是TF-IDF应运而生。

TF-IDF不但考虑了一个词出现的频率TF，也考虑了这个词在其他文档中不出现的逆频率IDF，很好的表现出了特征词的区分度，是信息检索领域中广泛使用的一种检索方法。

Tf-idf算法公式以及说明:

具体实现如下所示，公式分成两项，词频*逆词频，逆词频取log值。

注意分母中的+1，在很多文献中并没有出现，这个可能引发异常。

本人写了一份代码近期正在修改，后续传到github 上，再贴出来。文章末尾贴出了两份我认为比较好的代码，一份是面向对象的实现一份是分布式的。

tfidf源代码实现及相关博客资料：

python scikit-learn计算tf-idf词语权重（scikit-learn包中提供了tfidf的矩阵实现，缺点是词数量过大可能溢出）

http://www.tuicool.com/articles/U3uiiu

http://www.cnblogs.com/chenbjin/p/3851165.html

http://blog.csdn.net/liuxuejiang158blog/article/details/31360765?utm_source=tuicool&utm_medium=referral

http://blog.csdn.net/lsldd/article/details/41520953

http://blog.csdn.net/zhb_bupt/article/details/40985831

http://www.tuicool.com/articles/feIji2

参考文献

http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
https://news.cnblogs.com/n/161240/ （tf-idf的概率解释）
https://www.python.org/dev/peps/pep-0397/ （python不同版本共存官方文档）
http://mt.sohu.com/20160416/n444499895.shtml （python版本混用中文翻译）

github代码：

https://github.com/mirsamantajbakhsh/TFIDF

https://github.com/laertispappas/mapreduce_python

(分布式版本)

短文本分析----基于python的TF-IDF特征词标签自动化提取的更多相关文章

grpc应用于微服务的分析,基于python
grpc应用于微服务的分析 gRPC 是一个高性能.开源和通用的 RPC 框架,面向移动和 HTTP/2 设计,目前提供 C.Java 和 Go 语言版本,分别是:grpc, grpc-java, g ...
Selenium2自动化测试实战（基于Python语言）— 编写第一个自动化脚本
实现效果:执行脚本后启动Firefox浏览器后进入百度主页,输入“Selenium”后,单击搜索按钮,最后关闭浏览器的过程(默认安装了Firefox浏览器),如下图所示: 脚本内容如下: # -*- ...
Elasticsearch由浅入深（十）搜索引擎：相关度评分 TF&IDF算法、doc value正排索引、解密query、fetch phrase原理、Bouncing Results问题、基于scoll技术滚动搜索大量数据
相关度评分 TF&IDF算法 Elasticsearch的相关度评分(relevance score)算法采用的是term frequency/inverse document frequen ...
tf–idf算法解释及其python代码实现(下)
tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四 ...
tf–idf算法解释及其python代码实现(上)
tf–idf算法解释 tf–idf, 是term frequency–inverse document frequency的缩写,它通常用来衡量一个词对在一个语料库中对它所在的文档有多重要,常用在信息 ...
符号执行-基于python的二进制分析框架angr
转载:All Right 符号执行概述在学习这个框架之前首先要知道符号执行.符号执行技术使用符号值代替数字值执行程序,得到的变量的值是由输入变量的符号值和常量组成的表达式.符号执行技术首先由Kin ...
基于Python项目的Redis缓存消耗内存数据简单分析（附详细操作步骤）
目录 1 准备工作 2 具体实施 1 准备工作什么是Redis? Redis:一个高性能的key-value数据库.支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使 ...
基于Python的信用评分卡模型分析（二）
上一篇文章基于Python的信用评分卡模型分析(一)已经介绍了信用评分卡模型的数据预处理.探索性数据分析.变量分箱和变量选择等.接下来我们将继续讨论信用评分卡的模型实现和分析,信用评分的方法和自动评分 ...
tf–idf算法解释及其python代码
tf–idf算法python代码实现这是我写的一个tf-idf的简单实现的代码,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四 ...

随机推荐

学习HTML的第三次课
浏览器的地址栏中有字数限制,大约为200个字符. 1.表单:<form action="" method=""></form> 属性: ...
0417 jQuery基础知识
jQuery基础知识 jQuery需要引入一个js文件,并且这个文件在所有js代码之前(包括引入的其他js文件) 基础操作(对比js): 1.找标签: js:document.getElement.. ...
0307-关于html
html最主要的三点: 1.标签的写法.用法 <标签名属性名1="属性值1" 属性名2="属性值2">内容</标签名> 比如:< ...
Ajax/XHR/HTTP/jQuery Ajax
Ajax即通过XHR API使用js发起的异步网络请求,它不会导致页面刷新,因此是现代Web App的关键技术. HTTP协议是Web开发中最重要的网络协议,HTTP协议详细规定了请求和响应报文. 请 ...
●BZOJ 4822 [Cqoi2017]老C的任务
题链: https://www.luogu.org/problemnew/show/P3755 (洛谷上数据范围给全了的) 题解: 树状数组,离线询问 (本来想弄一个二维树状数组/二维RMQ,然后直接 ...
[BZOJ]1017 魔兽地图DotR(JSOI2008)
BZOJ第一页做着做着就能碰到毒题,做到BZOJ1082小C就忍了,没想到下一题就是这种东西.这种题目不拖出来枭首示众怎么对得起小C流逝的青春啊. Description DotR (Defense ...
JS中三种字符串连接方式及其性能比较
工作中经常会碰到要把2个或多个字符串连接成一个字符串的问题,在JS中处理这类问题一般有三种方法,这里将它们一一列出顺便也对它们的性能做个具体的比较. 第一种方法用连接符“+”把要连接的字符串连起来 ...
第五次C语言作业
(一)改错题输出华氏摄氏温度转换表:输入两个整数lower和upper,输出一张华氏摄氏温度转换表,华氏温度的取值范围是{lower,upper},每次增加2℉.计算公式如下: c = 5×(f-3 ...
React .js框架的环境搭建
React学习笔记(一)- 环境搭建最近在学习react相关的知识,刚刚起步,一路遇坑不断.自己做个笔记,方便日后总结,也供相同趣味的小伙伴一起交流探讨. 学习时主要参考官网的教程:https: ...
PLSQL(2)
游标 [1] 不带参数的游标 -- 取出EMP表中的所有人名字 DECLARE CURSOR C IS SELECT * FROM EMP; V_EMP ...

短文本分析----基于python的TF-IDF特征词标签自动化提取