Python 结巴分词（2）关键字提取

提取关键字的文章是，小说完美世界的前十章；

我事先把前十章合并到了一个文件中；

然后直接调用关键字函数；

 import sys

 sys.path.append('../')

 import jieba

 import jieba.analyse

 from optparse import OptionParser#引入关键词的包

 from docopt import docopt

 data_path = "C:\\Users\\wangyuguang\\Desktop\\work_data\\profect_world\\"

 topK = 10

 withWeight = False

 content = ""

 for i in range(1,2):

     Data_path = data_path + "he"+".txt"

     content ="".join(open(Data_path, 'rb').read())

 # print content

 tags = jieba.analyse.extract_tags(content, topK=topK, withWeight=withWeight)#直接调用

 if withWeight is True:

     for tag in tags:

         print("tag: %s\t\t weight: %f" % (tag[0],tag[1]))

 else:

     print(",".join(tags))

关键字结果：

Building prefix dict from the default dictionary ...

Loading model from cache c:\users\wangyuguang\appdata\local\temp\jieba.cache

Loading model cost 0.386 seconds.

Prefix dict has been built succesfully.

小不点,孩子,族长,石云峰,石村,凶禽,青鳞鹰,凶兽,一群,石昊

Python 结巴分词（2）关键字提取的更多相关文章

python 结巴分词学习
结巴分词(自然语言处理之中文分词器) jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径,找出基于 ...
Python 结巴分词模块
原文链接:http://www.gowhich.com/blog/147?utm_source=tuicool&utm_medium=referral PS:结巴分词支持Python3 源码下 ...
python 结巴分词(jieba)详解
文章转载:http://blog.csdn.net/xiaoxiangzi222/article/details/53483931 jieba “结巴”中文分词:做最好的 Python 中文分词组件 ...
python结巴分词SEO的应用详解
结巴分词在SEO中可以应用于分析/提取文章关键词.关键词归类.标题重写.文章伪原创等等方面,用处非常多. 具体结巴分词项目:https://github.com/fxsjy/jieba ...
Python 结巴分词
今天的任务是对txt文本进行分词,有幸了解到"结巴"中文分词,其愿景是做最好的Python中文分词组件.有兴趣的朋友请点这里. jieba支持三种分词模式: *精确模式,试图将句子 ...
Python 结巴分词（1）分词
利用结巴分词来进行词频的统计,并输出到文件中. 结巴分词github地址:结巴分词结巴分词的特点: 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析: 全模式,把句子中所有的可以成 ...
python 结巴分词简介以及操作
中文分词库:结巴分词文档地址:https://github.com/fxsjy/jieba 代码对 Python 2/3 均兼容全自动安装:easy_install jieba 或者 pip in ...
转]python 结巴分词(jieba)学习
原文 http://www.gowhich.com/blog/147 主题中文分词Python 源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http:/ ...
python结巴分词余弦相似度算法实现
过余弦相似度算法计算两个字符串之间的相关度,来对关键词进行归类.重写标题.文章伪原创等功能, 让你目瞪口呆.以下案例使用的母词文件均为txt文件,两种格式:一种内容是纯关键词的txt,每行一个关键词就 ...

随机推荐

hdu1213 并查集
题意:有 n 个朋友,他们可能相互认识,A 认识 B,B 认识 C,则 ABC 相互认识,现在给出他们的认识情况,相互认识的人坐一桌,否则需要分开坐,问至少需要多少桌. 其实就是问并查集的个数,在初始 ...
Questions?
http://www.datastax.com/wp-content/themes/datastax-2014-08/files/NoSQL_Benchmarks_EndPoint.pdf http: ...
PgSQL · 特性分析 · 谈谈checkpoint的调度
在PG的众多参数中,参数checkpoint相关的几个参数颇为神秘.这些参数与checkpoint的调度有关,对系统的稳定性还是比较重要的,下面我们为大家解析一下,这要先从PG的数据同步机制谈起. P ...
替换linux下的rm命令，并对-rf进行判断
补充了对根目录,以及-r -rf -f的判断 1.使用root用户在/usr/local目录创建.rmov.sh #!/bin/shPARA_CNT=$#TRASH_DIR="/data01 ...
WCF Restful JQuery 跨域解决方法
<?xml version="1.0"?> <!-- For more information on how to configure your ASP.NET ...
C# String与string的区别
C#中同时存在String与string MSDN中对string的说明: string is an alias for String in the .NET Framework.string是Str ...
awk笔记
http://www.cnblogs.com/zhuyp1015/archive/2012/07/14/2591842.html awk实例练习 http://www.cnblogs.com/repo ...
generator函数
function* helloWordGenerator() { yield "hello"; yield "world"; return "endi ...
maven学习笔记（定制普通Java一个项目）
创建一个新项目: mvn archetype:generate -DgroupId=cn.net.comsys.ut4.simpleweather -DartifactId=simple-weathe ...
ASP.NET MVC 中的ViewData与ViewBag
在Asp.net MVC 3 web应用程序中,我们会用到ViewData与ViewBag,对比一下: ViewData ViewBag 它是Key/Value字典集合它是dynamic类型对像从 ...

Python 结巴分词（2）关键字提取

Python 结巴分词（2）关键字提取的更多相关文章

随机推荐

热门专题