Python pytagcloud 中文分词生成标签云系列（一）

转载地址：https://zhuanlan.zhihu.com/p/20432734
工具

Python 2.7 （前几天试了试 Scrapy 所以用的 py2 。血泪的教训告诉我们能用 py3 千万别用 py2 ，编码问题累死人）

pytagcloud 词云生成 atizo/PyTagCloud · GitHub

安装过程应该没什么坑，不像 Scrapy 光安装都能写一篇出来。自行补充依赖就好。

Step 1 爬虫抓取文本

这个阶段比较简单。虽然我欠了半年的爬虫系列一直没有写，但是抓个贴子标题都不涉及模拟登陆，对入门的人应该问题不大。随便改了一下以前的代码就跑出来了。

# -*- coding: utf-8 -*-

import requests

import re

import os

import codecs

def get_title(url):

    s = requests.session()

    h = s.get(url)

    html = h.content.decode('utf-8')

    #print html

    qurl = r'<a href="forum.*? class="s xst">(.*?)</a>'

    qurllist = re.findall(qurl,html)

    #print qurllist

    for each in qurllist:

        f = codecs.open("result.txt", 'a', 'utf-8')

        f.write(each+'\n')

        print each

        #f.flush()

        f.close()

for i in range(1,1000):

    url = 'http://rs.xidian.edu.cn/forum.php?mod=forumdisplay&fid=72&page='+str(i)

    get_title(url)

值得注意的还是编码问题，用 py3 的可以忽略。

Step 2 中文分词，提取关键词

jieba 的分词效果还是比较理想的。不过我在统计词频的时候一时没想起什么太好的解决办法，加上编码问题把我烦的够呛。于是偷懒地选择了 jieba 自带的提取关键词并给出权重的功能。

详见 jieba/extract_tags.py at master · fxsjy/jieba · GitHub

import sys

sys.path.append('../')

import jieba

import jieba.analyse

from optparse import OptionParser

USAGE = "usage:    python extract_tags_with_weight.py [file name] -k [top k] -w [with weight=1 or 0]"

parser = OptionParser(USAGE)

parser.add_option("-k", dest="topK")

parser.add_option("-w", dest="withWeight")

opt, args = parser.parse_args()

if len(args) < 1:

    print(USAGE)

    sys.exit(1)

file_name = args[0]

if opt.topK is None:

    topK = 10

else:

    topK = int(opt.topK)

if opt.withWeight is None:

    withWeight = False

else:

    if int(opt.withWeight) is 1:

        withWeight = True

    else:

        withWeight = False

content = open(file_name, 'rb').read()

tags = jieba.analyse.extract_tags(content, topK=topK, withWeight=withWeight)

if withWeight is True:

    for tag in tags:

        print("tag: %s\t\t weight: %f" % (tag[0],tag[1]))

else:

    print(",".join(tags))

需要命令行运行。

先 cd 到目录，然后使用命令

python extract_tags_with_weight.py [file name] -k [top k] -w [with weight=1 or 0]

其中 -k 后输入关键词个数 -w 选择是否显示权重。如图：（具体的文本和结果我后面打包发一下，就不贴了）

说明：
其实标准的过程应该是分词以后统计词频，生成 k-v 的 Python 字典然后交由 pytagcloud 生成词云。由于我也是刚接触分词这块，不太熟悉，统计词频时力不从心，所以直接用了现成的关键词提取。
另外由于生成词云时需要的格式为 Python 字典（k-v），我自己在中间用 Notepad++ 和 Excel 做了一些文本上的预处理，这方面就八仙过海各显神通了。
还有，我使用了默认词典，没有自定义内容（jieba 是可以自定义词典的），所以一些词在提取时出现偏差，比如"新校区"、"老校区"就全部提成了"校区"，X号楼只保留下来了"号楼"。另外我没有做词性筛选，导致许多无意义副词出现在结果里，后面生成词云时自己手动去掉了。

Step 3 生成词云

关于 pytagcloud ，搜到的唯一一篇比较有价值的文章就是Python中文标签云之pytagcloud 更多的还是要参考官方示例 atizo/PyTagCloud · GitHub 。我也没把功能全试完，大家可以自己向深处挖掘。

# -*- coding: utf-8 -*-

import codecs

import random

from pytagcloud import create_tag_image, create_html_data, make_tags, \

    LAYOUT_HORIZONTAL, LAYOUTS

from pytagcloud.colors import COLOR_SCHEMES

from pytagcloud.lang.counter import get_tag_counts

wd = {}

fp=codecs.open("rsa.txt", "r",'utf-8');

alllines=fp.readlines();

fp.close();

for eachline in alllines:

    line = eachline.split('        ')

    #print eachline,

    wd[line[0]] = int(line[1])

print wd

from operator import itemgetter

swd = sorted(wd.iteritems(), key=itemgetter(1), reverse=True)

tags = make_tags(swd,minsize = 50, maxsize = 240,colors=random.choice(COLOR_SCHEMES.values()))

create_tag_image(tags, 'keyword_tag_cloud4.png', background=(0, 0, 0, 255),

size=(2400, 1000),layout=LAYOUT_HORIZONTAL,

fontname="SimHei")

输出结果如图。

补充：使用 pytagcloud 一定要记得添加中文字体并修改其配置文件，具体方法：
准备一个 ttf 中文字体，如 simhei.ttf ，将其移动到 C:\Users\~\AppData\Roaming\Python\Python27\site-packages\pytagcloud\fonts
并修改该文件夹下的 fonts.json 文件，添加相应的字体记录，如

{

"name": "SimHei",

"ttf": "simhei.ttf",

"web": "none"

输出结果还是比较有趣的，不过校外的人可能不熟悉。当然这本身也只是个很入门的东西，算作娱乐吧。

代码部分原创的不多…很多是网上拼拼凑凑找的。但是 pytagcloud 相关的内容搜出来比较少，对中文支持也需要自己修改，有人要自己做的话最好用谷歌搜索，然后参考前几篇文章和官方示例自己尝试。

在此顺便吐槽百度一发，实在难用，百度搜来搜去的结果，远不如谷歌直击要害。当然英语好就更棒了，能直接读文档和看 stackoverflow 。

想要自己尝试的可以用我这次的文档，或者自己抓感兴趣的资料。

http://pan.baidu.com/s/1mhn4mN2

拓展的话，感兴趣的可以多尝试几款分词比较一下。具体的就不推荐了我也不了解，搜一下会有很多，功能很丰富，语义分析，情感倾向，都有，可玩性比较高吧。

另外有另一款 Python 下的词云生成器 amueller/word_cloud · GitHub 留作以后研究吧。另外过程中看文章时发现好多词频统计和标签云是用 R 做的，有机会可以学习一下。

噢对了， pytagcloud 支持直接生成 HTML 网页的标签云，官方 demo 里有，我这边没做，就不展示了。

Python pytagcloud 中文分词生成标签云系列（一）的更多相关文章

python3生成标签云
标签云是现在大数据里面最喜欢使用的一种展现方式,其中在python3下也能实现标签云的效果,贴图如下: -------------------进入正文--------------------- 首先要 ...
Python word_cloud 样例标签云系列（三）
转载地址:https://zhuanlan.zhihu.com/p/20436642word_cloud/examples at master · amueller/word_cloud · GitH ...
Python word_cloud 部分文档翻译标签云系列（二）
转载地址:https://zhuanlan.zhihu.com/p/20436581上文末尾提到 Python 下还有一款词云生成器.amueller/word_cloud · GitHub 可以直接 ...
Python3+pdfminer+jieba+wordcloud+matplotlib生成词云（以深圳十三五规划纲要为例）
一.各库功能说明 pdfminer----用于读取pdf文件的内容,python3安装pdfminer3k jieba----用于中文分词 wordcloud----用于生成词云 matplotlib ...
WordPress彩色背景标签云实现
网上有很多的这种效果,但是却几乎没有什么关于彩色背景标签云的教程,网上讲的基本都是让标签云的字体变成彩色而不是背景,我觉得让字体变成彩色有的标签会看不清楚,而且也没有让背景变成彩色好看.先看看效果: ...
使用jieba和wordcloud进行中文分词并生成《悲伤逆流成河》词云
因为词云有利于体现文本信息,所以我就将那天无聊时爬取的<悲伤逆流成河>的评论处理了一下,生成了词云. 关于爬取影评的爬虫大概长这个样子(实际上是没有爬完的): #!/usr/bin/env ...
NLP+词法系列（二）︱中文分词技术简述、深度学习分词实践（CIPS2016、超多案例）
摘录自:CIPS2016 中文信息处理报告<第一章词法和句法分析研究进展.现状及趋势>P4 CIPS2016 中文信息处理报告下载链接:http://cips-upload.bj.bce ...
Python第三方库jieba（中文分词）入门与进阶（官方文档）
jieba "结巴"中文分词:做最好的 Python 中文分词组件 github:https://github.com/fxsjy/jieba 特点支持三种分词模式: 精确模式, ...
Python3.7+jieba(结巴分词)配合Wordcloud2.js来构造网站标签云(关键词集合)
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_138 其实很早以前就想搞一套完备的标签云架构了,迫于没有时间(其实就是懒),一直就没有弄出来完整的代码,说到底标签对于网站来说还是 ...

随机推荐

ipmitool命令详解
基础命令学习目录首页原文链接:https://www.cnblogs.com/EricDing/p/8995263.html [root@localhost ~]# yum install -y i ...
React 之容器组件和展示组件相分离解密
Redux 的 React 绑定库包含了容器组件和展示组件相分离的开发思想.明智的做法是只在最顶层组件(如路由操作)里使用 Redux.其余内部组件仅仅是展示性的,所有数据都通过 props 传入 ...
linux, configure --prefix 的作用
指定安装路径不指定prefix,则可执行文件默认放在/usr /local/bin,库文件默认放在/usr/local/lib,配置文件默认放在/usr/local/etc.其它的资源文件放在/usr ...
k米案例分析
K米产品分析第一部分调研.评测评测上手体验大一暑假的时候,在ktv和同学唱k的时候就接触过了. - -.所以对于k米的第一次上手体验已经不记得了(ps:尴尬)!~其实以前用它的时候想法很简单 ...
soap 简单的例子
首先确保你的soap模块开启客户端代码 <?php try { $client = new SoapClient(null, array('location' =>"http: ...
Qt之美（一）：d指针/p指针详解（二进制兼容，不能改变它们的对象布局）
Translated by mznewfacer 2011.11.16 首先,看了Xizhi Zhu 的这篇Qt之美(一):D指针/私有实现,对于很多批评不美的同路人,暂且不去评论,只是想支持 ...
Linux上的free命令详解-收藏
解释一下Linux上free命令的输出. 下面是free的运行结果,一共有4行.为了方便说明,我加上了列号.这样可以把free的输出看成一个二维数组FO(Free Output).例如: FO[2][ ...
C# 房贷计算器
设计背景百度小程序中的房贷计算器不能满足我个人的需求,故而开发一个.NET小程序.希望后期能用JS重写,发布在网上供大家使用. 设计思路根据百度公式:等额本息月还款 = [贷款本金×月利率×(1+ ...
数据结构开发(10)：Linux内核链表
0.目录 1.老生常谈的两个宏(Linux) 1.1 offsetof 1.2 container_of 2.Linux内核链表剖析 3.小结 1.老生常谈的两个宏(Linux) Linux 内核中常 ...
查看MySQL最近执行的语句
首先登入MySQL. Reading table information for completion of table and column names You can turn off this ...

Python pytagcloud 中文分词 生成标签云 系列（一）

Python pytagcloud 中文分词 生成标签云 系列（一）的更多相关文章

随机推荐

热门专题

Python pytagcloud 中文分词生成标签云系列（一）

Python pytagcloud 中文分词生成标签云系列（一）的更多相关文章