上个星期五(16/11/18)去看了冯小刚的最新电影《我不是潘金莲》，电影很长，有点黑色幽默。看完之后我就去知乎，豆瓣电影等看看大家对于这部电影的评价。果然这是一部很有争议的电影，无论是在知乎还是豆瓣，大家对这部电影褒贬不一，有的说拍的好，寓意深刻，具有很强的现实讽刺意味，也有的说故作矫情，是一部烂片。大家众说纷纭，那么这部电影到底怎么样呢？我想还是用事实说话比较好。我想到最近刚好我学习了一段时间的爬虫了，也知道词云可以形象地反映词语分布。所以我决定亲自动手对《我不是潘金莲》制作一个词云。

先说一下使用的工具：python2.7.12 wordcloud1.2.1 selenium2.53.6 jieba(一个中文分词工具) 分析的文本来源为豆瓣电影下《我不是潘金莲》的1.6W+评论。

selenium
是一个可以操纵浏览器的爬虫工具，对于抓取动态页面(js生成的页面)非常方便。这里之所以使用selenium的一个主要原因是，电影的评论只有在登录之后才可以全部抓取，如果使用urllib2等标准库模拟登录，因为还要处理验证码等，略显麻烦，而使用selenium则非常简便。

jieba 是一个优秀的中文分词工具，功能强大并且使用简便，这里因为涉及到中文，wordcloud对于中文的分词支持不是特别好，所以需要我们手动分词，我把这个任务交给了jieba。

制作词云的流程如下:

1.使用selenium 登录豆瓣，抓取《我不是潘金莲》下所有电影评论，并且保存到txt文件（一行是一条评论）

2. 使用jieba 对于评论进行分词，得到新的文本

3. 对于新的文本使用wordcloud 进行制作词云

话不多说，下面直接贴代码:

 # -*- coding:utf-8 -*-

 '''

 抓取豆瓣电影某部电影的评论

 这里以《我不是潘金莲为例》

 网址链接:https://movie.douban.com/subject/26630781/comments

 为了抓取全部评论需要先进行登录

 '''

 from selenium import webdriver

 import time

 import codecs

 import jieba

 import jieba.analyse as analyse

 from wordcloud import WordCloud

 from scipy.misc import imread

 from os import path

 def get_douban_comments(url):

     comments_list = [] # 评论列表

     login_url = 'https://accounts.douban.com/login?source=movie'

     user_name = ''  # 这里替换成你的豆瓣用户名

     password = ''  # 这里替换成你的密码

     driver = webdriver.Firefox() # 启动Firefox()

     driver.get(login_url)

     driver.find_element_by_id('email').clear() # 清除输入框

     driver.find_element_by_id('email').send_keys(user_name) # 输入用户名

     driver.find_element_by_id('password').clear()

     driver.find_element_by_id('password').send_keys(password) # 输入密码

     captcha_field = raw_input('请打开浏览器输入验证码:') # 手动填入验证码

     driver.find_element_by_id('captcha_field').send_keys(captcha_field)

     driver.find_element_by_class_name('btn-submit').click() # 点击登录按钮

     time.sleep(5) # 等待跳转到登录之后的页面

     driver.get(url) # 定位到目标页面

     driver.implicitly_wait(3) # 智能等待3秒

     n = 501 # 页数

     count = 10000 # 评论数目

     while True:

         try:

             results = driver.find_elements_by_class_name('comment')

             for result in results:

                 # author = result.find_elements_by_tag_name('a')[1].text # 作者

                 # vote = result.find_element_by_class_name('comment-vote').find_element_by_tag_name('span').text # 赞同数目

                 # time0 = result.find_element_by_class_name('comment-info').find_elements_by_tag_name('span')[1].text # 时间

                 comment = result.find_element_by_tag_name('p').text # 评论内容

                 comments_list.append(comment+u'\n')

                 print u"查找到第%d个评论" % count

                 count += 1

             driver.find_element_by_class_name('next').click() # 点击下一页

             print u'第%d页查找完毕!' % n

             n += 1

             time.sleep(4)

         except Exception,e:

             print e

             break

     with codecs.open('pjl_comment.txt','a',encoding='utf-8') as f:

         f.writelines(comments_list)

     print u"查找到第%d页,第%d个评论!" %(n,count)

 # 得到所有关键词

 def get_all_keywords(file_name):

     word_lists = [] # 关键词列表

     with codecs.open(file_name,'r',encoding='utf-8') as f:

         Lists = f.readlines() # 文本列表

         for List in Lists:

             cut_list = list(jieba.cut(List))

             for word in cut_list:

                 word_lists.append(word)

     word_lists_set = set(word_lists) # 去除重复元素

     sort_count = []

     word_lists_set = list(word_lists_set)

     length = len(word_lists_set)

     print u"共有%d个关键词" % length

     k = 1

     for w in word_lists_set:

         sort_count.append(w+u':'+unicode(word_lists.count(w))+u"次\n")

         print u"%d---" % k + w+u":"+unicode(word_lists.count(w))+ u"次"

         k += 1

     with codecs.open('count_word.txt','w',encoding='utf-8') as f:

         f.writelines(sort_count)

 def get_top_keywords(file_name):

     top_word_lists = [] # 关键词列表

     with codecs.open(file_name,'r',encoding='utf-8') as f:

         texts = f.read() # 读取整个文件作为一个字符串

         Result = analyse.textrank(texts,topK=20,withWeight=True,withFlag=True)

         n = 1

         for result in Result:

             print u"%d:" % n ,

             for C in result[0]: # result[0] 包含关键词和词性

                 print C,u"  ",

             print u"权重:"+ unicode(result[1]) # 关键词权重

             n += 1

 # 绘制词云

 def draw_wordcloud():

    with codecs.open('pjl_comment.txt',encoding='utf-8') as f:

        comment_text = f.read()

    cut_text = " ".join(jieba.cut(comment_text)) # 将jieba分词得到的关键词用空格连接成为字符串

    d = path.dirname(__file__) # 当前文件文件夹所在目录

    color_mask = imread("F:/python2.7work/wordcloud/alice_color.png") # 读取背景图片

    cloud = WordCloud(font_path=path.join(d,'simsun.ttc'),background_color='white',mask=color_mask,max_words=2000,max_font_size=40)

    word_cloud = cloud.generate(cut_text) # 产生词云

    word_cloud.to_file("pjl_cloud.jpg")

 if __name__ == '__main__':

     '''

     url = 'https://movie.douban.com/subject/26630781/comments?start=10581&limit=20&sort=new_score'

     get_douban_comments(url)

     file_name = 'pjl_comment.txt'

     get_top_keywords(file_name)

     '''

     draw_wordcloud()

有几点需要说明：

1.使用selenium简化了登录抓取过程，但是也有一个缺点，因为需要启动浏览器，所以抓取效率就比较低，电影评论页数较多，有时会出现网页加载过慢等情况导致无法正常抓取数据。所以这里使用n，count作为标记，记录意外退出时上次抓取的位置，这样下次可以继续从上次中断的地方抓取。

2. wordcloud 默认的是英文字体，所以在WordCloud()方法中需要指定一个中文字体的位置(可以使用windows自带的中文字体，比如宋体，楷体都可以)，使用font_path="字体路径"

3. selenium 如果驱动狐火浏览器的话，需要自行下载驱动（一个.exe文件），具体方法可以自行上网搜索，这里不赘述。

最后下载的评论文本文件我已经放到我的github（https://github.com/Lyrichu/selenium/blob/master/pjl_comment.txt），有兴趣的朋友可以自己下载。最后得到的词云图如下:

python wordcloud 对电影《我不是潘金莲》制作词云的更多相关文章

python爬取B站视频弹幕分析并制作词云
1.分析网页视频地址: www.bilibili.com/video/BV19E… 本身博主同时也是一名up主,虽然已经断更好久了,但是不妨碍我爬取弹幕信息来分析呀. 这次我选取的是自己唯一的爆款 ...
10分钟教你用Python玩转微信之抓取好友个性签名制作词云
01 前言+展示各位小伙伴我又来啦.今天带大家玩点好玩的东西,用Python抓取我们的微信好友个性签名,然后制作词云.怎样,有趣吧~好了,下面开始干活.我知道你们还是想先看看效果的. 后台登录: 词 ...
如何用Python 制作词云-对1000首古诗做词云分析
公号:码农充电站pro 主页:https://codeshellme.github.io 今天来介绍一下如何使用 Python 制作词云. 词云又叫文字云,它可以统计文本中频率较高的词,并将这些词可视 ...
用python 抓取B站视频评论，制作词云
python 作为爬虫利器,与其有很多强大的第三方库是分不开的,今天说的爬取B站的视频评论,其实重点在分析得到的评论化作嵌套的字典,在其中取出想要的内容.层层嵌套,眼花缭乱,分析时应细致!步骤分为以下 ...
Python之利用jieba库做词频统计且制作词云图
一.环境以及注意事项 1.windows10家庭版 python 3.7.1 2.需要使用到的库 wordcloud(词云),jieba(中文分词库),安装过程不展示 3.注意事项:由于wordclo ...
python制作词云
需要模块wordcloud,pip install wordcloud安装即可.代码: , #边距background_color='black',#指定背景颜色font_path='simhei.t ...
python wordcloud
python wordcloud 对电影<我不是潘金莲>制作词云上个星期五(16/11/18)去看了冯小刚的最新电影<我不是潘金莲>,电影很长,有点黑色幽默.看完之后我就去知 ...
根据词频生成词云(Python wordcloud实现)
网上大多数词云的代码都是基于原始文本生成,这里写一个根据词频生成词云的小例子,都是基于现成的函数. 另外有个在线制作词云的网站也很不错,推荐使用:WordArt 安装词云与画图包 pip3 insta ...
词云wordcloud类介绍&python制作词云图&词云图乱码问题等小坑
词云图,大家一定见过,大数据时代大家经常见,我们今天就来用python的第三方库wordcloud,来制作一个大数据词云图,同时会降到这个过程中遇到的各种坑, 举个例子,下面是我从自己的微信上抓的微信 ...

随机推荐

HTTP性能小测试
一直说node.js如何如何好,就来测试一下吧~~ 首先接受一个小工具 Apache Bench简称ab 可以用来测试http性能利用Apache Bench测试Web引擎性能关于此工具的详细介绍参 ...
js中function函数
function:是具备某个功能的方法,方法本身没有意义,只有执行方法才有价值. function: 1 创建一个函数: 2 执行这个方法: 例: 创建 function 方法名(){ 存放某个功能的 ...
Scrapy爬虫导图（持续完善中）
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中.
it转行了
国庆节后毅然的辞职了,辞职的还发生一些不愉快的事情,原来希望好去好来却不慌而散.接着便开始找工作,有过工作经验,找工作是容易些,不像刚毕业那会什么企业都没人要.因为实在是对it没感觉,所以找的都是销售 ...
c#实现远程操作svn
/// <summary> /// 本地svn服务器地址 /// </summary> private static string localSVN = Configurati ...
安装Windows 10后PDF补丁丁等程序界面变得模糊的解决办法
对于使用高分辨率屏幕且屏幕缩放比例在 100%以上的用户,升级到 Windows 10 后将发现许多程序的界面,例如QQ.电脑管家.Windows本身的服务管理程序等等,都变得非常模糊,<PDF ...
blade and soul factions
Faction You will be asked to join one of the elite Factions as a rising Martial Artist no matter wha ...
winform flash
1.开发工具:VS2013 2.开发环境:win 10 64位 3.添加控件: 打开VS,点击工具箱--常规--右键--“选择项”---“Com组件”--MacroMedia Flash Factor ...
建设商城网站ecshop如何开启伪静态
ecshop是国内一款比较流行的商城网站建设系统,它拥有比较完善的电子商务交易流程,其使用PHP+网站建设者的喜爱. 商城网站也需要网站优化,开启伪静态是个比较好的方法. ECSHOP的伪静态 ...
java解析XML文件
dom4j是一个Java的XML API,类似于jdom,用来读写XML文件的.dom4j是一个非常非常优秀的Java XML API,具有性能优异.功能强大和极端易用使用的特点,同时它也是一个开放源 ...

python wordcloud 对电影《我不是潘金莲》制作词云

python wordcloud 对电影《我不是潘金莲》制作词云的更多相关文章

随机推荐

热门专题