Python抓取豆瓣《白夜追凶》的评论并且分词

最近网剧《白夜追凶》在很多朋友的推荐下,开启了追剧模式,自从琅琊榜过后没有看过国产剧了,此剧确实是良心剧呀！一直追下去,十一最后两天闲来无事就抓取豆瓣的评论看一下

相关代码提交到github上

个人github上相关python的项目:https://github.com/bytename/learnPy

#-*-coding:utf-8-*-

import  requests

from lxml import etree

import jieba

header ={

    "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

    "Accept-Encoding":"gzip, deflate, br",

    "Accept-Language":"zh-CN,zh;q=0.8,en;q=0.6",

    "Connection":"keep-alive",

    "Host":"movie.douban.com",

    "Referer":"https://movie.douban.com/subject/26883064/reviews?start=20",

    "Upgrade-Insecure-Requests":"1",

    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36"

}

def getPageNum(url):

    if url:

        req = requests.get(url,headers=header)

        html = etree.HTML(req.text)

        pageNum = html.xpath(u"//div[@class='paginator']/a[last()]/text()")[0]

    return pageNum

def getContent(url):

    if url:

        req = requests.get(url, headers=header)

        html = etree.HTML(req.text)

        data = html.xpath(u"//div[@class='short-content']/text()")

    return data

def getUrl(pageNum):

    dataUrl= []

    for i in range(1,int(pageNum)):

        if pageNum >= 1:

            url ="https://movie.douban.com/subject/26883064/reviews?start=%d" %(((i - 1) *20),)

            dataUrl.append(url)

    return dataUrl

if __name__ == '__main__':

    url = "https://movie.douban.com/subject/26883064/reviews?start=0"

    pageNum =getPageNum(url)

    data = getUrl(pageNum)

    datas = []

    dic = dict()

    for u in data:

        for d in getContent(u):

            jdata = jieba.cut(d)

            for i in jdata:

                if len(i.strip()) > 1:

                     datas.append(i.strip())

    for i in datas:

        if datas.count(i) > 1:

            dic[i] = datas.count(i)

    for key,values in dic.items():

        print "%s===%d" %(key,values)

抓取了评论并分词统计:

C:\Anaconda2\python.exe D:/PycharmProjects/LearnPy/lesson01/SpriderDouBan.py

Building prefix dict from the default dictionary ...

Loading model from cache c:\users\rc\appdata\local\temp\jieba.cache

Loading model cost 0.379 seconds.

Prefix dict has been built succesfully.

结合体===2

星期一===2

出来===21

第二===2

还要===3

应该===28

刘副队===3

案件===33

发生===7

成分===3

诚然===2

惊喜===7

两天===5

正常===10

全剧===4

看似===2

关系===5

坐等===2

仿佛===2

有理有据===2

Python抓取豆瓣《白夜追凶》的评论并且分词的更多相关文章

Python：python抓取豆瓣电影top250
一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧. 实现目标:抓取豆瓣电影top250,并输出到文件中 1.找到对应的url:https://movie.douba ...
Python抓取豆瓣电影top250!
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:404notfound 一直对爬虫感兴趣,学了python后正好看到 ...
用python 抓取B站视频评论，制作词云
python 作为爬虫利器,与其有很多强大的第三方库是分不开的,今天说的爬取B站的视频评论,其实重点在分析得到的评论化作嵌套的字典,在其中取出想要的内容.层层嵌套,眼花缭乱,分析时应细致!步骤分为以下 ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
哪吒票房超复联4，100行python代码抓取豆瓣短评，看看网友怎么说
<哪吒之魔童降世>这部国产动画巅峰之作,上映快一个月时间,票房口碑双丰收. 迄今已有超一亿人次观看,票房达到42.39亿元,超过复联4,跻身中国票房纪录第三名,仅次于<战狼2> ...
用python+selenium抓取豆瓣读书中最受关注图书并按评分排序
抓取豆瓣读书中的(http://book.douban.com/)最受关注图书,按照评分排序,并保存至txt文件中,需要抓取书籍的名称,作者,评分,体裁和一句话评方法一: #coding=utf-8 ...
使用Python抓取猫眼近10万条评论并分析
<一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演 ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特
代码地址如下:http://www.demodashi.com/demo/13257.html 1. 需求说明本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件. ...

随机推荐

docker集群——初识Swarm
为Docker构建原生的集群管理工具的计划早在2014年初就开始了,当时作为一个通信协议项目,称为Beam.之后,它被实现为一种后台程序,使用Docker API来控制异构化的分布式系统.项目重新命名 ...
Android中的Service组件具体解释
Service与Activity的差别在于:Service一直在后台执行,他没实用户界面,绝不会到前台来. 一,创建和配置Service 开发Service须要两个步骤:1.继承Service子类,2 ...
网络编程基础——学习阻塞，非阻塞（select和epoll）
<h3 class="xyn" helvetica="" neue',="" helvetica,="" aria ...
Python——在Unicode和普通字符串之间转换
1.1. 问题 Problem You need to deal with data that doesn't fit in the ASCII character set. 你需要处理不适合用ASC ...
Eclipse安装Properties Editore插件
Properties Editor for Eclipse3[1].0-3.2安装使用-http://jzgl-javaeye.iteye.com/blog/386010 PropertiesEdit ...
Android应用中使用百度地图API之POI（三）
先看执行后的图吧: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbWFqaWFuamll/font/5a6L5L2T/fontsize/400/fill/ ...
less css下载及编绎工具
http://www.lesscss.net less.js下载 LESS 1.5已经放出Beta 1版本,支持source map等新特性,欢迎尝鲜.详细变更请见更新日志. 生产环境使用建议下载1. ...
dos指令批处理文件
windows下开发的时候难免写一些脚本,脚本的调用又难以避免的写批处理文件,也就是(.bat)文件!这个文件是什么呢?其实就是以下的这些dos命令.以下是从网上摘抄的,留以记录,待以后需要时查阅.也 ...
jquery的ajax-serialize()
jQuery ajax - serialize() 方法 jQuery Ajax 参考手册实例输出序列化表单值的结果: $("button").click(function() ...
printf不支持%lf
#include <stdio.h> int square137(int n); void p137() { double x = 3.0; int y = (int)x; printf( ...

Python抓取豆瓣《白夜追凶》的评论并且分词

Python抓取豆瓣《白夜追凶》的评论并且分词的更多相关文章

随机推荐

热门专题