Python抓取豆瓣《白夜追凶》的评论并且分词

最近网剧《白夜追凶》在很多朋友的推荐下,开启了追剧模式,自从琅琊榜过后没有看过国产剧了,此剧确实是良心剧呀！一直追下去,十一最后两天闲来无事就抓取豆瓣的评论看一下

相关代码提交到github上

个人github上相关python的项目:https://github.com/bytename/learnPy

#-*-coding:utf-8-*-

import  requests

from lxml import etree

import jieba

header ={

    "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

    "Accept-Encoding":"gzip, deflate, br",

    "Accept-Language":"zh-CN,zh;q=0.8,en;q=0.6",

    "Connection":"keep-alive",

    "Host":"movie.douban.com",

    "Referer":"https://movie.douban.com/subject/26883064/reviews?start=20",

    "Upgrade-Insecure-Requests":"1",

    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36"

}

def getPageNum(url):

    if url:

        req = requests.get(url,headers=header)

        html = etree.HTML(req.text)

        pageNum = html.xpath(u"//div[@class='paginator']/a[last()]/text()")[0]

    return pageNum

def getContent(url):

    if url:

        req = requests.get(url, headers=header)

        html = etree.HTML(req.text)

        data = html.xpath(u"//div[@class='short-content']/text()")

    return data

def getUrl(pageNum):

    dataUrl= []

    for i in range(1,int(pageNum)):

        if pageNum >= 1:

            url ="https://movie.douban.com/subject/26883064/reviews?start=%d" %(((i - 1) *20),)

            dataUrl.append(url)

    return dataUrl

if __name__ == '__main__':

    url = "https://movie.douban.com/subject/26883064/reviews?start=0"

    pageNum =getPageNum(url)

    data = getUrl(pageNum)

    datas = []

    dic = dict()

    for u in data:

        for d in getContent(u):

            jdata = jieba.cut(d)

            for i in jdata:

                if len(i.strip()) > 1:

                     datas.append(i.strip())

    for i in datas:

        if datas.count(i) > 1:

            dic[i] = datas.count(i)

    for key,values in dic.items():

        print "%s===%d" %(key,values)

抓取了评论并分词统计:

C:\Anaconda2\python.exe D:/PycharmProjects/LearnPy/lesson01/SpriderDouBan.py

Building prefix dict from the default dictionary ...

Loading model from cache c:\users\rc\appdata\local\temp\jieba.cache

Loading model cost 0.379 seconds.

Prefix dict has been built succesfully.

结合体===2

星期一===2

出来===21

第二===2

还要===3

应该===28

刘副队===3

案件===33

发生===7

成分===3

诚然===2

惊喜===7

两天===5

正常===10

全剧===4

看似===2

关系===5

坐等===2

仿佛===2

有理有据===2

Python抓取豆瓣《白夜追凶》的评论并且分词的更多相关文章

Python：python抓取豆瓣电影top250
一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧. 实现目标:抓取豆瓣电影top250,并输出到文件中 1.找到对应的url:https://movie.douba ...
Python抓取豆瓣电影top250!
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:404notfound 一直对爬虫感兴趣,学了python后正好看到 ...
用python 抓取B站视频评论，制作词云
python 作为爬虫利器,与其有很多强大的第三方库是分不开的,今天说的爬取B站的视频评论,其实重点在分析得到的评论化作嵌套的字典,在其中取出想要的内容.层层嵌套,眼花缭乱,分析时应细致!步骤分为以下 ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
哪吒票房超复联4，100行python代码抓取豆瓣短评，看看网友怎么说
<哪吒之魔童降世>这部国产动画巅峰之作,上映快一个月时间,票房口碑双丰收. 迄今已有超一亿人次观看,票房达到42.39亿元,超过复联4,跻身中国票房纪录第三名,仅次于<战狼2> ...
用python+selenium抓取豆瓣读书中最受关注图书并按评分排序
抓取豆瓣读书中的(http://book.douban.com/)最受关注图书,按照评分排序,并保存至txt文件中,需要抓取书籍的名称,作者,评分,体裁和一句话评方法一: #coding=utf-8 ...
使用Python抓取猫眼近10万条评论并分析
<一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演 ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特
代码地址如下:http://www.demodashi.com/demo/13257.html 1. 需求说明本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件. ...

随机推荐

elasticsearch中的filter与aggs
今天在ES上做了一个聚合,先过滤一个嵌套对象,再对另一个域做聚合,但是过滤似乎没有起作用 { "size":0, "filter":{ "nested ...
HBase集群的安装部署
HBase的安装是是建立在hadoop和zookeeper集群之上的安装的步骤跟伪分布式差不多,只是修改了一些配置文件解压缩.重命名.设置环境变量把hbase-0.94.2-security.t ...
C 实现strcmp,strcpy,strcat函数
基于C语言的strcmp,strcpy,strcat函数的实现.C语言是一个程序猿的基础,一定要重视. char* strcat ( char * dst , const char * src ) { ...
Android调试方法总结
Android程序调试过程中,通常需要在控制台或者AVD中弹出相关信息作为调试使用,以下是调试使用中会用到的Log类和Toast类的使用方法: 1.Toast Toast是在AVD上显示信息的一种机制 ...
C/C++获取当前系统时间
个人觉得第二种还是比较实用的,而且也是最常用的~ 不过当计算算法耗时的时候,不要忘记second,不能只要用Milliseconds来减,不然后出现负值,若是算法耗时太长就得用minutes啦.再不然 ...
【Python3 爬虫】08_正则表达式（元字符与语法）
元字符表符号说明示例 . 表示任意字符 'abc' >>>'a.c' >>>结果为:'abc' ^ 表示字符开头 'abc' >>> ...
ftp mybatis
c# 字符串和Ascii码转换http://www.cnblogs.com/JoshuaDreaming/archive/2010/11/19/1882068.html ftp 公式 http://w ...
实现乐鑫esp8266的无线OTA升级，实现远程在线升级固件
代码地址如下:http://www.demodashi.com/demo/12994.html 一.前言: 写了这么多的8266博文,一直以满意100%的心态去敲写代码固件烧录,以致很少出现 bug ...
利用pandas进行数据分析之ndarray结构
Numpy的重要特点就是其N维数组对象, 1.ndarray每个元素是相同的,每个数组都有一个两个对象: .shape:用于表示维度大小的元组 .dtype:用户表示数组类型的对象 2.创建数组 ar ...
关于升级 phpStudy 中 MySQL 版本至 5.7.17
mysql版本低于5.6 自动更新时间会报错.因此要升级mysql版本.综合网上资料和实际过程中遇到的问题,具体细节和注意事项如下: 1.从官网上下载高版本的 MySQL :https://dev.m ...

Python抓取豆瓣《白夜追凶》的评论并且分词

Python抓取豆瓣《白夜追凶》的评论并且分词的更多相关文章

随机推荐

热门专题