10分钟用Python爬取最近很火的复联4影评

欲直接下载代码文件，关注我们的公众号哦！查看历史消息即可！

《复仇者联盟4：终局之战》已经上映快三个星期了，全球票房破24亿美元，国内票房破40亿人民币。

虽然现在热度逐渐下降，但是我们还是恬不知耻地来蹭一蹭热度。上映伊始《复联4》的豆瓣评分曾破了9分。

后来持续走低，现在《复联4》的评分稳定在8.6分。虽然豆瓣日常被人吐槽注水严重，恶意评分很多，但是由于它好爬鸭~，我们还是选择豆瓣作为爬取对象。豆瓣的长评论有文字和图片等其它元素，简单起见，这次只爬短评。

在浏览器中查看豆瓣关于复联4的短评，先来看看url的结构：

https://movie.douban.com/subject/26100958/comments?start=20&limit=20&sort=new_score&status=P

可见，我们可以通过修改start的值进入不同的页面：

右键查看源代码可以看到浏览器获取到的html页面代码。Ctrl F搜索第一条影评的关键词，快速定位到影评的标签：

可以看到影评内容在span标签中，class为“short”。

总览一下爬取内容的步骤：

访问url，获取html页面文本，这一步我们要用到的是requests模块。
解析返回的文本，提取出爬虫内容，这一步要用的是beautifulSoup模块。

这两个模块都可以通过pip直接下载。

首先是main函数：

def main():

    discuss = []

    a = 0

    for i in range(0,100,20):

        url = 'https://movie.douban.com/subject/26100958/comments?start='+ str(i) +'&limit=20&sort=new_score&status=P'

        HTMLpage = getHTML(url)

        #print(HTMLpage)

        for t in parseHTML(HTMLpage):

            discuss.append(t)

    for i in discuss:

        print(str(a) + ':' + i)

#        print(i)

        a = a + 1

由于豆瓣一页显示20条影评，我们爬前100条，所以这里访问了前5个页面:

def getHTML(url):

    try:

        r = requests.get(url)

        r.raise_for_status()

print("get html successfully")

        r.encoding = 'utf-8'

        #print(r.text)

        return r.text

    except:

        return ""

在getHTML函数中，我们申请访问目标页面，并返回html页面文本。注意这里应该将编码方式设置为utf-8，实测如果设置成r.encoding = r.apparent_encoding，程序并不能猜测到正确的编码方式。

当r.raise_for_status() 没有抛出异常时，程序通知我们获取html成功。如果有异常，返回空字符串。

下一步是解析：

如前所述影评是class为short的span，所以可以直接使用bs4的find_all()函数得到一个含有所有影评的tag的列表。我们只需要把tag中的文字提取出来就可以返回到主函数了。

首先要生成一个beautifulSoup类的对象，使用html的解析器。html页面是树状分布的，可以通过各种树的遍历找到我们需要的标签，这里bs4提供了一个简单粗暴的find_all，可以直接使用。

find_all()函数返回的是一个保存着tag的列表。

def parseHTML(html):

    try:

        soup = BeautifulSoup(html,"html.parser")

        A = soup.find_all('span',attrs = {'class':'short'})

        B = []

        for i in A:

            B.append(i.get_text())

        return B

    except:

        return []

用get_text函数去掉span标签，只留下内容的文本，加入到B列表里。然后就可以返回了。同理，如果出错了，返回空列表。

好了以上就是一个非常简单的小爬虫，通过修改爬取的数量可以爬取任意页面的评论。当然了后续还会对这些数据进行一些有趣的分析，请关注我们。同时因为作者本人能力有限，本系列可能又要无限托更了/呲牙

下附完整版代码和运行结果【代码下载移步留言区】：

import requests

from bs4 import BeautifulSoup

def getHTML(url):

    try:

        r = requests.get(url)

        r.raise_for_status()

        print("get html successfully")

        r.encoding = 'utf-8'

        #print(r.text)

        return r.text

    except:

        return ""

def parseHTML(html):

    try:

        soup = BeautifulSoup(html,"html.parser")

        A = soup.find_all('span',attrs = {'class':'short'})

        B = []

        for i in A:

            B.append(i.get_text())

        return B

    except:

        return []

def main():

    discuss = []

    a = 0

    for i in range(0,100,20):

        url = 'https://movie.douban.com/subject/26100958/comments?start='+ str(i) +'&limit=20&sort=new_score&status=P'

        HTMLpage = getHTML(url)

        #print(HTMLpage)

        for t in parseHTML(HTMLpage):

            discuss.append(t)

    for i in discuss:

        print(str(a) + ':' + i)

#        print(i)

        a = a + 1

if __name__ == "__main__":

main()

运行结果：

10分钟用Python爬取最近很火的复联4影评的更多相关文章

python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取网站数据保存使用的方法
这篇文章主要介绍了使用Python从网上爬取特定属性数据保存的方法,其中解决了编码问题和如何使用正则匹配数据的方法,详情看下文编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这 ...
python爬取快手视频多线程下载
就是为了兴趣才搞的这个,ok 废话不多说直接开始. 环境: python 2.7 + win10 工具:fiddler postman 安卓模拟器首先,打开fiddler,fiddler作为htt ...
python 爬取王者荣耀高清壁纸
代码地址如下:http://www.demodashi.com/demo/13104.html 一.前言打过王者的童鞋一般都会喜欢里边设计出来的英雄吧,特别想把王者荣耀的英雄的高清图片当成电脑桌面 ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
Python爬取视频指南
摘自:https://www.jianshu.com/p/9ca86becd86d 前言前两天尔羽说让我爬一下菜鸟窝的教程视频,这次就跟大家来说说Python爬取视频的经验正文 https://w ...
用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕！
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...
Python爬取跑男的评论，看看大家都在看谁吧
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于菜J学Python,作者: J哥 Python爬取爬取腾讯视频弹幕视频讲解 http ...
python爬取微信小程序（实战篇）
python爬取微信小程序(实战篇) 本文链接:https://blog.csdn.net/HeyShHeyou/article/details/90452656 展开一.背景介绍近期有需求需要抓 ...

随机推荐

解析：让你弄懂redux原理
作者: HerryLo 本文永久有效链接: https://github.com/AttemptWeb...... Redux是JavaScript状态容器,提供可预测化的状态管理. 在实际开发中,常 ...
wpf 把两个Bitmap 合并为一个
水平合并 /// <summary> /// 将两个Bitmap水平合并为一个 /// </summary> /// <param name="first&qu ...
Oracle数据库连接超时
关于Oracle数据库的连接失败问题,有N种情况都会导致,这次遇到的是一般开发或者运维人员难以发现的场景: 有一台机A能够正常连接数据库并正常运行,机器B连接失败 32位WebService程序基于 ...
2019年北航OO第三次博客总结
一.JML语言理论基础及其工具链 1. JML语言理论基础 JML是用于对Java程序进行规格化设计的一种表示语言,是一种行为接口规格语言(Behavior Interface Specificati ...
iOS - WWDC18 iOS 自动生成强密码和自动填充验证码/密码
本文将介绍WWDC18 Automatic Strong Passwords and Security Code Autofill和WWDC17 Introducing Password AutoFi ...
tomcat7:deploy (default-cli) on project myproject: Cannot invoke Tomcat manager: Software caused connection abort: socket write error
我使用的默认settings.xml,默认的里面只有tomcat6的服务器,没有tomcat7的服务器,接着往下看,下面来验证我的言论进行tomcat7:run的命令时
python（For/while循环语句）
一.循环语句 1.while循环当我们在python中需要重复执行一些动作的时候,这时我们就要用到循环 while循环的结构,当条件成立的时候,就会执行里面的代码 while循环不断的运行,直到指定 ...
Android自动化测试探索（四）uiautomator2简介和使用
uiautomator2简介项目Git地址: https://github.com/openatx/uiautomator2 安装 #1. 安装 uiautomator2 使用pip进行安装, 注意 ...
PHP开发工具 zend studio
一.搭建PHP开发环境Apahce服务器Dreamwear创建站点 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional/ ...
2013.4.24 - KDD第六天
今天早上,中秋给我发了一个压缩包,里面有战德臣的课件,昨天我说我SQL没学好,他说给我发战徳臣课件,然后说我SQL不会的话可以看这个,还有两篇文章<LDA数学八卦>以及<A Not ...

10分钟用Python爬取最近很火的复联4影评

10分钟用Python爬取最近很火的复联4影评的更多相关文章

随机推荐

热门专题