python爬虫08 | 你的第二个爬虫，要过年了，爬取豆瓣最受欢迎的250部电影慢慢看

马上就要过年啦

过年在家干啥咧

准备好被七大姑八大姨轮番「轰炸」了没？

你的内心 os 是这样的

但实际上你是这样的

应付完之后

闲暇时刻不妨看看电影

接下来咱们就来爬取豆瓣上评分最高的

250部电影

这次我们就要来使用上次说的

BeautifulSoup+ Reuqests

进行爬取啦

这次

我们将爬取到的内容存放到 excel 吧

那么

接下来就是

学习 python 的正确姿势

我们还是老样子

先摸清对方的底

知己知彼

百战不殆

首先打开我们的目标链接

https://movie.douban.com/top250

可以看到这样一个网页

每一页显示了 25 条数据

当我们点击下一页的时候

链接请求参数变了

https://movie.douban.com/top250?start=25&filter=

我们一眼就看的出来

这里就是从第 25 条数据开始加载的

所以

我们可以使用这个 start=25 来做变量

实现翻页获取信息

接下来我们来看下我们要的主要信息

电影名称

电影图片

电影排名

电影评分

电影作者

电影简介

等会我们可以使用 BeautifulSoup超简单获取

一顿分析之后

我们就开始撸代码啦

主要思路

请求豆瓣的链接获取网页源代码

然后使用 BeatifulSoup 拿到我们要的内容

最后就把数据存储到 excel 文件中

def main(page):
    url = 'https://movie.douban.com/top250?start='+ str(page*25)+'&filter='
    html = request_douban(url)
    soup = BeautifulSoup(html, 'lxml')
    save_to_excel(soup)

请求豆瓣电影

def request_douban(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
    except requests.RequestException:
        return None

获取到的主要源代码

...

<ol class="grid_view">
        <li>
            <div class="item">
                <div class="pic">
                    <em class="">1</em>
                    <a href="https://movie.douban.com/subject/1292052/">
                        <img width="100" alt="肖申克的救赎" src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg" class="">
                    </a>
                </div>
                <div class="info">
                    <div class="hd">
                        <a href="https://movie.douban.com/subject/1292052/" class="">
                            <span class="title">肖申克的救赎</span>
                                    <span class="title">&nbsp;/&nbsp;The Shawshank Redemption</span>
                                <span class="other">&nbsp;/&nbsp;月黑高飞(港)  /  刺激1995(台)</span>
                        </a>

                            <span class="playable">[可播放]</span>
                    </div>
                    <div class="bd">
                        <p class="">
                            导演: 弗兰克·德拉邦特 Frank Darabont&nbsp;&nbsp;&nbsp;主演: 蒂姆·罗宾斯 Tim Robbins /...<br>
                            1994&nbsp;/&nbsp;美国&nbsp;/&nbsp;犯罪 剧情
                        </p>

                        
                        <div class="star">
                                <span class="rating5-t"></span>
                                <span class="rating_num" property="v:average">9.6</span>
                                <span property="v:best" content="10.0"></span>
                                <span>1286755人评价</span>
                        </div>

                            <p class="quote">
                                <span class="inq">希望让人自由。</span>
                            </p>
                    </div>
                </div>
            </div>
        </li>

...

BeatifulSoup 解析

list = soup.find(class_='grid_view').find_all('li')

    for item in list:
        item_name = item.find(class_='title').string
        item_img = item.find('a').find('img').get('src')
        item_index = item.find(class_='').string
        item_score = item.find(class_='rating_num').string
        item_author = item.find('p').text
        item_intr = item.find(class_='inq').string

        # print('爬取电影：' + item_index + ' | ' + item_name +' | ' + item_img +' | ' + item_score +' | ' + item_author +' | ' + item_intr )
        print('爬取电影：' + item_index + ' | ' + item_name  +' | ' + item_score  +' | ' + item_intr )

打印一下

爬取电影：1 | 肖申克的救赎 | 9.6 | 希望让人自由。
爬取电影：2 | 霸王别姬 | 9.6 | 风华绝代。
爬取电影：3 | 这个杀手不太冷 | 9.4 | 怪蜀黍和小萝莉不得不说的故事。
爬取电影：4 | 阿甘正传 | 9.4 | 一部美国近现代史。
爬取电影：5 | 美丽人生 | 9.5 | 最美的谎言。
爬取电影：6 | 泰坦尼克号 | 9.3 | 失去的才是永恒的。 
爬取电影：7 | 千与千寻 | 9.3 | 最好的宫崎骏，最好的久石让。 
爬取电影：8 | 辛德勒的名单 | 9.5 | 拯救一个人，就是拯救整个世界。
爬取电影：9 | 盗梦空间 | 9.3 | 诺兰给了我们一场无法盗取的梦。
爬取电影：10 | 机器人总动员 | 9.3 | 小瓦力，大人生。
爬取电影：11 | 忠犬八公的故事 | 9.3 | 永远都不能忘记你所爱的人。
...
爬取电影：21 | 无间道 | 9.1 | 香港电影史上永不过时的杰作。
爬取电影：22 | 当幸福来敲门 | 9.0 | 平民励志片。 
爬取电影：23 | 疯狂动物城 | 9.2 | 迪士尼给我们营造的乌托邦就是这样，永远善良勇敢，永远出乎意料。
爬取电影：24 | 触不可及 | 9.2 | 满满温情的高雅喜剧。
爬取电影：25 | 怦然心动 | 9.0 | 真正的幸福是来自内心深处。

拿到数据啦

循环获取 10 页的所有数据

来个循环吧

for i in range(0, 10):
        main(i)

获取到数据当然是要存储了

导入 excel 的库

import xlwt

创建一个 excel 的 sheet

每一列就是我们要的关键内容

book=xlwt.Workbook(encoding='utf-8',style_compression=0)

sheet=book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)
sheet.write(0,0,'名称')
sheet.write(0,1,'图片')
sheet.write(0,2,'排名')
sheet.write(0,3,'评分')
sheet.write(0,4,'作者')
sheet.write(0,5,'简介')

将爬取到的所有数据写入 excel

sheet.write(n, 0, item_name)
        sheet.write(n, 1, item_img)
        sheet.write(n, 2, item_index)
        sheet.write(n, 3, item_score)
        sheet.write(n, 4, item_author)
        sheet.write(n, 5, item_intr)

最后来个保存

book.save(u'豆瓣最受欢迎的250部电影.xlsx')

运行一下吧

生成了一个 excel 文件

老规矩

小帅b把本篇涉及到的源代码放在后台了

公众号发送「250」获取

完

再见

近期文章

python爬虫07 | 有了 BeautifulSoup ，妈妈再也不用担心我的正则表达式了

python爬虫06 | 你的第一个爬虫，爬取当当网 Top 500 本五星好评书籍

python爬虫05 | 年轻人，不会正则表达式你睡得着觉？有点出息没有？

扫一扫

学习 Python 没烦恼

好看的人都点了

python爬虫08 | 你的第二个爬虫，要过年了，爬取豆瓣最受欢迎的250部电影慢慢看的更多相关文章

python爬虫16 | 你，快去试试用多进程的方式重新去爬取豆瓣上的电影
我们在之前的文章谈到了高效爬虫在 python 中多线程下的 GIL 锁会让多线程显得有点鸡肋特别是在 CPU 密集型的代码下多线程被 GIL 锁搞得效率不高特别是对于多核的 CPU 来说 ...
Python 爬取豆瓣TOP250实战
学习爬虫之路,必经的一个小项目就是爬取豆瓣的TOP250了,首先我们进入TOP250的界面看看. 可以看到每部电影都有比较全面的简介.其中包括电影名.导演.评分等. 接下来,我们就爬取这些数据,并将这 ...
零基础爬虫----python爬取豆瓣电影top250的信息（转）
今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...
Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)
1. 爬虫设计的技术 1)数据获取,通过http获取网站的数据,如urllib,urllib2,requests等模块: 2)数据提取,将web站点所获取的数据进行处理,获取所需要的数据,常使用的技 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python开发爬虫之静态网页抓取篇：爬取“豆瓣电影 Top 250”电影数据
所谓静态页面是指纯粹的HTML格式的页面,这样的页面在浏览器中展示的内容都在HTML源码中. 目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/t ...
Python爬虫之利用BeautifulSoup爬取豆瓣小说（一）——设置代理IP
自己写了一个爬虫爬取豆瓣小说,后来为了应对请求不到数据,增加了请求的头部信息headers,为了应对豆瓣服务器的反爬虫机制:防止请求频率过快而造成“403 forbidden”,乃至封禁本机ip的情况 ...
Python爬虫：现学现用xpath爬取豆瓣音乐
爬虫的抓取方式有好几种,正则表达式,Lxml(xpath)与BeautifulSoup,我在网上查了一下资料,了解到三者之间的使用难度与性能三种爬虫方式的对比. 这样一比较我我选择了Lxml(xpa ...
Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...

随机推荐

linux 启动两个tomcat
按照下面的步骤操作即可部署成功:一些具体操作命令就不详细说了,直接说有用的:1.在 /usr/local 下部署两个Tomcat,tomcat的文件夹重命名为:tomcat6-1 . tomcat ...
Codeforces Round #276 (Div. 1)D.Kindergarten DP贪心
D. Kindergarten In a kindergarten, the children are being divided into groups. The teacher put t ...
C#如何读写和创建INI文件（经典）转
C#如何读写和创建INI文件分类: c#程序设计2011-11-27 20:42 4935人阅读评论(2) 收藏举报 inic#stringbuffernullfile 在做项目过程中,有时需要 ...
hdu 2222(AC自动机模版题）
Keywords Search Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others ...
(Go)07.strings与strconv的示例
package main import ( "strconv" "fmt" "strings" ) func main() { str := ...
[Apple开发者帐户帮助]四、管理密钥（2）获取密钥标识符
创建JSON Web令牌(JWT)以与启用的服务进行通信时,需要密钥标识符. 获取密钥标识符在“ 证书,标识符和配置文件”中,选择侧栏中“键”下的“全部”. 在右侧,选择私钥. 密钥标识符显示在密钥 ...
C# 获取当月有多少天
int days = DateTime.DaysInMonth ( 2009, 9 ); int days = DateTime.DaysInMonth ( DateTime.Now.Year, Da ...
基于Myeclipse+Axis2的WebService开发实录
最近开始学习了下在Myeclipse开发工具下基于WebSerivce的开发,下面将相关相关关键信息予以记录 Myeclipse的安装,本文以Myeclipse2014-blue为开发环境,相关配置执 ...
Oracle 循环调用存储过程
create or replace procedure p_test_loop as --定义一个游标,并将查询结果集赋值给它 CURSOR c1 IS select * from tbltest w ...
浅谈html运行原理
浅谈HTML运行原理,所谓的HTML简单的来说就是一个网页,虽然第一节就讲html原理可能大家会听不懂,就当是给一个初步印象把,至少大概知道一个网页的运行流程是怎样的,下面上一张图: 大致的一个htm ...

python爬虫08 | 你的第二个爬虫，要过年了，爬取豆瓣最受欢迎的250部电影慢慢看

python爬虫08 | 你的第二个爬虫，要过年了，爬取豆瓣最受欢迎的250部电影慢慢看的更多相关文章

随机推荐

热门专题