Python爬虫实例：爬取豆瓣Top250

入门第一个爬虫一般都是爬这个，实在是太简单。用了 requests 和 bs4 库。

1、检查网页元素，提取所需要的信息并保存。这个用 bs4 就可以，前面的文章中已经有详细的用法阐述。

2、找到下一个 url 地址。本例中有两种方法，一是通过 url 的规则，本例中通过比较发现，只要更改 url 中的 start 参数值就可以；二是通过下一个页的标签获取下一页的 url。代码中采用了第一种方法。

3、判断退出条件，爬虫不可能无限制循环下去。

在这个最简单的示例中，实现以上三步一个爬虫就完成了。简单到不想做其他说明，直接看代码吧。

"""

爬取豆瓣电影Top250

"""

import os

import re

import time

import requests

from bs4 import BeautifulSoup

def download(url, page):

    print(f"正在爬取：{url}")

    html = requests.get(url).text   # 这里不加text返回<Response [200]>

    soup = BeautifulSoup(html, 'html.parser')

    lis = soup.select("ol li")

    for li in lis:

        index = li.find('em').text

        title = li.find('span', class_='title').text

        rating = li.find('span', class_='rating_num').text

        strInfo = re.search("(?<=<br/>).*?(?=<)", str(li.select_one(".bd p")), re.S | re.M).group().strip()

        infos = strInfo.split('/')

        year = infos[0].strip()

        area = infos[1].strip()

        type = infos[2].strip()

        write_fo_file(index, title, rating, year, area, type)

    page += 25

    if page < 250:

        time.sleep(2)

        download(f"https://movie.douban.com/top250?start={page}&filter=", page)

def write_fo_file(index, title, rating, year, area, type):

    f = open('movie_top250.csv', 'a')

    f.write(f'{index},{title},{rating},{year},{area},{type}\n')

    f.closed

def main():

    if os.path.exists('movie_top250.csv'):

        os.remove('movie_top250.csv')

    url = 'https://movie.douban.com/top250'

    download(url, 0)

    print("爬取完毕。")

if __name__ == '__main__':

    main()

相关博文推荐：

Python爬虫实例：爬取猫眼电影——破解字体反爬

Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取

Python爬虫实例：爬取豆瓣Top250的更多相关文章

python爬虫+正则表达式实例爬取豆瓣Top250的图片
直接上全部代码新手上路代码风格可能不太好 import requests import re from fake_useragent import UserAgent #### 用来伪造爬头部信息 ...
python爬虫实例——爬取歌单
学习自<<从零开始学python网络爬虫>> 爬取酷狗歌单,保存入csv文件直接上源代码:(含注释) import requests #用于请求网页获取网页数据 from b ...
爬虫之爬取豆瓣top250电影排行榜及爬取斗图啦表情包解读及爬虫知识点补充
今日内容概要如何将爬取的数据直接导入Excel表格 #如何通过Python代码操作Excel表格 #前戏 import requests import time from openpyxl impo ...
Python爬虫8-ajax爬取豆瓣影榜
GitHub代码练习地址:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac12_ajax.py 了解ajax 是一种异步请 ...
简单的爬虫例子——爬取豆瓣Top250的电影的排名、名字、评分、评论数
爬取思路: url从网页上把代码搞下来bytes decode ---> utf-8 网页内容就是我的待匹配的字符串ret = re.findall(正则,待匹配的字符串), ret 是所有匹配 ...
python轻松入门——爬取豆瓣Top250时出现403报错
关于爬虫程序的418+403报错. 1.按F12打开"开发者调试页面"如下图所示:按步骤,选中Network,找到使用的接口,获取到浏览器访问的信息. 我们需要把自己的python ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！
爬取豆瓣Top250电影的评分.海报.影评等数据! 本项目是爬虫中最基础的,最简单的一例: 后面会有利用爬虫框架来完成更高级.自动化的爬虫程序. 此项目过程是运用requests请求库来获取h ...
Python爬虫之多线程下载豆瓣Top250电影图片
爬虫项目介绍本次爬虫项目将爬取豆瓣Top250电影的图片,其网址为:https://movie.douban.com/top250, 具体页面如下图所示: 本次爬虫项目将分别不使用多线程和使 ...

随机推荐

Open-Domain QA -paper
Open-domain QA Overview The whole system is consisted with Document Retriever and Document Reader. T ...
go 监听系统信号
linux 信号查看 kill -l 1) SIGHUP 2) SIGINT 3) SIGQUIT 4) SIGILL 5) SIGTRAP 6) SIGABRT 7) SIGBUS 8) SIGFP ...
Rabin-Karp ACM训练
求解问题寻找S中T出现的位置或次数.假设S的长度为n, T的长度为m, 通过枚举S长度为m的字串的hash值与T的hash值比较.此时使用滚动hash的优化使复杂度不为O(mn). 算法说明滚动h ...
springboot增删改查
改https://blog.csdn.net/weixin_42338186/article/details/81561592 添加https://blog.csdn.net/weixin_42338 ...
toLatin1 qt
Latin1是ISO-8859-1的别名,有些环境下写作Latin-1.ISO-8859-1ISO-8859-1编码是单字节编码,向下兼容ASCII,其编码范围是0x00-0xFF,0x00-0x7F ...
201771010126 王燕《面向对象程序设计（Java）》第十三周学习总结
实验十三图形界面事件处理技术实验时间 2018-11-22 1.实验目的与要求 (1) 掌握事件处理的基本原理,理解其用途: 事件源 (eventevent eventeventsource s ...
Java基础-对象与类
面向对象程序设计概述面向对象的程序设计(简称OOP)时当今主流的程序设计范型,已经取代了"结构化"过程化程序设计开发技术,Java是完全面向对象的. 类类设计构造对象的模板或蓝 ...
vue 值的更新
用了vue开发了一段时间,基本上感觉都是比较好用的一个框架,刚开始还是会存在一些小坑的东西,这里先浅谈下值的更新问题. 1.本组件的一些变量,或者是主view(路由页面)一些值,是通过vuex 中st ...
python基础之面向对象1
一.面向对象VS面向过程 1.面向过程 2.面向对象二.类与对象 1.类和对象 (1)基本概念类和对象的内存图如下: 2.实例成员 (1)实例变量 (2)实例方法: 3.类成员: (1)类变量 ( ...
angular.js学习笔记(二)
1.安装core ,shared模块 ng g m core ng g m shared 2.在shared中导入core模块 core模块只加载一次所以将公共组件放到core中 3.创建公共组 ...

Python爬虫实例：爬取豆瓣Top250

Python爬虫实例：爬取豆瓣Top250的更多相关文章

随机推荐

热门专题