最新豆瓣top250爬虫案例代码分析[注释齐全]

导入包

# json包

import json

#正则表达式包

import re

import requests

from requests import RequestException

定义爬取html函数

#函数：获取一页html

def get_one_page(url):

    try:

        headers = {

            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'

        }

        '''

        Response对象返回包含了整个服务器的资源

        Response对象的属性，有以下几种

        r.status_code： HTTP请求的返回状态，200表示连接成功，404表示失败

        2.r.text： HTTP响应内容的字符串形式，即，url对应的页面内容

        3.r.encoding：从HTTP header中猜测的响应内容编码方式

        4.r.apparent_encoding：从内容中分析出的响应内容编码方式（备选编码方式）

        5.r.content： HTTP响应内容的二进制形式

        '''

        response = requests.get(url, headers=headers, timeout=1000)

        if response.status_code == 200:

            return response.text

    except requests.exceptions.RequestException as e:

        print(e)

定义解析html函数【正则】

#函数：解析一页html

def parse_one_page(html):

    #re.compile 是预编译正则表达式函数，是用来优化正则的，它将正则表达式转化为对象

    #re.compile 函数用于编译正则表达式，生成一个 Pattern 对象，pattern 是一个字符串形式的正则表达式

    #pattern 是一个匹配对象Regular Expression，它单独使用就没有任何意义，需要和findall(), search(), match()搭配使用。

    pattern = re.compile(

        '<em class="">(\d+)</em>.*?<a href="(.*?)">.*?' +

        '<img width="100" alt=".*?" src="(.*?)" class=""' +

        '>.*?<span class="title">(.*?)</span>.*?<span ' +

        'class="other">&nbsp;/&nbsp;(.*?)</span>.*?<div ' +

        'class="bd">.*?<p class="">.*?导演: (.*?)&nbsp.*?<br>' +

        '.*?(\d{4})&nbsp;/&nbsp;(.*?)&nbsp;/&nbsp;(.*?)\n' +

        '.*?</p>.*?<span class="rating_num" property="v:' +

        'average">(.*?)</span>',

        re.S)

    items = re.findall(pattern, html)

    for item in items:

        yield {

            'index': item[0],

            'page_src': item[1],

            'img_src': item[2],

            'title': item[3],

            'other_title': item[4],

            'director': item[5],

            'release_date': item[6],

            'country': item[7],

            'type': item[8],

            'rate': item[9],

        }

定义保存内容函数

#函数：将内容写入文件

def write_to_file(content):

    with open('douban_movie_rankings.txt', 'a', encoding='utf-8') as f:

        f.write(json.dumps(content, ensure_ascii=False) + '\n')

定义主函数

#主空函数

def main():

    #用于翻页

    for offset in range(10):

        #获取网址

        url = f'https://movie.douban.com/top250?start={offset * 25}&filter='

        #获取html文件

        html = get_one_page(url)

        for item in parse_one_page(html):

            print(item)

            write_to_file(item)

定义魔法函数

if __name__ == '__main__':

    main()

运行结果：

原创作者：孤飞-博客园

原文链接：https://www.cnblogs.com/ranxi169/p/16564490.html

随机推荐

Fastflow——基于golang的轻量级工作流框架
Fastflow 是什么?用一句话来定义它:一个基于golang协程.支持水平扩容的分布式高性能工作流框架. 它具有以下特点: 易用性:工作流模型基于 DAG 来定义,同时还提供开箱即用的 API, ...
获取并检查系统负载\CPU\内存\磁盘\网络
安装依赖需要net-tools.namp! CentOS:yum -y install net-tools nmap Ubuntu:apt-get update && apt-get ...
Git技法：.gitignore、移除暂存与撤销修改
1. .gitignore常见项目添加 1.1 .gitignore模板 .gitignore针对每个语言都有对应的模板,在GitHub创建项目时就可以选择(你可以在GitHub提供的.gitigno ...
java接口多实现注入方法总结
1. 单实现接口注入方法 1.1 构造注入(推荐) @RequiredArgsConstructor public class TestController { // 其只有一个具体的实现类 priv ...
MTK 虚拟 sensor bring up (pick up) sensor1.0
pick up bring up sensor1.0 1.pick up对比 2.SCP 1.添加驱动文件 2.添加编译环境(打开开关) 注:编译过程中如果显示内存不够 3.修改底层数据上报方式 3. ...
Eoapi — 一个可拓展的开源 API 工具
在社区中时常会出现"抱怨某商业产品越来越臃肿"的声音,API 工具也是如此.从最早期只做 API 调试的工具,到经过多年的演进后集成全面功能的"庞然大物", ...
Linux Cgroup v1(中文翻译)(4)：Block IO Controller
Block IO Controller 1 概览 cgroup子系统blkio实现了block io控制器.无论是对存储结构上的叶子节点和还是中间节点,它对各种IO控制策略(proportional ...
App自动化之dom结构和元素定位方式（包含滑动列表定位）
900×383 38 KB 先来看几个名词和解释: dom: Document Object Model 文档对象模型 dom应用: 最早应用于html和js的交互.界面的结构化描述, 常见的格式为h ...
中国天气api接口xml，json
http://m.weather.com.cn/data/101110101.html 大坑有木有??反应慢不说了,还老不更新!! 想贴段代码的,现在又打不开了(貌似3月4号以后没更新过) ==== ...
记录一个奇葩 bug [Failed to decode JSON object: Expecting value: line 1 column 1 (char 0)]
关于 flask 的一个记录代码 @auth.login_required @app.route('/add', methods=['POST']) def add(): if request.me ...

最新豆瓣top250爬虫案例代码分析[注释齐全]

导入包

定义爬取html函数

定义解析html函数【正则】

定义保存内容函数

定义主函数

定义魔法函数

最新豆瓣top250爬虫案例代码分析[注释齐全]的更多相关文章

随机推荐

热门专题