请求地址

Request URL:https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0

Request URL:https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=20

Request URL:https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=40

查询参数

type:movie

tag:热门

sort:recommend

page_limit:

page_start:

type:movie

tag:热门

sort:recommend

page_limit:

page_start:

type:movie

tag:热门

sort:recommend

page_limit:

page_start:

请求报头

Host:movie.douban.com

Referer:https://movie.douban.com/explore

User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36

X-Requested-With:XMLHttpRequest

通过比较请求地址和查询参数，得出

请求地址 = baseurl+type+tag+sort+page_limit+page_start

baseurl：https://movie.douban.com/j/search_subjects?

type:固定为movie

tag:关键字，需要将utf-8转换为urlencode

sort:固定为recommend

page_limit:表示一页显示的电影数量，固定20

page_start:表示电影页数，从0开始，20为公差的递增函数

由此我们获取到了我们需要的数据，可以将爬虫分为三步

获取网页json格式代码
从代码中获取电影名和电影海报图片链接
将获得的图片命名为电影名

流程

准备工作

在函数外部定义伪装的请求报头

headers={

    'Host': 'movie.douban.com',

    'Referer': 'https://movie.douban.com/explore',

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

    'X-Requested-With': 'XMLHttpRequest'

}

获取json格式代码

def get_page(page):

    #请求参数

    params={

        'type': 'movie',

        'tag': '奥特曼',

        'sort': 'recommend',

        'page_limit': '',

        'page_start': page,

    }

    #基本网页链接

    base_url = 'https://movie.douban.com/j/search_subjects?'

    #将基本网页链接与请求参数结合在一起

    url = base_url + urlencode(params)

    try:

        #获取网页代码

        resp = requests.get(url, headers=headers)

        print(url)

        #返回json数据格式代码

        if 200 == resp.status_code:

            print(resp.json())

            return resp.json()

    except requests.ConnectionError:

        return None

筛选数据

通过观察电影列表代码文件的preview，进行数据筛选

def get_image(json):

    if(json.get('subjects')):

        data=json.get('subjects')

        for item in data:

            title=item.get('title')

            imageurl=item.get('cover')

            #返回"信息"字典

            yield {

                'title':title,

                'images':imageurl,

            }

存储图片文件

def save_page(item):

    #文件夹名称

    file_name = '奥特曼电影大全'

    if not os.path.exists(file_name):

        os.makedirs(file_name)

    #获取图片链接

    response=requests.get(item.get('images'))

    #储存图片文件

    if response.status_code==200:

        file_path = file_name + os.path.sep + item.get('title') + '.jpg'

        with open(file_path, 'wb') as f:

            f.write(response.content)

多线程处理

def main(page):

    json = get_page(page)

    for item in get_image(json):

        print(item)

        save_page(item)

if __name__ == '__main__':

    pool = Pool()

    pool.map(main, [i for i in range(0, 200, 20)])

    pool.close()

    pool.join()

总代码

import requests

from urllib.parse import urlencode

import os

from multiprocessing.pool import Pool

headers={

    'Host': 'movie.douban.com',

    'Referer': 'https://movie.douban.com/explore',

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

    'X-Requested-With': 'XMLHttpRequest'

}

def get_page(page):

    #请求参数

    params={

        'type': 'movie',

        'tag': '奥特曼',

        'sort': 'recommend',

        'page_limit': '',

        'page_start': page,

    }

    #基本网页链接

    base_url = 'https://movie.douban.com/j/search_subjects?'

    #将基本网页链接与请求参数结合在一起

    url = base_url + urlencode(params)

    try:

        #获取网页代码

        resp = requests.get(url, headers=headers)

        print(url)

        #返回json数据格式代码

        if 200 == resp.status_code:

            print(resp.json())

            return resp.json()

    except requests.ConnectionError:

        return None

def get_image(json):

    if(json.get('subjects')):

        data=json.get('subjects')

        for item in data:

            title=item.get('title')

            imageurl=item.get('cover')

            #返回"信息"字典

            yield {

                'title':title,

                'images':imageurl,

            }

def save_page(item):

    #文件夹名称

    file_name = '奥特曼电影大全'

    if not os.path.exists(file_name):

        os.makedirs(file_name)

    #获取图片链接

    response=requests.get(item.get('images'))

    #储存图片文件

    if response.status_code==200:

        file_path = file_name + os.path.sep + item.get('title') + '.jpg'

        with open(file_path, 'wb') as f:

            f.write(response.content)

def main(page):

    json = get_page(page)

    for item in get_image(json):

        print(item)

        save_page(item)

if __name__ == '__main__':

    pool = Pool()

    pool.map(main, [i for i in range(0, 200, 20)])

    pool.close()

    pool.join()

本来是准备使用https://movie.douban.com/tag/#/ 不过在后面，刷新网页时，总是出现服务器问题。不过下面的代码还是可以用。

import requests

from urllib.parse import urlencode

import os

from hashlib import md5

from multiprocessing.pool import Pool

headers={

    'Host': 'movie.douban.com',

    'Referer': 'https://movie.douban.com/tag/',

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

}

def get_page(page):

    params={

        'sort':'U',

        'range':'0,10',

        'tags':'奥特曼',

        'start': page,

    }

    base_url = 'https://movie.douban.com/j/new_search_subjects?'

    url = base_url + urlencode(params)

    try:

        resp = requests.get(url, headers=headers)

        print(url)

        if 200 == resp.status_code:

            print(resp.json())

            return resp.json()

    except requests.ConnectionError:

        return None

def get_image(json):

    if(json.get('data')):

        data=json.get('data')

        for item in data:

            title=item.get('title')

            imageurl=item.get('cover')

            yield {

                'title':title,

                'images':imageurl,

            }

def save_page(item):

    file_name='奥特曼大全'+os.path.sep+item.get('title')

    if not os.path.exists(file_name):

        os.makedirs(file_name)

    try:

        response=requests.get(item.get('images'))

        if response.status_code==200:

            file_path = '{0}/{1}.{2}'.format(file_name, md5(response.content).hexdigest(), 'jpg')

            if not os.path.exists(file_path):

                with open(file_path, 'wb') as f:

                    f.write(response.content)

            else:

                print('Already Downloaded', file_path)

    except requests.ConnectionError:

        print('Failed to Save Image')

def main(page):

    json = get_page(page)

    for item in get_image(json):

        print(item)

        save_page(item)

if __name__ == '__main__':

    pool = Pool()

    pool.map(main, [i for i in range(0, 200, 20)])

    pool.close()

    pool.join()

Ajax爬取豆瓣电影目录（Python）的更多相关文章

爬虫系列1：Requests+Xpath 爬取豆瓣电影TOP
爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...
利用Python爬取豆瓣电影
目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com ...
Python开发爬虫之静态网页抓取篇：爬取“豆瓣电影 Top 250”电影数据
所谓静态页面是指纯粹的HTML格式的页面,这样的页面在浏览器中展示的内容都在HTML源码中. 目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/t ...
Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块
工具:Python 3.6.5.PyCharm开发工具.Windows 10 操作系统.谷歌浏览器目的:爬取豆瓣电影排行榜中电影的title.链接地址.图片.评价人数.评分等网址:https:// ...
python 爬取豆瓣电影评论，并进行词云展示及出现的问题解决办法
本文旨在提供爬取豆瓣电影<我不是药神>评论和词云展示的代码样例 1.分析URL 2.爬取前10页评论 3.进行词云展示 1.分析URL 我不是药神短评第一页url https://mo ...
Python爬取豆瓣电影top
Python爬取豆瓣电影top250 下面以四种方法去解析数据,前面三种以插件库来解析,第四种以正则表达式去解析. xpath pyquery beaufifulsoup re 爬取信息:名称评分 ...
python爬取豆瓣电影信息数据
题外话+ 大家好啊,最近自己在做一个属于自己的博客网站(准备辞职回家养老了,明年再战)在家里琐事也很多, 加上自己一回到家就懒了(主要是家里冷啊! 广东十几度,老家几度,躲在被窝瑟瑟发抖,) 由于 ...
python 爬取豆瓣电影短评并wordcloud生成词云图
最近学到数据可视化到了词云图,正好学到爬虫,各种爬网站 [实验名称] 爬取豆瓣电影<千与千寻>的评论并生成词云 1. 利用爬虫获得电影评论的文本数据 2. 处理文本数据生成词云图第一步, ...
python 爬虫&爬取豆瓣电影top250
爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml impor ...

随机推荐

BZOJ-1907 树的路径覆盖贪心
题意:给一个n个点的树,求树的最小路径覆盖.(这个最小路径覆盖不能有重点) 解法:往图论方向想很久,想得太复杂了,其实直接贪心.这个大佬题解写得很好: https://blog.csdn.net/bl ...
Integer类的缓存机制
一.Integer类的缓存机制我们查看Integer的源码,就会发现里面有个静态内部类. public static Integer valueOf(int i) { assert IntegerC ...
Orabbix无法获取Oracle DB Size和DB Files Size的解决方法
Orabbix无法获取Oracle DB Size和DB Files Size的解决方法这几天在研究Orabbix时发现在Zabbix中无法获取DB Size和DB Files Size的大小,后来 ...
Beats：如何创建一个定制的Elastic Beat
Beats作为Elastic Stack家族中重要的部分.它可以和方便地让我们把我们的数据发送到Elasticsearch或Logstash之中.如果我们想要生成自己的Beat,请使用GitHub的b ...
iOS多媒体总结&进入后台播放音乐
1. 播放mp3需要导入框架,AVFoundation支持音频文件(.caf..aif..wav..wmv和.mp3)的播放. #import <AVFoundation/AVFoundatio ...
python全栈开发，Day41(线程概念，线程的特点，进程和线程的关系，线程和python理论知识，线程的创建)
昨日内容回顾队列队列:先进先出.数据进程安全队列实现方式:管道+锁生产者消费者模型:解决数据供需不平衡管道双向通信,数据进程不安全 EOFError: 管道是由操作系统进行引用计数的必须 ...
php array_combine()函数语法
php array_combine()函数语法作用:通过合并两个数组来创建一个新数组,其中的一个数组是键名,另一个数组的值为键值.dd马达价格语法:array_combine(keys,valu ...
BZOJ 4407: 于神之怒加强版莫比乌斯反演 + 线筛积性函数
Description 给下N,M,K.求 Input 输入有多组数据,输入数据的第一行两个正整数T,K,代表有T组数据,K的意义如上所示,下面第二行到第T+1行,每行为两个正整数N,M,其意 ...
[CSP-S模拟测试]:Game（模拟）
题目传送门(内部题62) 输入格式第一行两个整数$n,K$表示序列长度和游戏数第二行$n$个数为序列$a_i$ 第三行$K$个数,为$p_i$ 输出格式输出有$K$行,第$i$行为第$i$次游戏 ...
SQL SERVER 2012文件表(FILETABLE)新体验之一
SQLSERVER 2012 文件表功能很COOL,让我们体验一下吧. 1,创建数据库 [sql] DREATE DATABASE FileTableTest ON PRIMARY ( NA ...

Ajax爬取豆瓣电影目录（Python）

豆瓣电影排行榜分析

请求地址

查询参数

请求报头

流程

准备工作

获取json格式代码

筛选数据

存储图片文件

多线程处理

总代码

Ajax爬取豆瓣电影目录（Python）的更多相关文章

随机推荐

热门专题