python3爬取动态网站图片

思路：

1、图片放在<image>XXX</image>标签中

2、利用fiddler抓包获取存放图片信息的js文件url

3、利用requests库获取html内容，然后获取其中图片id

4、利用fiddler抓取下载图片地址，结合图片id来下载图片（大文件）

# -*- coding:UTF-8 -*-

import requests, json, time

from contextlib import closing

class get_photos(object):

    def __init__(self):

        self.photos_id = []

        self.download_server = 'https://unsplash.com/photos/xxx/download?force=trues'#下载图片地址，通过fiddler抓包获取

        self.target = 'https://unsplash.com/napi/photos?page=1&per_page=24'#存有图片信息的js文件地址

        self.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}

    """

    函数说明:获取图片ID

    """

    def get_ids(self):

        req = requests.get(url=self.target, headers=self.headers, verify=False)

        html = json.loads(req.text)

        print(type(html), len(html))

        for i in range(len(html)):

            self.photos_id.append(html[i]['id'])#将列表html中获取id放到列表photos_id中

        print(self.photos_id)

        time.sleep(1)

    """

    函数说明:图片下载

    """

    def download(self, photo_id, filename):

        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}

        self.target = self.download_server.replace('xxx', photo_id)#将xxx换成图片id

        #closing可以将任意对象转成上下文对象

        with closing(requests.get(url=self.target, stream=True, verify = False, headers = self.headers)) as r:

            with open('%d.jpg' % filename, 'ab+') as f:

                #下载大文件，r.iter_content表示获取响应原始内容

                for chunk in r.iter_content(chunk_size = 1024):#边下载边存硬盘，chunk_size表示以1024比例存数据

                    if chunk:

                        f.write(chunk)

                        f.flush()#强行把缓冲区中的内容放到磁盘中

if __name__ == '__main__':

    gp = get_photos()#类实例化

    print('获取图片连接中:')

    gp.get_ids()#获取图片id

    print('图片下载中:')

    for i in range(len(gp.photos_id)):

        print('正在下载第%d张图片' % (i+1))

        gp.download(gp.photos_id[i], (i+1))

python3爬取动态网站图片的更多相关文章

python3 urllib爬取wallhalla网站图片
点我去我的github上看源码简单使用静态方法爬取https://wallhalla.com/网站的图片参考: https://blog.csdn.net/cquptcmj/article/det ...
Java爬虫实践--爬取CSDN网站图片为例
实现的效果,自动在工程下创建Pictures文件夹,根据网站URL爬取图片,层层获取.在Pictures下以网站的层级URL命名文件夹,用来装该层URL下的图片.同时将文件名,路径,URL插入数据库, ...
python3爬取全站美眉图片
爬取网站:https://www.169tp.com/xingganmeinv 该网站美眉图片有数百页,每页24张,共上万张图片,全部爬取下来 import urllib.request import ...
【每周小项目】使用 puppeteer 插件爬取动态网站
目录 0. 前言问题解决 1. 下载与引包 2. 使用步骤 3. 爬过的几个坑 page.evaluate 的传参问题元素操作问题 0. 前言这两天对爬虫开始感兴趣,最开始是源于天涯的一个房价 ...
Python3爬取美女妹子图片转载
# -*- coding: utf-8 -*- """ Created on Sun Dec 30 15:38:25 2018 @author: 球球 "&qu ...
使用nodejs+http(s)+events+cheerio+iconv-lite爬取2717网站图片数据到本地文件夹
源代码如下: //(node:9240) Warning: Setting the NODE_TLS_REJECT_UNAUTHORIZED environment variable to '0' ...
实战爬取某网站图片-Python
直接上代码 1 #!/usr/bin/python 2 # -*- coding: UTF-8 -*- 3 from bs4 import BeautifulSoup 4 import request ...
Scrapy 爬取某网站图片
1. 创建一个 Scrapy 项目,在命令行或者 Pycharm 的 Terminal 中输入: scrapy startproject imagepix 自动生成了下列文件: 2. 在 imagep ...
python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...

随机推荐

Word：转换PDF
本文适用于Word 2007 + Windows 7,造冰箱的大熊猫@cnblogs 2018/8/3 一.Word文档转PDF文档把Word文档转换为PDF,有两个免费解决方案 1.Microso ...
Angular 文档中链接的修改路径
在 Angular 文档程序中的左侧链接的修改路径在哪里? 如下图所示的修改路径. 左侧链接的修改路径在 angular-cn\aio\content\navigation.json 这个文件中. 你 ...
Android_(游戏)打飞机05：处理子弹，击中敌机，添加计分板
(游戏)打飞机01:前言传送门 (游戏)打飞机02:游戏背景滚动传送门 (游戏)打飞机03:控制玩家飞机传送门 (游戏)打飞机04:绘画敌机.添加子弹传送门 (游戏)打飞机05:处理子弹, ...
Java 8 - Stream Collectors分组的例子
1.分组依据,计数和排序 1.1按a分组List并显示它的总数. package com.mkyong.java8; import java.util.Arrays; import java.util ...
Java连接MQTT服务-ws方式
特别提示:本人博客部分有参考网络其他博客,但均是本人亲手编写过并验证通过.如发现博客有错误,请及时提出以免误导其他人,谢谢!欢迎转载,但记得标明文章出处:http://www.cnblogs.com/ ...
套接字之recvfrom系统调用
recvfrom系统调用通过用户传入的接收空间构造msghdr,并且调用sock_recvmsg,该函数调用socket操作的recvmsg函数sock->ops->recvmsg,ipv ...
oracle性能诊断排查
https://blog.csdn.net/qq_30553235/article/details/78809872 查看oracle用户权限: 1.查看不同用户的连接数 select usernam ...
spring cloud microservice provider and consumer
MicroService Provider:https://files.cnblogs.com/files/xiandedanteng/empCloud190824.rarMicroService C ...
BOSCH汽车工程手册————混合驱动
首先放一波资源,一千两百多页的pdf 链接:https://pan.baidu.com/s/15IsvHqOFCnqAKwY_SR4-lA提取码:6wmz 混合驱动混合驱动有串联驱动并联驱动以及两种 ...
assert断言用法
使用assert断言是学习python一个非常好的习惯,python assert 断言句语格式及用法很简单.在没完善一个程序之前,我们不知道程序在哪里会出错,与其让它在运行最崩溃,不如在出现错误条件 ...

python3爬取动态网站图片

python3爬取动态网站图片的更多相关文章

随机推荐

热门专题