Python爬虫爬取彼岸网4K Picture

深夜爬取4k图片

下载流程

定义page_text函数，对第一页地址发送get请求，因为页面数据在页面源代码都能查到，所以发送get 请求就ok!，注意：要进行编码格式设置，可以去源代码查看，
定义parse_data函数，利用xpath解析图片所对应的url，以及其名字，把解析到的数据都添加到列表中
定义downloadPic函数，先利用os模块，如果有这个目录就不创建，没有就创建，用for循环对刚才添加到列表中的数据（数据在datas中）进行遍历，取得名字，和地址，再对地址发起请求，这个是要下载图片，图片保存方式为二进制格式，所以这个的请求用content，最后用上下文管理器进行保存到目录中，注意：用了with 上下文管理器，最后我们就不必对文件进行关闭
主函数主要是传递一个url 参数给page_text进行分页的操作

import requests, os

from lxml import etree

# UA伪装

headers = {

    'UserAgent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"

}

# 发送请求，获取网页源代码

def page_text(url):

    response = requests.get(url=url, headers=headers)

    response.encoding = "gbk"

    page_data = response.text

    parse_data(page_data)

# 解析数据

def parse_data(page_data):

    tree = etree.HTML(page_data)

    list_data_li = tree.xpath('//div[@class="slist"]/ul/li')

    # print(list_data)

    # 用来存放解析到的图片地址

    datas = []

    # 进行遍历列表

    for li in list_data_li:

        # 拼接完整的图片地址

        li_picture = 'https://pic.netbian.com' + li.xpath('./a/img/@src')[0]

        #解析图片名字

        pic_name = li.xpath('./a/b/text()')[0]

        dic = {

            'title': pic_name,

            'url': li_picture

        }

        datas.append(dic)

    return downloadPic(datas)

# 下载图片，持久化存储

def downloadPic(datas):

    if not os.path.exists('./IMG'):

        os.mkdir('IMG')

    for i in datas:

        # 图片名字

        title = i['title']

        # 图片地址

        url = i['url']

        # print(url,title)

        response = requests.get(url=url, headers=headers)

        response.encoding = "gbk"

        # 由于是图片所以响应的应该是二进制格式

        page_content = response.content

        # 持久化存储

        with open('IMG/' + title + '.jpg', 'wb') as fp:

            print(f'正在下载:{title}.jpg')

            fp.write(page_content)

    print('下载完毕！')

if __name__ == "__main__":

    # 先搞定第一页的数据

    print('------------------正在准备下载第 1 页----------------"')

    page_text('https://pic.netbian.com/4kdongman/')

    # 实现分页操作，下载多页数据

    ensure =input('第一张页面已经下载完了，是否继续下载呢\n'

                    '继续请输入y，取消请输入n：')

    if ensure == 'y' or 'Y':

        page_num =int(input('您想要下载到第几页数呢：'))

        for i in range(2, page_num + 1):

            print("------------------正在准备下载第 %d 页----------------"%i)

            page_text('https://pic.netbian.com/4kdongman/index_{}.html'.format(i))

    else:

        print('您的服务到此结束')

        exit()

Python爬虫爬取彼岸网4K Picture的更多相关文章

Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫:爬取慕课网视频
前段时间安装了一个慕课网app,发现不用注册就可以在线看其中的视频,就有了想爬取其中的视频,用来在电脑上学习.决定花两天时间用学了一段时间的python做一做.(我的新书<Python爬虫开发与 ...
python爬虫爬取赶集网数据
一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider patubole patubole.com 三.利用chrome浏览器 ...
Python爬虫爬取百合网的女人们和男人们
学Python也有段时间了,目前学到了Python的类.个人感觉Python的类不应称之为类,而应称之为数据类型,只是数据类型而已!只是数据类型而已!只是数据类型而已!重要的事情说三篇. 据书上说一个 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...

随机推荐

2020年12月-第01阶段-前端基础-HTML CSS 项目阶段(三)
品优购项目(三) 1. 首页制作 1). 楼层区 floor 注意这个floor 一个大盒子包含, 不要给高度,内容有多少,算多少 2). 家用电器模块这个模块简单不需要写样式版心居中对齐 ...
Redis基本数据结构ZipList
为什么要有ziplist 有两点原因: 普通的双向链表,会有两个指针,在存储数据很小的情况下,我们存储的实际数据的大小可能还没有指针占用的内存大,是不是有点得不偿失?而且Redis是基于内存的,而且是 ...
第六章：Django 综合篇 - 13：发送邮件
在Python中已经内置了一个smtp邮件发送模块,Django在此基础上进行了简单地封装,让我们在Django环境中可以更方便更灵活的发送邮件. 所有的功能都在django.core.mail中. ...
Elasticsearch：Split index API - 把一个大的索引分拆成更多分片
文章转载自:https://blog.csdn.net/UbuntuTouch/article/details/108960950
4_爬NMPA药监总局_动态加载_传ID
http://scxk.nmpa.gov.cn:81/xk/ import requests url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAc ...
SQL日期查询语句
--查询当天(1: select * from ShopOrder where datediff(day,ordTime,getdate()-1)=0 --查询当天(2:select * from i ...
JavaScript之无题之让人烦躁的模块化
我怎么记得我好像写过相关类型的文章,但是我找遍了我的博客没有-那就再写一遍吧,其实模块化的核心内容也算不上是复杂,只不过需要整理一下,规划一下罢了.嘻嘻. 开始写标题的时候我就在纠结一件事情,就是,先 ...
PHP全栈开发（七）：PHP与MySQL存储交互(1.连接、创建数据库；创建数据表)
在Linux服务器中可以使用命令 mysqladmin -u root password beijing2007; 来修改MySQL的root用户的密码. 但是在我们自己安装了wampserver的电 ...
面试突击91：MD5 加密安全吗？
MD5 是 Message Digest Algorithm 的缩写,译为信息摘要算法,它是 Java 语言中使用很广泛的一种加密算法.MD5 可以将任意字符串,通过不可逆的字符串变换算法,生成一个唯 ...
【算法训练营day8】LeetCode344. 反转字符串 LeetCode541. 反转字符串II 剑指Offer05. 替换空格 LeetCode151. 翻转字符串里的单词剑指Offer58-II. 左旋转字符串
[算法训练营day8]LeetCode344. 反转字符串 LeetCode541. 反转字符串II 剑指Offer05. 替换空格 LeetCode151. 翻转字符串里的单词剑指Offer58- ...

Python爬虫爬取彼岸网4K Picture

Python爬虫爬取彼岸网4K Picture的更多相关文章

随机推荐

热门专题