前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun

爬虫是什么？

网络爬虫，也叫网络蜘蛛（Web Spider）。它根据网页地址（URL）爬取网页内容，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。说简单点就是模拟人去获得网页上的资源。网页地址（URL）就是我们在浏览器中输入的网站链接，它的专业术语是：统一资源定位符。

在讲解爬虫内容之前，我们来讲一下抓包过程（packet capture）：•在此我们以这个壁纸网站为例URL：http://pic.netbian.com/•这是一个4k高清壁纸网站，里面的资源很多,我们用浏览器打开url，进入页面后，在键盘上按下F12会打开开发者工具，如图：

这这里我们会看到一大堆代码，这些代码就是HTML，HTML就像是我们人的身体，它负责这个网页上会出现什么东西，就比如身边负责我们的样貌。通过查找和调试，可以找出我们所需要的数据，比如这里我们需要找到图片的下载地址，为什么要找图片下载地址呢？因为在这个网站上下载图片需要登入账号，而且每个账号每天只能下载一次。但是我们可以通过爬虫，突破限制，从而能够下载图片。

我们点击开发者工作最左边的箭头，然后鼠标找点击图片，我们可以看到开发者工具那里的代码指向了图片的位置，我们可以从这里发现这里这个位置上面有一个a href="/tupian/25761.html'的标签,可以看出这个就是图片的地址，该地址是：URL+/tupian/25761.html

我们是去试一下，在浏览器地址栏输入该地址-回车，可以看到图片出现来，我们猜想的不错，图片的地址就是：URL+href后面的链接。

接下来我们就可以进行对图片的爬取了！

Python和第三方模块的安装

在学习爬虫前我们去要去安装Python[1],找寻安装自己电脑所对应的的Python版本，安装完成以后，按下win+R打开cmd进入DOS窗口输入下面的命令进行requests模块和lxml模块的安装：

在进入正题之前，我先来讲解下 requests 库常用的方法：

lxml是干什么的？简单的说来，lxml是帮助我们解析HTML、XML文件，快速定位，搜索、获取特定内容的Python模块。lxml也是对网页内容解析的一个模块。

Python代码

请大家在爬取图片的过程中，尽量少下载点图片，不然其服务器会崩溃的！•代码的解释，我都在源码里注释了，大家照着注释应该都能看懂，明白！

上源码！

运行程序

输入页数，我这里输入的是100，意思就是爬取100页的所以图片并全部下载。

接着我们再来我们我爬取完后以后的结果，如图：

可以看到这里是全部都下载成功了哦！

2020年最新Python教程：

如果你处于想学Python或者正在学习Python，Python的教程不少了吧，但是是最新的吗？

说不定你学了可能是两年前人家就学过的内容，在这小编分享一波2020最新的Python教程。

以上这些教程小编已经为大家打包准备好了，希望对正在学习的你有所帮助！

获取方式，私信小编 “ 资料 ”，即可免费获取哦！

别人用钱，而我用python爬虫爬取了一年的4K高清壁纸的更多相关文章

Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...

随机推荐

【docker Elasticsearch】Rest风格的分布式开源搜索和分析引擎Elasticsearch初体验
概述: Elasticsearch 是一个分布式.可扩展.实时的搜索与数据分析引擎. 它能从项目一开始就赋予你的数据以搜索.分析和探索的能力,这是通常没有预料到的. 它存在还因为原始数据如果只是躺在磁 ...
java实现小功能
// 自写逻辑,遍历所有匹配的子字符串坐标 private static void forMatchIdx(String str1, String str2) { char[] arr1 = str1 ...
关于js中iframe 中 location.href的用法
关于js中"window.location.href"."location.href"."parent.location.href".&qu ...
[LeetCode] 936. Stamping The Sequence 戳印序列
You want to form a `target` string of lowercase letters. At the beginning, your sequence is target.l ...
JavaScript DOM 事件模型
JavaScript DOM 事件模型 JavaScript 是基于面向对象和事件驱动的一门语言,事件模型是 DOM 中至关重要的内容,理解事件驱动机制.事件反馈.事件冒泡.事件捕获以及事件委托能帮助 ...
Api接口幂等设计
1,Api接口幂等设计,也就是要保证数据的唯一性,不允许有重复. 例如:rpc 远程调用,因为网络延迟,出现了调用了2次的情况. 表单连续点击,出现了重复提交. 接口暴露之后,会被模拟请求工具(Jem ...
Unable to locate JAR/zip in file system as specified by the driver definitio
把之前的驱动包删掉,然后把你的驱动包导入就行了现在OK键就算正常了
python使用镜像源安装库
pip install django -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 豆瓣 :http://pypi.d ...
CSS躬行记（2）——伪类和伪元素
一.伪类选择器伪选择器弥补了常规选择器的不足,能够实现一些特殊情况下的样式,例如在鼠标悬停时或只给字符串中的第一个字符指定样式.与类选择器类似,可以从HTML元素的class属性中查看到,但伪选择器 ...
并发——抽象队列同步器AQS的实现原理
一.前言这段时间在研究Java并发相关的内容,一段时间下来算是小有收获了.ReentrantLock是Java并发中的重要部分,所以也是我的首要研究对象,在学习它的过程中,我发现它是基于抽象队列 ...

别人用钱，而我用python爬虫爬取了一年的4K高清壁纸