简单的python爬虫教程：批量爬取图片

python编程语言，可以说是新型语言，也是这两年来发展比较快的一种语言，而且不管是少儿还是成年人都可以学习这个新型编程语言，今天南京小码王python培训机构变为大家分享了一个python爬虫教程。

　　网络爬虫，又被称为网页蜘蛛、网络机器人，爬虫分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、Deep Web爬虫这四种。“虫如其名”，爬虫并不是一种我们熟知的无脊椎动物中的节肢动物，而是一类计算器程序或脚本，该程序能够自动爬取万维网中的信息，并能够按照一定的要求加工这些信息。

　　c/c++、java、python、php等语言都可以用来写爬虫程序，但总的来讲，目前大多数开发人员都会选择python、php等语言进行开发爬虫程序，所以今天将使用python教大家制作一个非常简单实用的爬虫程序。

　　爬虫原理

　　当我们在网络中寻找我们需要的信息时，一般都会通过浏览器进行操作，浏览器会将我们的请求发送给存放信息的服务器，服务器收到发过来的请求之后会把请求的数据返回给浏览器。

　　形象一点讲，浏览器就相当于我们人类的翻译官，将我们的人类语言翻译给服务器听，服务器听懂之后就开始执行我们的命令，然后将结果说给浏览器听，浏览器再将结果翻译给我们人类。所以我们的爬虫就是通过不断地模仿浏览器发出的指令，让服务器不断地执行相应的命令，此时服务器并不知道发送命令的是人类还是爬虫，因为服务器只能听得懂浏览器“语言”。

　　为什么要这样呢？我们人类自己发出命令不好吗？为什么要让机器代劳呢？举个例子：例如你正在做人工智能中的图片识别，这将需要到很多训练数据——图片，你总不能手动地一个个地将图片下载下来吧？这时候爬虫的作用就来了！

　　python爬虫原理

　　举个例子，我们现在想要批量抓取猫的图片用于猫狗分类模型训练，聪明伶俐的选择用python去代替手动下载猫、狗图片这个枯燥乏味的过程。

　　在python中，我们可以使用requests.get(https://www.jkys120.com/)向目标地址发起请求，在这之后服务器会返回一些数据，在这些数据里面就有猫、狗图片的存放地址，我们需要将图片地址和HTML标签以及其他无用信息区分开来，所以将使用到正则化的方法，在这里可以使用re库，这个库自带一些正则化方法。

　　最后我们需要将指定url中的文件下载到电脑中，这将用到urllib库中的request.urlretrieve()方法。

　　代码教程

　　首先按照惯例我们先把将要使用到的库导入到py文件中。

　　import requestsimport jsonimport urllibimport re

　　然后开始编写我们的爬取程序，这里以百度图片为例（请求地址在地址栏上，区别只是在word关键字上），程序详解在下面的注释当中。

　　requests_content的text属性就是服务器返回的文本数据，里面包含了一些HTML标签和JavaScript脚本代码。

　　这是我们将使用正则化方法来把图片地址提取出来。

　　最后将url中的图片文件下载到电脑上。

　　运行结果

　　在这里批量下载了一些电脑壁纸，情况如何一起来看看吧！

简单的python爬虫教程：批量爬取图片的更多相关文章

Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
Python爬虫学习 - day1 - 爬取图片
利用Python完成简单的图片爬取最近学习到了爬虫,瞬时觉得很高大上,想取什么就取什么,感觉要上天.这里分享一个简单的爬取汽车之家文章列表的图片教程,供大家学习. 需要的知识点储备本次爬虫脚本依赖 ...
python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提升爬取效率,请求传参(meta),五大核心组件,中间件
# settings 配置 UA USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, l ...
Python爬虫教程-00-写在前面
鉴于好多人想学Python爬虫,缺没有简单易学的教程,我将在CSDN和大家分享Python爬虫的学习笔记,不定期更新基础要求 Python 基础知识 Python 的基础知识,大家可以去菜鸟教程进行 ...
Python爬虫教程-01-爬虫介绍
Spider-01-爬虫介绍 Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求爬虫准备工作参考资料精通Python爬虫框架Scrap ...
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)（上）
Python爬虫教程-12-爬虫使用cookie(上) 爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cooki ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
Python爬虫教程-34-分布式爬虫介绍
Python爬虫教程-34-分布式爬虫介绍分布式爬虫在实际应用中还算是多的,本篇简单介绍一下分布式爬虫什么是分布式爬虫分布式爬虫就是多台计算机上都安装爬虫程序,重点是联合采集.单机爬虫就是只在一 ...

随机推荐

shell脚本awk的基本用法
AWK 1 AWK 2 3 linux取IP地址 4 5 ifconfig | grep -w inet | sed -n '1p' | awk '{print $2}' 6 7 eg: 8 9 aw ...
oracle的一些状态查询
在AD中设置漫游配置文件与文件夹重定向
在域环境下,域用户可以在域中的任意一台客户端计算机上登录,由于普通域用户的权限比较低,在大多数情况下只能对自己的用户配置文件具有完全控制权限,因而大多数域用户都是将数据直接保存在用户配置文件中.用户配 ...
USACO 2009 Open 干草塔 Tower of Hay
USACO 2009 Open 干草塔 Tower of Hay Description 为了调整电灯亮度,贝西要用干草包堆出一座塔,然后爬到牛棚顶去把灯泡换掉.干草包会从传送带上运来,共会出现N包 ...
mysql max()函数，min()函数,获取最大值以及最小值
mysql> select * from table1; +----------+------------+-----+---------------------+ | name_new | t ...
C++2.0新特性(七)——<Smart Pointer(智能指针)之weak_ptr>
一.weak_ptr出现的意义上一节提到过shared_ptr,它会自动释放“不再需要使用的对象”的相应的资源,但是它不是万能的,在某些时候(比如说循环引用),它会显得力不从心,这就是weak_pt ...
作业——11 分布式并行计算MapReduce
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319 1.用自己的话阐明Hadoop平台上HDFS和MapRedu ...
Python语言编写BP神经网络
Python语言编写BP神经网络 2016年10月31日 16:42:44 ldy944758217 阅读数 3135 人工神经网络是一种经典的机器学习模型,随着深度学习的发展神经网络模型日益完善 ...
canvas api 速记
基本骨骼 <canvas id="canvas" width=1000 height=1000 style="border: 1px black dotted&qu ...
spring入门篇

简单的python爬虫教程：批量爬取图片

简单的python爬虫教程：批量爬取图片的更多相关文章

随机推荐

热门专题