简单的python爬虫教程：批量爬取图片

python编程语言，可以说是新型语言，也是这两年来发展比较快的一种语言，而且不管是少儿还是成年人都可以学习这个新型编程语言，今天南京小码王python培训机构变为大家分享了一个python爬虫教程。

　　网络爬虫，又被称为网页蜘蛛、网络机器人，爬虫分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、Deep Web爬虫这四种。“虫如其名”，爬虫并不是一种我们熟知的无脊椎动物中的节肢动物，而是一类计算器程序或脚本，该程序能够自动爬取万维网中的信息，并能够按照一定的要求加工这些信息。

　　c/c++、java、python、php等语言都可以用来写爬虫程序，但总的来讲，目前大多数开发人员都会选择python、php等语言进行开发爬虫程序，所以今天将使用python教大家制作一个非常简单实用的爬虫程序。

　　爬虫原理

　　当我们在网络中寻找我们需要的信息时，一般都会通过浏览器进行操作，浏览器会将我们的请求发送给存放信息的服务器，服务器收到发过来的请求之后会把请求的数据返回给浏览器。

　　形象一点讲，浏览器就相当于我们人类的翻译官，将我们的人类语言翻译给服务器听，服务器听懂之后就开始执行我们的命令，然后将结果说给浏览器听，浏览器再将结果翻译给我们人类。所以我们的爬虫就是通过不断地模仿浏览器发出的指令，让服务器不断地执行相应的命令，此时服务器并不知道发送命令的是人类还是爬虫，因为服务器只能听得懂浏览器“语言”。

　　为什么要这样呢？我们人类自己发出命令不好吗？为什么要让机器代劳呢？举个例子：例如你正在做人工智能中的图片识别，这将需要到很多训练数据——图片，你总不能手动地一个个地将图片下载下来吧？这时候爬虫的作用就来了！

　　python爬虫原理

　　举个例子，我们现在想要批量抓取猫的图片用于猫狗分类模型训练，聪明伶俐的选择用python去代替手动下载猫、狗图片这个枯燥乏味的过程。

　　在python中，我们可以使用requests.get(https://www.jkys120.com/)向目标地址发起请求，在这之后服务器会返回一些数据，在这些数据里面就有猫、狗图片的存放地址，我们需要将图片地址和HTML标签以及其他无用信息区分开来，所以将使用到正则化的方法，在这里可以使用re库，这个库自带一些正则化方法。

　　最后我们需要将指定url中的文件下载到电脑中，这将用到urllib库中的request.urlretrieve()方法。

　　代码教程

　　首先按照惯例我们先把将要使用到的库导入到py文件中。

　　import requestsimport jsonimport urllibimport re

　　然后开始编写我们的爬取程序，这里以百度图片为例（请求地址在地址栏上，区别只是在word关键字上），程序详解在下面的注释当中。

　　requests_content的text属性就是服务器返回的文本数据，里面包含了一些HTML标签和JavaScript脚本代码。

　　这是我们将使用正则化方法来把图片地址提取出来。

　　最后将url中的图片文件下载到电脑上。

　　运行结果

　　在这里批量下载了一些电脑壁纸，情况如何一起来看看吧！

简单的python爬虫教程：批量爬取图片的更多相关文章

Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
Python爬虫学习 - day1 - 爬取图片
利用Python完成简单的图片爬取最近学习到了爬虫,瞬时觉得很高大上,想取什么就取什么,感觉要上天.这里分享一个简单的爬取汽车之家文章列表的图片教程,供大家学习. 需要的知识点储备本次爬虫脚本依赖 ...
python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提升爬取效率,请求传参(meta),五大核心组件,中间件
# settings 配置 UA USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, l ...
Python爬虫教程-00-写在前面
鉴于好多人想学Python爬虫,缺没有简单易学的教程,我将在CSDN和大家分享Python爬虫的学习笔记,不定期更新基础要求 Python 基础知识 Python 的基础知识,大家可以去菜鸟教程进行 ...
Python爬虫教程-01-爬虫介绍
Spider-01-爬虫介绍 Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求爬虫准备工作参考资料精通Python爬虫框架Scrap ...
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)（上）
Python爬虫教程-12-爬虫使用cookie(上) 爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cooki ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
Python爬虫教程-34-分布式爬虫介绍
Python爬虫教程-34-分布式爬虫介绍分布式爬虫在实际应用中还算是多的,本篇简单介绍一下分布式爬虫什么是分布式爬虫分布式爬虫就是多台计算机上都安装爬虫程序,重点是联合采集.单机爬虫就是只在一 ...

随机推荐

LeetCode 990. Satisfiability of Equality Equations
原题链接在这里:https://leetcode.com/problems/satisfiability-of-equality-equations/ 题目: Given an array equat ...
elasticsearch安装和部署
1.可以在官网上下载不同版本的es,官网地址为:https://www.elastic.co/cn/downloads/past-releases#elasticsearch 2.解压elastics ...
Window IDEA开发工具杀死指定端口 cmd 命令行 taskkill
Windows平台两步方法 : 1 查询端口占用,2 强行杀死进程 netstat -aon|findstr "8080" taskkill /pid 4136-t -f ...
ipcs
用于报告Linux中进程间通信设施的状态,显示的信息包括消息列表.共享内存和信号量的信息
LOJ6102「2017 山东二轮集训 Day1」第三题【min-max容斥，反演】
题目描述:输入一个大小为$n$的集合$S$,求$\text{lcm}_{k\in S}f_k$,其中$f_k$是第$$个Fibonacci数. 数据范围:\(n\le 5\times ...
洛谷P1560 蜗牛的旅行
题目搜索,注意判断特殊情况,并且区分开什么时候转弯什么时候停止.然后转弯的时候更是要注意是否会进入障碍. #include <bits/stdc++.h> using namespace ...
mysql find_in_set 函数使用方法
mysql> select * from user; +------+----------+-----------+ | id | name | address | +------+------ ...
HDU-5215 Cycle(边双/判奇偶环)
题目 HDU-5215 Cycle 网上那个啥dfs的垃圾做法随便弄组数据已经hack掉了做法纯奇环偶环通过dfs树上,染色判断(由于偶环可能有两个奇环,通过一点相交,dfs树上并不能判完) 两环 ...
ICEM-三棱锥的一种画法
原视频下载地址:https://pan.baidu.com/s/1c4BAqy 密码: nqb4
#C++初学记录ACM补题(D. Candies!）前缀和运算。
D - Candies! Consider a sequence of digits of length [a1,a2,-,a]. We perform the following operati ...

简单的python爬虫教程：批量爬取图片

简单的python爬虫教程：批量爬取图片的更多相关文章

随机推荐

热门专题