python爬虫实践(一)
最近在学习爬虫,学完后想实践一下,所以现在准备爬取校花网的一部分图片
第一步,导入需要的库
from urllib import request #用于处理request请求和获得响应 from urllib import error #异常处理 from lxml import etree #用于解析html
第二步,进行简单的身份伪装
def setting_User_Agent(url): ''' 有的网站会限制爬虫访问,所以可以通过 设置User-Agent来伪装成一个浏览器 ''' headers = {} headers['User-Agent'] = 'Mozilla/5.0 (iPad; CPU OS 5_0 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9A334 Safari/7534.48.3' return request.Request(url, headers=headers)
第三步,观察我们想要访问的网站,并得到前十个页面的url
这是第一页的url:http://www.xiaohuar.com/list-1-0.html
这是第二页的url:http://www.xiaohuar.com/list-1-1.html
这是第四个页面的url:http://www.xiaohuar.com/list-1-3.html
所以我们可以通过一个函数来获得前十页的url
def getPageUrl(): ''' 获得前十页的url ''' url = "http://www.xiaohuar.com/list-1-" pagrUrlList = [] for i in range(10): pageUrl = url + str(i) + ".html" pagrUrlList.append(pageUrl) return pagrUrlList
第四步、假如我们已经知道了一张图片的名称和路径,那我们可以编写代码来实现自动根据路径下载图片,代码如下
def getIMg(name,imgUrl): # 文件的路径和文件名称 name = "D:/xiaohua/" + name + ".jpg" #发送请求并获得响应 try: rsp = request.urlopen(imgUrl) #把文件写进指定路径 with open(name,"wb") as f: f.write(rsp.read()) except: print("发生了一个错误")
第五步、查看网页布局
当进入网页后,按F12或者Fn + F12,会看到如下界面
当你鼠标放在右边的一个div上时,左边页面颜色会发生变化,打开你想要查看的div,一直往下找,直到出现下图
第六步:
1、我们现在知道了,图片信息就在<img>标签下,alt的属性值就是名字,src的属性值就是图片的地址,所以接下来编写代码获取名字和图片地址
2、获得的名字和图片地址传入getImg()函数,代码如下
def getImgUrl(url): # 1、进行User-Agent的伪装 #url = setting_User_Agent(url) #2、发起请求 try: rsp = request.urlopen(url) except: print("发生错误") # 3、返回的是一个Rs类型的数据,需要转化为bytes类型 html = rsp.read() # 4、把bytes类型的数据放入lxml的etree中,方便用xpath解析 tree = etree.HTML(html) # 5、用xpath解析html aList = tree.xpath('//div[@class = "img"]/a') ''' aList = tree.xpath('//div[@class = "img"]/a') 此代码的意思是:首先找到一个有class属性,并且属性值为img 的div标签,再获得该标签下的a标签 ''' # 6 、获得a标签下的img标签的alt属性和src属性,同样用xpath for a in aList: name = str(a.xpath('./img/@alt')) imgUrl = str(a.xpath('./img/@src')) ''' 此时获得的name和imgUrl并不是标准的格式,而是 ['*****************']这样的,所以需要用字符串截取 ''' name = name[2:-2] imgUrl = imgUrl[2:-2] ''' 该网站的图片标准链接是以http开头的,而获取的imgUrl有的缺失了 一部分,所以加一个判断,如果没有,就加上 ''' t = imgUrl[:4] if t == "http": imgUrl = imgUrl else: imgUrl = "http://www.xiaohuar.com" + imgUrl # 通过nema 和 imgUrl下载图片 getIMg(name, imgUrl) return None
现在,该写的差不多已经写完了,把代码整合一下:
if __name__ == '__main__': pageUrls = getPageUrl() for pageUrl in pageUrls: getImg(pageUrl)
代码执行前
执行后
整个爬取过程90秒,爬取了几百张图片,比下载快多了
总结:
我的代码能力和逻辑思维还不够,代码不够简洁,写文件那块做的不好,非常耗费资源,
可改进的地方:
1、相同功能的代码可以提取出来单独写一个函数
2、异常处理没写好,可以处理的更加完善
3、频繁的打开和关闭文件很耗资源,可以在程序开始时打开文件,程序结束时关闭文件
完整的代码如下:
from urllib import request #用于处理request请求和获得响应 from urllib import error #异常处理 from lxml import etree #用于解析html def setting_User_Agent(url): ''' 有的网站会限制爬虫访问,所以可以通过 设置User-Agent来伪装成一个浏览器 ''' headers = {} headers['User-Agent'] = 'Mozilla/5.0 (iPad; CPU OS 5_0 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9A334 Safari/7534.48.3' return request.Request(url, headers=headers) def getPageUrl(): ''' 获得前十页的url ''' url = "http://www.xiaohuar.com/list-1-" pagrUrlList = [] for i in range(10): pageUrl = url + str(i) + ".html" pagrUrlList.append(pageUrl) return pagrUrlList def getIMg(name,imgUrl):# 根据名字和图片链接下载图片 # 文件的路径和文件名称 name = "D:/xiaohua/" + name + ".jpg" #发送请求并获得响应 try: rsp = request.urlopen(imgUrl) #把文件写进指定路径 with open(name,"wb") as f: f.write(rsp.read()) except: print("发生了一个错误") return None def getImg(url): # 1、进行User-Agent的伪装 url = setting_User_Agent(url) #2、发起请求 try: rsp = request.urlopen(url) except: print("发生错误") # 3、返回的是一个Response类型的数据,需要转化为bytes类型 html = rsp.read() # 4、把bytes类型的数据放入lxml的etree中,方便用xpath解析 tree = etree.HTML(html) # 5、用xpath解析html aList = tree.xpath('//div[@class = "img"]/a') ''' aList = tree.xpath('//div[@class = "img"]/a') 此代码的意思是:首先找到一个有class属性,并且属性值为img 的div标签,再获得该标签下的a标签 ''' # 6 、获得a标签下的img标签的alt属性和src属性,同样用xpath for a in aList: name = str(a.xpath('./img/@alt')) imgUrl = str(a.xpath('./img/@src')) ''' 此时获得的name和imgUrl并不是标准的格式,而是 ['*****************']这样的,所以需要用字符串截取 ''' name = name[2:-2] imgUrl = imgUrl[2:-2] ''' 该网站的图片标准链接是以http开头的,而获取的imgUrl有的缺失了 一部分,所以加一个判断,如果没有,就加上 ''' t = imgUrl[:4] if t == "http": imgUrl = imgUrl else: imgUrl = "http://www.xiaohuar.com" + imgUrl # 通过nema 和 imgUrl下载图片 getIMg(name, imgUrl) return None if __name__ == '__main__': pageUrls = getPageUrl() for pageUrl in pageUrls: getImg(pageUrl)
python爬虫实践(一)的更多相关文章
- python爬虫实践教学
i春秋作家:Mochazz 一.前言 这篇文章之前是给新人培训时用的,大家觉的挺好理解的,所以就分享出来,与大家一起学习.如果你学过一些python,想用它做些什么又没有方向,不妨试试完成下面几个案例 ...
- python爬虫实践
模拟登陆与文件下载 爬取http://moodle.tipdm.com上面的视频并下载 模拟登陆 由于泰迪杯网站问题,测试之后发现无法用正常的账号密码登陆,这里会使用访客账号登陆. 我们先打开泰迪杯的 ...
- Python爬虫实践 -- 记录我的第二只爬虫
1.爬虫基本原理 我们爬取中国电影最受欢迎的影片<红海行动>的相关信息.其实,爬虫获取网页信息和人工获取信息,原理基本是一致的. 人工操作步骤: 1. 获取电影信息的页面 2. 定位(找到 ...
- python爬虫实践(二)——爬取张艺谋导演的电影《影》的豆瓣影评并进行简单分析
学了爬虫之后,都只是爬取一些简单的小页面,觉得没意思,所以我现在准备爬取一下豆瓣上张艺谋导演的“影”的短评,存入数据库,并进行简单的分析和数据可视化,因为用到的只是比较多,所以写一篇博客当做笔记. 第 ...
- Python爬虫实践 -- 记录我的第一只爬虫
一.环境配置 1. 下载安装 python3 .(或者安装 Anaconda) 2. 安装requests和lxml 进入到 pip 目录,CMD --> C:\Python\Scripts,输 ...
- 《转载》python爬虫实践之模拟登录
有些网站设置了权限,只有在登录了之后才能爬取网站的内容,如何模拟登录,目前的方法主要是利用浏览器cookie模拟登录. 浏览器访问服务器的过程 在用户访问网页时,不论是通过URL输入域名或IP ...
- python爬虫实践--求职Top10城市
前言 从智联招聘爬取相关信息后,我们关心的是如何对内容进行分析,获取用用的信息.本次以上篇文章“5分钟掌握智联招聘网站爬取并保存到MongoDB数据库”中爬取的数据为基础,分析关键词为“python” ...
- Python爬虫实践~BeautifulSoup+urllib+Flask实现静态网页的爬取
爬取的网站类型: 论坛类网站类型 涉及主要的第三方模块: BeautifulSoup:解析.遍历页面 urllib:处理URL请求 Flask:简易的WEB框架 介绍: 本次主要使用urllib获取网 ...
- python爬虫实践——爬取“梨视频”
一.爬虫的基本过程: 1.发送请求(请求库:request,selenium) 2.获取响应数据()服务器返回 3.解析并提取数据(解析库:re,BeautifulSoup,Xpath) 4.保存数据 ...
随机推荐
- PHP中的数组
一.数组的基础 php数组的分类 按照下标的不同,php分为关联数组与索引数组: 索引数组:下标从零依次增长(以前那种) 关联数组:下标为字符串格式,每个下标字符串与数组的值一一关联对应(有点儿像对象 ...
- Arduino常用的数据类型以及转换
常用的数据类型有布尔类型.字符型.字节型.整型.无符号整型.长整型.无符号长整型.浮点型.双精度浮点型等 布尔类型bollean: 布尔值是一种逻辑值,其结果只能为真(true)或者假(false). ...
- js原型杂谈
1.通俗点讲原型对象就是内存中为其他对象提供共享属性和方法的对象. 2.所有原型对象都具备一个constructor属性,这个属性是一个指向包含prototype属性函数的一个指针(敢不敢再绕点!). ...
- Jquery笔记和ajax笔记
Jquery笔记:jQuery是一个JavaScript函数库,专为事件处理设计 1.jQuery的引入 <script text="type/javascript" src ...
- # 20175333曹雅坤《Java程序设计》第四周学习总结
教材学习内容总结 第五章:子类与继承 5.1子类与父类:关键字extends 5.2子类的继承性:如果子类与父类在一个包中,除了private其他都可以继承:如果不在一个包中,则private和友好都 ...
- [Kubernetes]关于 Kubernetes ,你想要的,都在这儿了
陆陆续续,关于 Kubernetes 写了有 20+ 篇文章了. 今天这篇文章来一个整合,从实践到理论,可以按需查看(我是按照博客发表时间来排序的,如果后续有想要更新的内容,也会及时更新到这篇文章中) ...
- Win 10 系统下研华采集卡Advantech Navi SDK虚拟demo设备安装方法
研华的DAQNavi是其采集卡设备的.net编程SDK,安装了其通讯工具Navigator后,可以添加虚拟采集卡 demo device. 在Win10上,执行添加操作时,可能会出现添加失败,这是由于 ...
- nginx conf_ctx ****
http://blog.chinaunix.net/uid-27767798-id-3840094.html 断断续续看完了,还是没有全部清晰
- Django ---- 框架简介
MVC框架和MTV框架 mvc,全名是 Model View Controller, 是软件工程中的一种软件架构模式,把软件系统分为三个基本部分:模型(Model).视图(View)和控制器(Cont ...
- C语言作业3
一.实验目的与要求 1.用for语句实现循环 (1)求数列前n项和 掌握for语句实现循环的方法 (2)求数列前n项和 掌握for语句实现循环的方法 循环嵌套的使用 2.用while循环语句实现循环 ...