测试开发Python培训：实现屌丝的黄色图片收藏愿望（小插曲）

男学员在学习python的自动化过程中对于爬虫很感兴趣，有些学员就想能收藏一些情色图片，供自己欣赏。作为讲师只能是满足愿望，帮助大家实现对美的追求，http://wanimal.lofter.com/?page=1，~_~

第一步：分析请求页面

我们在上课的时候教给大家firefox，来分析请求页的html源代码，我们请求页面发现规律页面是http://wanimal.lofter.com/?page=2，只要替换掉数字2,变成数字就可以翻页，然后每一个页面里的图片地址发现规律如下
<span style="font-family:Microsoft YaHei;font-size:18px;"><div class="imgwrapper">
　　　　　　　　<a href="http://wanimal.lofter.com/post/17d0d7_2d2beb5">
　　　　　　　　<img src="http://imglf2.ph.126.net/fcnHKZzj5EZWYUde3aSSCQ==/6619502002886359949.jpg" alt="" style="">
　　　　　　　　</a>
　　　</div></span>

第二步：实现

import requests#首先importrequests和shutils
import shutil
from bs4 import BeautifulSoup#再import我们刚才说的BS

def download(page):#这个函数用来寻找，下载，保存图片
　　url = "http://wanimal.lofter.com?page=%d" % page#这里是写好目标地址的url并方便后边循环page（把所有页面都下载了）

　　html = requests.get(url).content#这里是通过requests来获得整个网页的源代码并整理
　　photos = BeautifulSoup(html).find_all(class_="imgwrapper")#用BeautifulSoup解析html，然后使用BS自带的函数，找到所有class为imgwrapper的项存在一个list里面
　　for photo in photos:
　　　　img_url = photo.img["src"]#这里是获得上面每一条里面的img（有这个方法）的“src”里存储的字符串（也就是图片的真实地址）
　　　　# print photo, img_url
　　　　img_filename = "img/" + img_url.split("/")[-1]#使用切片工具切出每一个文件名
　　　　img = requests.get(img_url, stream=True)#保存了
　　　　if requests.get(img_url).status_code == 200:
　　　　　　with open(img_filename, 'wb') as f:
　　　　　　　　shutil.copyfileobj(img.raw, f)
　　　　　　print img_filename,"saved."#完成了叫一声

if __name__ == '__main__':
for page in xrange(1,33):
download(page)</span>

测试开发Python培训：实现屌丝的黄色图片收藏愿望（小插曲）的更多相关文章

测试开发Python培训：实现屌丝的图片收藏愿望（小插曲）
测试开发Python培训:实现屌丝的图片收藏愿望(小插曲) 男学员在学习python的自动化过程中对于爬虫很感兴趣,有些学员就想能收藏一些图片,供自己欣赏.作为讲师只能是满足愿望,帮助大家实现对美的追 ...
测试开发Python培训：模拟登录新浪微博-技术篇
测试开发Python培训:模拟登录新浪微博-技术篇一般一个初学者项目的起点就是登陆功能的自动化,而面临的项目不同实现的技术难度是不一样的,poptest在做测试开发培训中更加关注技术难点,掌握技 ...
测试开发Python培训：抓取新浪微博抓取数据-技术篇
测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的se ...
测试开发Python培训：自动发布新浪微博-技术篇
测试开发Python培训:自动发布新浪微博-技术篇在前面我们教大家如何登陆,大家需要先看自动登陆新浪微博(http://www.cnblogs.com/laoli0201/articles/48 ...
测试开发Python培训：抓取新浪微博评论提取目标数据-技术篇
测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇在前面我分享了几个新浪微博的自动化脚本的实现,下面我们继续实现新的需求,功能需求如下: 1,登陆微博 2,抓取评论页内容3,用正则表 ...
《自动化平台测试开发-Python测试开发实战》新书出版了
首先第一本书,当初在百度阅读初步写了个电子版,刚一上线不久即收到了数百位读者朋友阅读收藏购买,于是顺利成章就出版了纸质书. <软件自动化测试开发>认真看过的读者应该都知道,介绍的主要是自 ...
《自动化平台测试开发-Python测试开发实战》第2次印刷
书籍货源比较紧张.紧张啊,如此短的时间,已经第2次印刷.第2次印刷. 第2次印刷. 同时该书已确认与台湾出版社合作翻译成繁体版,甚至有可能与国外出版社合作翻译成英文版. 2018年7月第1次印刷 2 ...
智普教育Python培训之Python开发视频教程网络爬虫实战项目
网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 01.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 02.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Pytho ...
笔试测试开发题三道（python）
笔试遇到的三道测试开发题,虽然都不难,但关键还是思路吧!我想在开发东西的时候应该具备的就是思路,有了思路尝试去写,或查相关文档或代码,在此基础上需要不断调整最终达到需求.思路又是在不断练习中获得的. ...

随机推荐

AMD的cpu如何安装Mac OS
AMD的cpu如何安装Mac OS 经过一个月的折腾,终于成功的安装了自己的Mac系统,并且能够成功的启动.在这里分享一下自己安装的经验. 为了安装方便,有不影响原来的系统的使用 ...
.c与.cpp的区别解析
这几天在练习数据结构等知识的时候,有时遇见文件保存为c后缀则能编译通过,有时又是保存cpp后缀才能通过.对于这个都没能区分清,是自己的基本功问题,于是百度了一下.幸好有许多和我一样有问题的人. 其实简 ...
MASM32快速起步
MASM32是一个免费的软件程序,让您编辑Microsoft宏汇编程序(MASM)代码从一个基本的文本界面.它强调MASM代码各部分以不同的颜色,使其更容易扫描和检测错误.它提供了一个简单的布局程序员 ...
php代码审计－－sql注入
sql注入是web安全中最常见,也是平常中危害最大的漏洞. 最近在学习代码审计,拿自己审核的一段代码做个笔记. 1.sql语句拼接可能引起sql注入很多偷懒的程序员对于没有过滤的参数,直接将其拼接到 ...
2017-2-23 C#基础 for循环
循环语句主要有:for;while;foreach.最常用的是for循环.for循环的四要素:初始条件:循环条件:循环体:状态改变.for循环的顺序是:初始条件--循环条件--循环体--状态改变.br ...
TempDB问题定位与解决
步骤1.TempDB压力诊断等待类型诊断 TempDB的争用压力在等待篇中已经简单介绍,等待的表现为 pagelatch_类等待,等待的资源是 “2: X :X ” tempDB所在磁盘的响应时间 ...
RAC之常用方法-----新手入门
年后换工作新入职,公司开发在使用RAC,之前居然一直没有了解过,独立开发的弊端,信息闭塞,而且自己也懒,这几天看了下RAC,确实很强大有木有. 什么是ARC 简单的说,RAC就是一个第三方库,他可以大 ...
javascript组成概述认识
这里的JavaScript组成概述是说的在浏览器端渲染的JavaScript而不是nodejs js组成概述 js的完整实现是由ECMAscript.DOM.BOM三个部分组成的: -ECMAscri ...
Android学习总结（一）——Activity的基本概念与Activity的生命周期
一.Activity的基本概念 Activity是Android的四大组件之一,它是一种可以包含用户界面的组件,主要用于和用户进行交互,比如打电话,照相,发送邮件,或者显示一个地图!Activity用 ...
c++文件读取（一）---输入类使用和查找当前程序路径
鉴于公司人员流动大,设计一个小的日志定位器,首先要读取日志文件用输入输出流类操作文件比c的stdio更安全和容易,当然任何此类观点都是对大牛除外首先是查找当前文件路径,如果用GetCurrentD ...

测试开发Python培训：实现屌丝的黄色图片收藏愿望（小插曲）

测试开发Python培训：实现屌丝的黄色图片收藏愿望（小插曲）的更多相关文章

随机推荐

热门专题