自学Python九爬虫实战二(美图福利)

　　作为一个新世纪有思想有文化有道德时刻准备着的屌丝男青年，在现在这样一个社会中，心疼我大慢播抵制大百度的前提下，没事儿上上网逛逛YY看看斗鱼翻翻美女图片那是必不可少的，可是美图虽多翻页费劲！今天我们就搞个爬虫把美图都给扒下来！本次实例有2个：煎蛋上的妹子图，某网站的rosi图。我只是一个学习python的菜鸟，技术不可耻，技术是无罪的！！！

　　煎蛋：

　　先说说程序的流程：获取煎蛋妹子图URL，得到网页代码，提取妹子图片地址，访问图片地址并将图片保存到本地。Ready？先让我们看看煎蛋妹子网页：

　　我们得到URL为：http://jandan.net/ooxx/page-1764#comments 1764就是页码，首先我们要得到最新的页码，然后向前寻找，然后得到每页中图片的url。下面我们分析网站代码写出正则表达式！

　　根据之前文章的方法我们写出如下函数getNewPage：

 def __getNewPage(self):

         pageCode = self.Get(self.__Url)

         type = sys.getfilesystemencoding()

         pattern = re.compile(r'<div .*?cp-pagenavi">.*?<span .*?current-comment-page">\[(.*?)\]</span>',re.S)

         newPage = re.search(pattern,pageCode.decode("UTF-8").encode(type))

         print pageCode.decode("UTF-8").encode(type)

         if newPage != None:

             return newPage.group(1)

         return 1500

　　不要问我为什么如果失败返回1500。。。因为煎蛋把1500页之前的图片都给吃了。你也可以返回0。接下来是图片的

 def __getAllPicUrl(self,pageIndex):

         realurl = self.__Url + "page-" + str(pageIndex) + "#comments"

         pageCode = self.Get(realurl)

         type = sys.getfilesystemencoding()

         pattern = re.compile('<p>.*?<a .*?view_img_link">.*?</a>.*?<img src="(.*?)".*?</p>',re.S)

         items = re.findall(pattern,pageCode.decode("UTF-8").encode(type))

         for item in items:

             print item

　　好了，得到了图片地址，接下来就是访问图片地址然后保存图片了：

     def __savePics(self,img_addr,folder):

         for item in img_addr:

             filename = item.split('/')[-1]

             print "正在保存图片：" + filename

             with open(filename,'wb') as file:

                 img = self.Get(item)

                 file.write(img)

　　当你觉得信心满满的时候，一定会有一盆冷水浇到你的头上，毕竟程序就是这样，考验你的耐性，打磨你的自信。你测试了一会儿，然后你发现你重启程序后再也无法获取最新页码，你觉得我什么也没动啊为什么会这样。别着急，我们将得到的网页代码打印出来看看：

　　看到了吧，是服务器感觉你不像浏览器访问的结果把你的ip给屏蔽了。真是给跪了，辛辛苦苦码一年，屏蔽回到解放前！那么这个如何解决呢，答：换ip 找代理。接下来我们要改一下我们的HttpClient.py 将里面的opener设置下代理服务器。具体代理服务器请自行百度之，关键字：http代理。想找到一个合适的代理也不容易自己ie Internet选项挨个试试，测试下网速。

 # -*- coding: utf-8 -*-

 import cookielib, urllib, urllib2, socket

 import zlib,StringIO

 class HttpClient:

   __cookie = cookielib.CookieJar()

   __proxy_handler = urllib2.ProxyHandler({"http" : '42.121.6.80:8080'})#设置代理服务器与端口

   __req = urllib2.build_opener(urllib2.HTTPCookieProcessor(__cookie),__proxy_handler)#生成opener

   __req.addheaders = [

     ('Accept', 'application/javascript, */*;q=0.8'),

     ('User-Agent', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)')

   ]

   urllib2.install_opener(__req)

   def Get(self, url, refer=None):

     try:

       req = urllib2.Request(url)

       #req.add_header('Accept-encoding', 'gzip')

       if not (refer is None):

         req.add_header('Referer', refer)

       response = urllib2.urlopen(req, timeout=120)

       html = response.read()

       #gzipped = response.headers.get('Content-Encoding')

       #if gzipped:

       #    html = zlib.decompress(html, 16+zlib.MAX_WBITS)

       return html

     except urllib2.HTTPError, e:

       return e.read()

     except socket.timeout, e:

       return ''

     except socket.error, e:

       return ''

　　然后，就可以非常愉快的查看图片了。不过用了代理速度好慢。。。可以设置timeout稍微长一点儿，防止图片下载不下来！

　　好了，rosi的下篇文章再放！现在是时候上一波代码了：

 # -*- coding: utf-8 -*-

 import cookielib, urllib, urllib2, socket

 import zlib,StringIO

 class HttpClient:

   __cookie = cookielib.CookieJar()

   __proxy_handler = urllib2.ProxyHandler({"http" : '42.121.6.80:8080'})

   __req = urllib2.build_opener(urllib2.HTTPCookieProcessor(__cookie),__proxy_handler)

   __req.addheaders = [

     ('Accept', 'application/javascript, */*;q=0.8'),

     ('User-Agent', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)')

   ]

   urllib2.install_opener(__req)

   def Get(self, url, refer=None):

     try:

       req = urllib2.Request(url)

       req.add_header('Accept-encoding', 'gzip')

       if not (refer is None):

         req.add_header('Referer', refer)

       response = urllib2.urlopen(req, timeout=120)

       html = response.read()

       gzipped = response.headers.get('Content-Encoding')

       if gzipped:

           html = zlib.decompress(html, 16+zlib.MAX_WBITS)

       return html

     except urllib2.HTTPError, e:

       return e.read()

     except socket.timeout, e:

       return ''

     except socket.error, e:

       return ''

   def Post(self, url, data, refer=None):

     try:

       #req = urllib2.Request(url, urllib.urlencode(data))

       req = urllib2.Request(url,data)

       if not (refer is None):

         req.add_header('Referer', refer)

       return urllib2.urlopen(req, timeout=120).read()

     except urllib2.HTTPError, e:

       return e.read()

     except socket.timeout, e:

       return ''

     except socket.error, e:

       return ''

   def Download(self, url, file):

     output = open(file, 'wb')

     output.write(urllib2.urlopen(url).read())

     output.close()

 #  def urlencode(self, data):

 #    return urllib.quote(data)

   def getCookie(self, key):

     for c in self.__cookie:

       if c.name == key:

         return c.value

     return ''

   def setCookie(self, key, val, domain):

     ck = cookielib.Cookie(version=0, name=key, value=val, port=None, port_specified=False, domain=domain, domain_specified=False, domain_initial_dot=False, path='/', path_specified=True, secure=False, expires=None, discard=True, comment=None, comment_url=None, rest={'HttpOnly': None}, rfc2109=False)

     self.__cookie.set_cookie(ck)

 #self.__cookie.clear() clean cookie

 # vim : tabstop=2 shiftwidth=2 softtabstop=2 expandtab

HttpClient

 # -*- coding: utf-8 -*-

 from __future__ import unicode_literals

 from HttpClient import HttpClient

 import sys,re,os

 class JianDan(HttpClient):

     def __init__(self):

         self.__pageIndex = 1500 #之前的图片被煎蛋吞了

         self.__Url = "http://jandan.net/ooxx/"

         self.__floder = "jiandan"

     def __getAllPicUrl(self,pageIndex):

         realurl = self.__Url + "page-" + str(pageIndex) + "#comments"

         pageCode = self.Get(realurl)

         type = sys.getfilesystemencoding()

         pattern = re.compile('<p>.*?<a .*?view_img_link">.*?</a>.*?<img src="(.*?)".*?</p>',re.S)

         items = re.findall(pattern,pageCode.decode("UTF-8").encode(type))

         for item in items:

             print item

         self.__savePics(items,self.__floder)

     def __savePics(self,img_addr,folder):

         for item in img_addr:

             filename = item.split('/')[-1]

             print "正在保存图片：" + filename

             with open(filename,'wb') as file:

                 img = self.Get(item)

                 file.write(img)

     def __getNewPage(self):

         pageCode = self.Get(self.__Url)

         type = sys.getfilesystemencoding()

         pattern = re.compile(r'<div .*?cp-pagenavi">.*?<span .*?current-comment-page">\[(.*?)\]</span>',re.S)

         newPage = re.search(pattern,pageCode.decode("UTF-8").encode(type))

         print pageCode.decode("UTF-8").encode(type)

         if newPage != None:

             return newPage.group(1)

         return 1500

     def start(self):

         isExists=os.path.exists(self.__floder)#检测是否存在目录

         print isExists

         if not isExists:

             os.mkdir(self.__floder)

         os.chdir(self.__floder)

         page = int(self.__getNewPage())

         for i in range(self.__pageIndex,page):

             self.__getAllPicUrl(i)

 if __name__ == '__main__':

     jd = JianDan()

     jd.start()

JianDan

自学Python九爬虫实战二(美图福利)的更多相关文章

自学Python十爬虫实战三（美女福利续）
我又来送福利啦!!!不同于上篇文章,这次我们的爬虫采用了多线程,一直以来被所谓的分布式多线程爬虫给唬的怕怕的.今天就来一发多线程爬虫吧,还能看妹子图,想想就觉得很激动!!! 依然是流程解释: ...
Python网络爬虫实战(二)数据解析
上一篇说完了如何爬取一个网页,以及爬取中可能遇到的几个问题.那么接下来我们就需要对已经爬取下来的网页进行解析,从中提取出我们想要的数据. 根据爬取下来的数据,我们需要写不同的解析方式,最常见的一般都是 ...
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
python网络爬虫实战PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
点击获取提取码:vg1y python网络爬虫实战帮助读者学习Python并开发出符合自己要求的网络爬虫.网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚 ...
关于Python网络爬虫实战笔记③
Python网络爬虫实战笔记③如何下载韩寒博客文章 Python网络爬虫实战笔记③如何下载韩寒博客文章 target:下载全部的文章 1. 博客列表页面规则也就是, http://blog.sina ...
关于Python网络爬虫实战笔记①
python网络爬虫项目实战笔记①如何下载韩寒的博客文章 python网络爬虫项目实战笔记①如何下载韩寒的博客文章 1. 打开韩寒博客列表页面 http://blog.sina.com.cn/s/ar ...
python多线程爬虫+批量下载斗图啦图片项目（关注、持续更新）
python多线程爬虫项目() 爬取目标:斗图啦(起始url:http://www.doutula.com/photo/list/?page=1) 爬取内容:斗图啦全网图片使用工具:requests ...
Python网络爬虫实战(一)快速入门
本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行. 我们编写网络爬虫最主要 ...

随机推荐

zTree 模糊搜索
/** * 搜索树,高亮显示并展示[模糊匹配搜索条件的节点s] * @param treeId * @param searchConditionId 搜索条件Id */ function search ...
stress工具使用指南和结果分析
stress介绍 #stress `stress' imposes certain types of compute stress on your system Usage: stress [OPTI ...
C++入职学习篇--新员工入职（持续更新）
C++入职学习篇--新员工入职(持续更新) 本人菜鸟一枚,刚刚结束学业生涯,入职C++软件开发岗位,之前对C++一窍不通,刚刚入职,亚历山大,但为祖国和平发展,本人励志为中华崛起而奋斗,学不好C++誓 ...
P1638 逛画展
题目描述博览馆正在展出由世上最佳的 M 位画家所画的图画. wangjy想到博览馆去看这几位大师的作品. 可是,那里的博览馆有一个很奇怪的规定,就是在购买门票时必须说明两个数字, a和b,代表他要看 ...
学习MPI并行编程记录
简单的MPI程序示例首先,我们来看一个简单的MPI程序实例.如同我们学习各种语言的第一个程序一样,对于MPI的第一个程序同样是"Hello Word". /* Case 1 he ...
JDK5-8特性归纳
jdk5新特性1.自动装箱和拆箱2.枚举3.静态导入4.可变参数5.內省是Java语言对Bean类属性.事件的一种缺省处理方法.例如类A中有属性那么,那我们可以通过getName,setName ...
C C++ POSIX 的一些 IO 操作
一些 C C++ POSIX 的 IO 操作总结文件-内存之间内存-内存之间 POSIX 有无缓冲的 IO 操作对文件的操作,读文件至内存,从内存写至文件 // 读文件至内存buf中 void ...
webstorm下ES6转ES5
ECMAScript 6是JavaScript语言的下一代标准,已经在2015年6月正式发布了.Mozilla公司将在这个标准的基础上,推出JavaScript 2.0. ES6的目标,是使得Java ...
【Codeforces 446A】DZY Loves Sequences
[链接] 我是链接,点我呀:) [题意] 让你找一段连续的区间使得这一段区间最多修改一个数字就能变成严格上升的区间. 问你这个区间的最长长度 [题解] dp[0][i]表示以i为结尾的最长严格上升长 ...
PHP中Session和Cookie 快速了解与使用
SessionPHP的$_SESSION可以存储当前用户数据信息,用户访问WEB网站的时候,PHP会给每个访问的用户创建一个session ID,该ID是唯一ID,保存在客户机上,而用户的会话数据是保 ...

自学Python九 爬虫实战二(美图福利)

自学Python九 爬虫实战二(美图福利)的更多相关文章

随机推荐

热门专题

自学Python九爬虫实战二(美图福利)

自学Python九爬虫实战二(美图福利)的更多相关文章