自学Python十一 Python爬虫总结

　　通过几天的学习与尝试逐渐对python爬虫有了一些小小的心得，我们渐渐发现他们有很多共性，总是要去获取一系列的链接，读取网页代码，获取所需内容然后重复上面的工作，当自己运用的越来越熟练之后我们就会尝试着去总结一下爬虫的共性，试着去写个helper类以避免重复性劳动。

　　参考:用python爬虫抓站的一些技巧总结 zz

　　1.访问网站 #最简单的得到网页代码的方法

 import urllib2

 response = urllib2.urlopen("http://www.xx.com")

 print response.read()

　　2.伪装成浏览器(User-Agent,Referer等) #为了不被服务器禁止访问所以还是伪装成浏览器比较好

 headers = {

     'User-Agent': 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)',

     'Referer':'http://www.xx.com/xx',

     'Accept':'application/javascript, */*;q=0.8'

 }

 response = urllib2.Request(url = "http://www.xx.com",data = None,headers = headers)

　　3.Post数据转码

 import urllib,urllib2

 values = {

     'username':'xxx',

     'password':'xxx',

     'key':'xxx'

 }

 postdata = urllib.urlencode(values)

 response = urllib2.Request(url,data = postdata)

　　4.Cookies

 import urllib2,cookielib

 cookie_handler = urllib2.HTTPCookieProcessor(cookielib.CookieJar())

 opener = urllib2.build_opener(cookie_handler)

 urllib2.install_opener(opener)

 response = urllib2.urlopen(url)

　　5.代理服务器 #重复多次访问同一网址结果被封了ip或限制了访问次数

 import urllib2

 proxy_handler = urllib2.ProxyHandler({"http" : '42.121.6.80:8080'})

 opener = urllib2.build_opener(proxy_handler)

 urllib2.install_opener(opener)

 response = urllib2.urlopen(url)

　　问：如果想cookie和proxy一起用怎么办？

　　答：urllib2.build_opener可以放多个参数，即handler 如：BaseHandler,ProxyHandler,HTTPHandler,FileHandler,FTPHandler,CacheFTPHandler等等等等

　　6.gzip #现在普遍支持gzip压缩，我们默认获取压缩后的网页，大大提高了抓取网页的效率，减少了带宽负荷。

 import urllib2,zlib

 req = urllib2.Request(url)

 req.add_header('Accept-encoding', 'gzip')

 response = urllib2.urlopen(req, timeout=120)

 html = response.read()

 gzipped = response.headers.get('Content-Encoding')

 if gzipped:

     html = zlib.decompress(html, 16+zlib.MAX_WBITS)

　　7.其他

　　设置线程栈大小：栈大小显著影响python的内存占用，方法如下：

 from threading import stack_size stack_size(32768*16)

　　设置超时

 import socket

 socket.setdefaulttimeout(10) #设置10秒后连接超时

　　失败后重试

 def get(self,req,retries=3):

     try:

         response = self.opener.open(req)

         data = response.read()

     except Exception , what:

         print what,req

         if retries>0:

             return self.get(req,retries-1)

         else:

             print 'GET Failed',req

             return ''

     return data

　　根据以上内容，我们可以写出便于配置解决重复性工作的自己的helper类：

 # -*- coding: utf-8 -*-

 import cookielib, urllib, urllib2, socket

 import zlib,StringIO

 class HttpClient:

   __cookie = cookielib.CookieJar()

   #代理设置，需要时添加（后续设置为多代理切换）

   #__proxy_handler = urllib2.ProxyHandler({"http" : '42.121.6.80:8080'})

   __req = urllib2.build_opener(urllib2.HTTPCookieProcessor(__cookie))#,__proxy_handler)

   __req.addheaders = [

     ('Accept', 'application/javascript, */*;q=0.8'),

     ('User-Agent', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)')

   ]

   urllib2.install_opener(__req)

   def Get(self, url, refer=None,retries=3):

     try:

       req = urllib2.Request(url)

       req.add_header('Accept-encoding', 'gzip')

       if not (refer is None):

         req.add_header('Referer', refer)

       response = urllib2.urlopen(req, timeout=120)

       html = response.read()

       gzipped = response.headers.get('Content-Encoding')

       if gzipped:

           html = zlib.decompress(html, 16+zlib.MAX_WBITS)

       return html

     except Exception,what:

         print what

         if retries>0:

             return self.Get(url,refer,retries-1)

         else:

             print "Get Failed",url

             return ''

     #except urllib2.HTTPError, e:

     #  return e.read()

     #except socket.timeout, e:

     #  return ''

     #except socket.error, e:

     #  return ''

   def Post(self, url, data, refer=None):

     try:

       req = urllib2.Request(url, urllib.urlencode(data))

       #req = urllib2.Request(url,data)

       if not (refer is None):

         req.add_header('Referer', refer)

       return urllib2.urlopen(req, timeout=120).read()

     except urllib2.HTTPError, e:

       return e.read()

     except socket.timeout, e:

       return ''

     except socket.error, e:

       return ''

   def Download(self, url, file):

     output = open(file, 'wb')

     output.write(urllib2.urlopen(url).read())

     output.close()

   def getCookie(self, key):

     for c in self.__cookie:

       if c.name == key:

         return c.value

     return ''

   def setCookie(self, key, val, domain):

     ck = cookielib.Cookie(version=0, name=key, value=val, port=None, port_specified=False, domain=domain, domain_specified=False, domain_initial_dot=False, path='/', path_specified=True, secure=False, expires=None, discard=True, comment=None, comment_url=None, rest={'HttpOnly': None}, rfc2109=False)

     self.__cookie.set_cookie(ck)

HttpClient

　　至于多线程就参考网上找的这段代码好了，还支持并发。。。

 from threading import Thread

 from Queue import Queue

 from time import sleep

 #q是任务队列

 #NUM是并发线程总数

 #JOBS是有多少任务

 q = Queue()

 NUM = 2

 JOBS = 10

 #具体的处理函数，负责处理单个任务

 def do_somthing_using(arguments):

     print arguments

 #这个是工作进程，负责不断从队列取数据并处理

 def working():

     while True:

         arguments = q.get()

         do_somthing_using(arguments)

         sleep(1)

         q.task_done()

 #fork NUM个线程等待队列

 for i in range(NUM):

     t = Thread(target=working)

     t.setDaemon(True)

     t.start()

 #把JOBS排入队列

 for i in range(JOBS):

     q.put(i)

 #等待所有JOBS完成

 q.join()

ThreadDemo

　　爬虫就靠一段落吧，更深入的爬虫框架以及html解析库暂时放一放，让我考虑考虑接下来的内容，是pygame还是django！

　　爬虫demo的github地址（刚学着玩git ）：http://git.oschina.net/tabei/Python_spider

自学Python十一 Python爬虫总结的更多相关文章

Python(十一) 原生爬虫
一.分析抓取目的确定抓取页面 #爬取主播人气排行二.整理爬虫常规思路爬虫前奏明确目的找到数据对应的网页分析网页的结构找到数据所在的标签位置模拟 HTTP 请求, 向服务器发送这个请 ...
五十一 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目
scrapyd模块是专门用于部署scrapy项目的,可以部署和管理scrapy项目下载地址:https://github.com/scrapy/scrapyd 建议安装 pip3 install s ...
每天自学两小时Python，整理了最详细的学习路线和规
上次这篇文章每天自学两小时Python,三个月学通月入20K主要是给大家整理了学习资料视频和PDF书籍,很多需要的都关注私信领取了. 很多朋友领取之后都问我教程有了那么应该从哪去开始学习呢,私信太多我 ...
Python 开发轻量级爬虫08
Python 开发轻量级爬虫 (imooc总结08--爬虫实例--分析目标) 怎么开发一个爬虫?开发一个爬虫包含哪些步骤呢? 1.确定要抓取得目标,即抓取哪些网站的哪些网页的哪部分数据. 本实例确定抓 ...
Python 开发轻量级爬虫07
Python 开发轻量级爬虫 (imooc总结07--网页解析器BeautifulSoup) BeautifulSoup下载和安装使用pip install 安装:在命令行cmd之后输入,pip i ...
Python 开发轻量级爬虫06
Python 开发轻量级爬虫 (imooc总结06--网页解析器) 介绍网页解析器将互联网的网页获取到本地以后,我们需要对它们进行解析才能够提取出我们需要的内容. 也就是说网页解析器是从网页中提取有 ...
Python 开发轻量级爬虫05
Python 开发轻量级爬虫 (imooc总结05--网页下载器) 介绍网页下载器网页下载器是将互联网上url对应的网页下载到本地的工具.因为将网页下载到本地才能进行后续的分析处理,可以说网页下载器 ...
Python 开发轻量级爬虫04
Python 开发轻量级爬虫 (imooc总结04--url管理器) 介绍抓取URL管理器 url管理器用来管理待抓取url集合和已抓取url集合. 这里有一个问题,遇到一个url,我们就抓取它的内容 ...
Python 开发轻量级爬虫03
Python 开发轻量级爬虫 (imooc总结03--简单的爬虫架构) 现在来看一下一个简单的爬虫架构. 要实现一个简单的爬虫,有哪些方面需要考虑呢? 首先需要一个爬虫调度端,来启动爬虫.停止爬虫.监 ...

随机推荐

scrapy——3 crawlSpider——爱问
scrapy——3 crawlSpider crawlSpider 爬取一般网站常用的爬虫类.其定义了一些规则(rule)来提供跟进link的方便的机制. 也许该spider并不是完全适合您的特定网 ...
mybatis注解开发-动态SQL
实体类以及表结构在mybatis-config.xml中注册mapper接口 -------------------------- 动态查询@SelectProvider EmployeeMappe ...
彻底搞定Android开发中软键盘的常见问题
软键盘显示的原理软件盘的本质是什么?软键盘其实是一个Dialog. InputMethodService为我们的输入法创建了一个Dialog,并且将该Dialog的Window的某些参 ...
[luoguP1816] 忠诚（st表 || 线段树）
传送门其实我就是想练练 st表本以为学了线段树可以省点事不学 st表了但是后缀数组中用 st表貌似很方便所以还是学了吧,反正也不难 ——代码 #include <cstdio> ...
CODEVS2144 砝码称重2 (哈希表)
由于m很大,所以不能使用DP. 注意到n≤30,直接暴力2^n会TLE. 所以,将砝码平均分成两份,对一份进行一次暴力,用哈希表存下可能的结果. 对下一份再进行一次暴力,在哈希表中搜索剩余的砝码重量是 ...
centos7.0_redhat7.0安装vncserver和Desktop桌面
http://blog.51cto.com/gushiren/1681616 https://blog.csdn.net/techsupporter/article/details/50628399
Javascript中数据与字符串互转（转）
数组与字符串的相互转化 <script type="text/javascript"> var obj="new1abcdefg".replace( ...
RDS for MySQL 通过 mysqlbinlog 查看 binlog 乱码
问题描述: 使用 mysqlbinlog -vv mysql-bin.000110 查看 RDS mysql 二进制文件发现类似如下结果: BINLOG ' MgI+UA8BAAAAZwAAAGsAA ...
zookeeper协调技术
本文转自http://www.cnblogs.com/wuxl360/p/5817471.html 感谢作者一.分布式协调技术在给大家介绍ZooKeeper之前先来给大家介绍一种技术——分布式协调 ...
前台JSON对象传给springmvc，解析为map对象
前台JSON对象传给springmvc,解析为map对象 javascript: $.ajax({ url : url, method : 'post', contentType : 'applica ...

自学Python十一 Python爬虫总结

自学Python十一 Python爬虫总结的更多相关文章

随机推荐

热门专题