Python 爬虫入门（二）—

　　上一节，大概讲述了Python 爬虫的编写流程，从这节开始主要解决如何突破在爬取的过程中限制。比如，IP、JS、验证码等。这节主要讲利用IP代理突破。

　　1.关于代理

　　简单的说，代理就是换个身份。网络中的身份之一就是IP。比如，我们身在墙内，想要访问google、u2b、fb等，直接访问是404，所以要换个不会被墙的IP，比如国外的IP等。这个就是简单的代理。

　　在爬虫中，有些网站可能为了防止爬虫或者DDOS等，会记录每个IP的访问次数，比如，有些网站允许一个IP在1s（或者别的）只能访问10次等，那么我们就需要访问一次换一个IP（具体什么策略，自己决定）。

　　那么问题来了，这些代理从哪得到？对于公司来讲，买代理IP。但是对于个人的话，可能会有浪费。那么怎么办呢？网上有很多免费的代理IP网站，但是手动更改的话，很浪费时间，并且免费的IP有很多不可用。所以，我们可以用爬虫爬那么IP。用上一节的代码，完全可以做到。这里我们用http://www.xicidaili.com/nn/1测试，声明：仅学习交流，切勿用作商业用途等

　　2.获取代理IP，代码如下：

#encoding=utf8

import urllib2

import BeautifulSoup

User_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'

header = {}

header['User-Agent'] = User_Agent

url = 'http://www.xicidaili.com/nn/1'

req = urllib2.Request(url,headers=header)

res = urllib2.urlopen(req).read()

soup = BeautifulSoup.BeautifulSoup(res)

ips = soup.findAll('tr')

f = open("../src/proxy","w")

for x in range(1,len(ips)):

    ip = ips[x]

    tds = ip.findAll("td")

    ip_temp = tds[2].contents[0]+"\t"+tds[3].contents[0]+"\n"

    # print tds[2].contents[0]+"\t"+tds[3].contents[0]

    f.write(ip_temp)

　　代码说明：

　　　　a).这里我们使用的urllib2模块，因为，这个请求有点特殊，服务器会验证请求中的header（如有疑问，可参考http的相关资料）

　　　　b).urllib2与urllib的区别在于，urllib2发送请求的时候可携带参数（我现在只用到这点区别）

　　　　c).open()用于打开文件，第一个参数是文件的路径可以填绝对路径，例如E:\\proxy（"\"在编程中是特殊字符，要用"\\"代表实际的"\"）。也可以是相对路径，比　　　　如"../src/proxy"，就是文件相对于代码的位置。第二个参数"w"，代表打开文件的权限，w代表写权限，r代表读权限。这个在很多系统中都通用。比如，linux等

　　　　d).for循环，如果之前学过java或者其他高级语言，可能不太习惯，因为他们用的是for(;;)这样的。python中的for循环，in 表示X的取值，按顺序取到in后面的参数

　特别注意：别忘了for语句后面的冒号（":"）

　　　　c).range函数，代表生成一系列数，如果range(0,6,1)，意思就是从0开始，到6结束（不包括6），每次增加1（也就是步长为1），生成一个数组，结果就是[0, 1, 2, 3, 4, 5]

　　　　e).f.write()就是往文件里面写数据，如果打开文件的时候，没有"w"权限，则无法写入。

　　页面截图：

　　运行结果：

　　3.并不是所有的代理都能用，原因有很多，可能是我们所处的网络连不到这个代理，也有可能是这个代理，连不到我们的目标网址，所以，我们要验证一下。以http://ip.chinaz.com/getip.aspx作为目标网址为例（这个是测试ip地址的网址）代码如下：

#encoding=utf8

import urllib

import socket

socket.setdefaulttimeout(3)

f = open("../src/proxy")

lines = f.readlines()

proxys = []

for i in range(0,len(lines)):

    ip = lines[i].strip("\n").split("\t")

    proxy_host = "http://"+ip[0]+":"+ip[1]

    proxy_temp = {"http":proxy_host}

    proxys.append(proxy_temp)

url = "http://ip.chinaz.com/getip.aspx"

for proxy in proxys:

    try:

        res = urllib.urlopen(url,proxies=proxy).read()

        print res

    except Exception,e:

        print proxy

        print e

        continue

　　代码说明：

　　　　a).ip = lines[i].strip("\n").split("\t") 这个是去掉每行末尾的换行符（也就是"\n"）,然后以制表符（也就是"\t"）分割字符串为字符串数组

　　　　b).proxy_temp = {"http":proxy_host}其中http代表代理的类型，除了http之外还有https，socket等这里就以http为例

　　　　c).urllib.urlopen(url,proxies=proxy) 其中proxies就是代理。以代理模式访问目标网址

　　　　d).socket.setdefaulttimeout(3)设置全局超时时间为3s，也就是说，如果一个请求3s内还没有响应，就结束访问，并返回timeout（超时）

　　运行结果如图：

　　从结果看可用的并不是很多。但是也够个人用了。

　　至此，IP代理的使用就结束了。

　　备注：

　　1.代码仅供学习交流，切勿用作商业用途

　　2.代码如有问题，多多指教

　　3.转载请注明出处

Python 爬虫入门（二）—— IP代理使用的更多相关文章

2.Python爬虫入门二之爬虫基础了解
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...
Python爬虫入门二之爬虫基础了解
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...
转 Python爬虫入门二之爬虫基础了解
静觅 » Python爬虫入门二之爬虫基础了解 2.浏览网页的过程在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以 ...
Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
python爬虫中的ip代理设置
设置ip代理是爬虫必不可少的技巧: 查看本机ip地址:打开百度,输入“ip地址”,可以看到本机的IP地址: 本文使用的是goubanjia.com里面的免费ip: 使用时注意要注意传输协议是http还 ...
Python爬虫入门（二）之Requests库
Python爬虫入门(二)之Requests库我是照着小白教程做的,所以该篇是更小白教程hhhhhhhh 一.Requests库的简介 Requests 唯一的一个非转基因的 Python HTTP ...
Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
Python爬虫入门四之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
反爬虫之搭建IP代理池
反爬虫之搭建IP代理池听说你又被封 ip 了,你要学会伪装好自己,这次说说伪装你的头部.可惜加了header请求头,加了cookie 还是被限制爬取了.这时就得祭出IP代理池!!! 下面就是requ ...
python爬虫入门02：教你通过 Fiddler 进行手机抓包
哟~哟~哟~ hi起来 everybody 今天要说说怎么在我们的手机抓包通过 python爬虫入门01:教你在Chrome浏览器轻松抓包我们知道了 HTTP 的请求方式以及在 Chrome 中 ...

随机推荐

笨办法学Python - 习题5: More Variables and Printing
1.习题 5: 更多的变量和打印学习目标:了解用户输入方法,明白pthon2和Python3之间的用户输入的区别.了解格式化字符串(format string)的概念,学会如何创建包含变量内容的字符 ...
Erlang数据类型的表示和实现（2）——Eterm 和立即数
Erlang 数据类型的内部表示和实现 Erlang 中的变量在绑定之前是自由的,非绑定变量可以绑定一次任意类型的数据.为了支持这种类型系统,Erlang 虚拟机采用的实现方法是用一个带有标签的机器字 ...
more和less命令详解
基础命令学习目录首页原文链接:https://www.cnblogs.com/aijianshi/p/5750911.html 一.more命令 more功能类似 cat ,cat命令是整个文件的内 ...
“北航Clubs”项目汇报
一.项目展示二.用户的痛点与需求 1.北航学生,在百团大战之后,很难再有渠道加入社团,了解社团活动,简直如蒙在鼓里! 2.当你周末想参加一些活动,充实一下枯燥的求学生活时,却发现不知道有哪些社团有活 ...
[buaa-SE-2017]个人作业-Week2
个人作业-Week2 一.代码复审Checklist 1.概要部分 1.1 代码能符合需求和规格说明么? 本次作业的需求可以分成基本的功能实现和大规模数据下程序的健壮性,以及少量的异常处理能力,也就是 ...
Shell脚本数据清洗
需要做的任务是将上图类似的格式的文件进行处理,将年月日小时分别提取出来放到每行的行尾(上图已清洗好) 自己的思路是先用cut命令将每行的年月日小时提取出来,分别给一个变量,然后再循环利用sed命令将年 ...
c++ imooc自学计划
一.视频学习相关的课程列表: C++远征之起航篇http://www.imooc.com/learn/342: C++远征之离港篇http://www.imooc.com/learn/381: C++ ...
Beta 冲刺（4/7)
队名:日不落战队安琪(队长) 过去两天完成了那些任务完善已完成的界面. 接下来的任务建立和上传收藏夹. 还剩下的任务完善手写涂鸦. 遇到的困难明天考试,准备通宵中. 有哪些收获和疑问无. ...
6/10 sprint2 看板和燃尽图的更新
『编程题全队』Alpha 阶段冲刺博客Day4
1.每日站立式会议 1.会议照片 2.昨天已完成的工作统计孙志威: 1.添加团队界面下的看板容器SlotWidget 2.实现SlotWidgets的动态布局管理 3.实现团队/个人界面之间的切换 ...

Python 爬虫入门（二）—— IP代理使用

Python 爬虫入门（二）—— IP代理使用的更多相关文章

随机推荐

热门专题