利用Python爬取可用的代理IP

前言

就以最近发现的一个免费代理IP网站为例：http://www.xicidaili.com/nn/。在使用的时候发现很多IP都用不了。

所以用Python写了个脚本，该脚本可以把能用的代理IP检测出来。

 #encoding=utf8
 import urllib2
 from bs4 import BeautifulSoup
 import urllib
 import socket

 User_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'
 header = {}
 header['User-Agent'] = User_Agent

 '''
 获取所有代理IP地址
 '''
 def getProxyIp():
  proxy = []
  for i in range(1,2):
   try:
    url = 'http://www.xicidaili.com/nn/'+str(i)
    req = urllib2.Request(url,headers=header)
    res = urllib2.urlopen(req).read()
    soup = BeautifulSoup(res)
    ips = soup.findAll('tr')
    for x in range(1,len(ips)):
     ip = ips[x]
     tds = ip.findAll("td")
     ip_temp = tds[1].contents[0]+"\t"+tds[2].contents[0]
     proxy.append(ip_temp)
   except:
    continue
  return proxy

 '''
 验证获得的代理IP地址是否可用
 '''
 def validateIp(proxy):
  url = "http://ip.chinaz.com/getip.aspx"
  f = open("E:\ip.txt","w")
  socket.setdefaulttimeout(3)
  for i in range(0,len(proxy)):
   try:
    ip = proxy[i].strip().split("\t")
    proxy_host = "http://"+ip[0]+":"+ip[1]
    proxy_temp = {"http":proxy_host}
    res = urllib.urlopen(url,proxies=proxy_temp).read()
    f.write(proxy[i]+'\n')
    print proxy[i]
   except Exception,e:
    continue
  f.close()

 if __name__ == '__main__':
  proxy = getProxyIp()
  validateIp(proxy)

总结

这只是爬取的第一页的IP地址，如有需要，可以多爬取几页。同时，该网站是时时更新的，建议爬取时只爬取前几页的即可。

利用Python爬取可用的代理IP的更多相关文章

python爬取高匿代理IP（再也不用担心会进小黑屋了）
为什么要用代理IP 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类人 ...
Python 爬取各大代理IP网站(元类封装)
import requests from pyquery import PyQuery as pq base_headers = { 'User-Agent': 'Mozilla/5.0 (Windo ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
手把手教你使用Python爬取西刺代理数据（下篇）
/1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...
利用python爬取城市公交站点
利用python爬取城市公交站点页面分析 https://guiyang.8684.cn/line1 爬虫我们利用requests请求,利用BeautifulSoup来解析,获取我们的站点数据.得 ...
利用Python爬取豆瓣电影
目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com ...
利用Python爬取朋友圈数据，爬到你开始怀疑人生
人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...
没有内涵段子可以刷了，利用Python爬取段友之家贴吧图片和小视频(含源码)
由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...
python scrapy 爬取西刺代理ip(一基础篇)（ubuntu环境下） -赖大大
第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrapy框架具体就自行百度了,主要内容不是在这. 第二步:创建scrapy(简单介绍) 1.Creating a p ...

随机推荐

git 快速入门
介绍git的基本知识.文件状态.工作区域以及一个简单的操作示例. 目录 1. git相关介绍 2. 文件状态与工作区域 3. 快速使用 1. git相关介绍 1.1 git.github.gitlab ...
Linux常用命令（二）--文件目录命令
1. 列表目录命令: 格式: ls [参数] 用于显示文件或目录信息选项: -l 每行显示一个文件和目录信息(长格式),简写:ll等同于ls -l 注意:当参数是文件时,显示此文件全部信息当参数是 ...
通俗易懂的分析如何用Python实现一只小爬虫，爬取拉勾网的职位信息
源代码:https://github.com/nnngu/LagouSpider 效果预览思路 1.首先我们打开拉勾网,并搜索"java",显示出来的职位信息就是我们的目标. 2 ...
js中的一元加法和一元减法
大多数人都熟悉一元加法和一元减法,它们在 ECMAScript 中的用法与您高中数学中学到的用法相同. 一元加法本质上对数字无任何影响: var iNum = 20; iNum = +iNum; al ...
Unity AssetBundle 游戏资源分类及关系
--刚刚做完一个xlua的的热更项目,对AssetBundle资源分类总结一下.纯理论,闲谈知识,要是有建议,尽管提 ,不掺杂代码. --这里说说,AB是如何打包,如果下载,如何加载. 1.关键词理解 ...
awk数组结合+=统计题
awk增加统计列值为增加列数或进行运行结果统计,使用符号 + =.增加的结果赋给符号左边变量值,增加到变量的域在符号右边.例如将 $ 1加入变量total,表达式为toatl+=$1.列值增加很有用. ...
math对象与数组对象
1.math对象属性 //PI 圆周率方法 //random 随机数 var num= Math.random(); 生成0到1的随机数//round 四舍五入var num2 ...
Java源码分析系列之HttpServletRequest源码分析
从源码当中我们可以得知,HttpServletRequest其实实际上并不是一个类,它只是一个标准,一个接口而已,它的父类是ServletRequest. 认证方式 public int ...
iOS-xcode代码统计
作为开发者,想不想知道自己写了多少行代码吗,打开终端,进入项目文件夹,然后进入想统计的某个文件夹,也可以直接在当前项目文件夹,然后终端输入下面的代码就可以了 find . "(" ...
[Sdoi2017]相关分析 [线段树]
[Sdoi2017]相关分析题意:沙茶线段树 md其实我考场上还剩一个多小时写了40分其实当时写正解也可以吧1h也就写完了不过还要拍一下正解代码比40分短2333 #include <io ...

利用Python爬取可用的代理IP

利用Python爬取可用的代理IP的更多相关文章

随机推荐

热门专题