python 批量爬取代理ip

 import urllib.request

 import re

 import time

 import random

 def getResponse(url):

     req = urllib.request.Request(url)

     req.add_header("User-Agent","Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36")

     resp = urllib.request.urlopen(req)

     return resp.read()

 def getHtml(url,charSet = "utf-8"):

     return getResponse(url).decode(charSet)

 def createOpenner(ipList):

     m_proxy = urllib.request.ProxyHandler({"http":random.choice(ipList)})

     openner = urllib.request.build_opener(m_proxy)

     urllib.request.install_opener(openner)

 #

 def getProxyList(url,iPage = 10):

     ipList = []

     for i in range(1,iPage+1):

         html_str = getHtml(url+str(i))

         ip = re.findall("IP\">((?:\d{1,3}\.){3}(?:\d{1,3}))(?:[\s\S]{0,50})\"PORT\">(\d{2,4})", html_str)

         for addr in ip:

             ipList.append(addr[0]+":"+addr[1])

         time.sleep(2)

     return ipList

 ipList = getProxyList("http://www.kuaidaili.com/free/outha/",1)#爬取1页

 print(ipList)

快代理："IP\">((?:\d{1,3}\.){3}(?:\d{1,3}))(?:[\s\S]*?)\"PORT\">(\d{2,4})" #下划线处原来是[\s\S]*，不带问号，后果是默认的贪婪模式。

只能取到一个地址，加上问号开启非贪婪模式。

西刺："((?:\d{1,3}\.){3}(?:\d{1,3}))(?:[\s\S]*?)(\d{2,4})"

返回ipList列表：['46.101.3.126:8118', '177.207.234.14:80', '113.255.49.49:80', '52.59.18.222:80', '36.81.0.138:8080', '54.165.24.194:80', '115.252.35.104:8080', '136.169.58.21:8080', '51.254.106.65:80', '178.238.213.246:8080', '49.205.212.243:8080', '137.135.166.225:8131', '168.63.24.174:8138', '179.243.46.131:8080', '186.90.160.245:8080']

python 批量爬取代理ip的更多相关文章

python爬虫爬取代理IP
# #author:wuhao # #--*------------*-- #-****#爬取代理IP并保存到Excel----#爬取当日的代理IP并保存到Excel,目标网站xicidaili.co ...
用Python批量爬取优质ip代理
前言有时候爬的次数太多时ip容易被禁,所以需要ip代理的帮助.今天爬的思路是:到云代理获取大量ip代理,逐个检测,将超时不可用的代理排除,留下优质的ip代理. 一.爬虫分析首先看看今天要爬取的网址 ...
从0实现python批量爬取p站插画
一.本文编写缘由很久没有写过爬虫,已经忘得差不多了.以爬取p站图片为着手点,进行爬虫复习与实践. 欢迎学习Python的小伙伴可以加我扣群86七06七945,大家一起学习讨论二.获取网页源码爬取 ...
python代理池的构建3——爬取代理ip
上篇博客地址:python代理池的构建2--代理ip是否可用的处理和检查一.基础爬虫模块(Base_spider.py) #-*-coding:utf-8-*- ''' 目标: 实现可以指定不同UR ...
使用Python爬取代理ip
本文主要代码用于有代理网站http://www.kuaidaili.com/free/intr中的代理ip爬取,爬虫使用过程中需要输入含有代理ip的网页链接. 测试ip是否可以用 import tel ...
爬虫爬取代理IP池及代理IP的验证
最近项目内容需要引入代理IP去爬取内容. 为了项目持续运行,需要不断构造.维护.验证代理IP. 为了绕过服务端对IP 和频率的限制,为了阻止服务端获取真正的主机IP. 一.服务器如何获取客户端IP ...
自动爬取代理IP例子
import time import json import datetime import threading import requests from lxml import etree from ...
Python 爬虫抓取代理IP，并检测联通性
帮朋友抓了一些代理IP,并根据测试联的通性,放在了不通的文件夹下.特将源码分享注意: 1,环境Python3.5 2,安装BeautifulSoup4 requests 代码如下: 1 2 3 4 ...
爬取代理IP
现在爬虫好难做啊,有些网站直接封IP,本人小白一个,还没钱,只能找免费的代理IP,于是去爬了西刺免费代理,结果技术值太低,程序还没调试好, IP又被封了... IP又被封了... IP又被封了... ...

随机推荐

invalid types 'int[int]' for array subscrip
定义重复如一个int r 与一个 r[i] 重复
升级或安装 GNOME Shell
1.安装经典Gnome桌面系统 install gnome-session-fallbackinstall gnome-appletsinstall indicator-applet indicato ...
[网络技术]VPN设置
1.解决VPN服务器默认路由困扰现在移动办公已经变得家常便饭,每次外出出差办公需要访问单位的内网服务器时,该怎么办呢?相信很多人都想到了VPN连接!的确,使用VPN连接, 我们可以利用现成的Inte ...
The authenticity of host 192.168.0.xxx can't be established.
用ssh登录一个机器(换过ip地址),提示输入yes后,屏幕不断出现y,只有按ctrl + c结束错误是:The authenticity of host 192.168.0.xxx can't b ...
java基础－006
37.JDBC JDBC是允许用户在不同数据库之间做选择的一个抽象层．JDBC允许开发者用JAVA写数据库引用程序,而不需要关心底层特定数据库的细节． 38.驱动(Driver) 在JDBC中的角色 ...
ognl表达式root中取值顺序
不加#,先从栈顶取,如果没有(是没有这个属性而不是这个属性没有值),再往下取. 如果栈顶和非栈顶的对象拥有同一个属性名称,想直接取非栈顶的属性可以在ognl中用#root[i].属性名,可以取到属性的 ...
linux命令存放 bash: xxx command not found
参考资料:http://blog.sina.com.cn/s/blog_688077cf01013qrk.html 提示:bash: xxx command not found 首先就要考虑root ...
DP重新学
白书上的DP讲义:一二 DAG上的dp 不要好高骛远去学这种高端东西,学了也写不对,剩下的几天把基本的dp和搜索搞下,就圆满了.不要再学新算法了,去九度把现有的算法写个痛. 学了数位DP和记忆搜索, ...
51nod 最长公共子序列Lcs
有深入了解了一点 . 51nod 可以用来加深算法理解程度 ,
BZOJ 1271 秦腾与教学评估
二分. #include<iostream> #include<cstdio> #include<cstring> #include<algorithm> ...

python 批量爬取代理ip

python 批量爬取代理ip的更多相关文章

随机推荐

热门专题