Python学习笔记六(免费获取代理IP)

　　为获取网上免费代理IP，闲的无聊，整合了一下，免费从三个代理网站获取免费代理IP，目的是在某一代理网站被限制时，仍可从可以访问的其他网站上获取代理IP。亲测可用哦！^_^ 仅供大家参考，以下脚本可添加函数，用于代理IP自动访问其他东西。

 import requests

 import urllib.request

 from bs4 import BeautifulSoup

 import random,time,re

 import random

 from urllib.request import FancyURLopener

 IPRegular = r"(([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5]).){3}([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5])"

 headers = {'User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}

 header1 = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) ''AppleWebKit/537.36 (KHTML, like Gecko) ''Ubuntu Chromium/44.0.2403.89 '

                          'Chrome/44.0.2403.89 ''Safari/537.36'}

 # 定义用于存放IP的列表

 IPs = []

 proxy_list = []

 #代理一：

 def getIPList1():

     for i in range(1, 3):

         req = urllib.request.Request(url='http://www.xicidaili.com/nt/{0}'.format(i), headers=header1)

         r = urllib.request.urlopen(req)

         soup = BeautifulSoup(r,'html.parser',from_encoding='utf-8')

         table = soup.find('table', attrs={'id': 'ip_list'})

         tr = table.find_all('tr')[1:]

         #解析得到代理ip的地址，端口，和类型

         for item in tr:

             tds =  item.find_all('td')

             temp_dict = {}

             kind = "{0}:{1}".format(tds[1].get_text().lower(), tds[2].get_text())

             proxy_list.append(kind)

     return proxy_list

 #代理二：

 def getIPList2():

     # 代理网站的地址的格式

     # 根据观察url，发现各省的代理IP页面由数字控制

     # 所以我们先用占位符{}代替这个数字的位置

     url = 'http://www.66ip.cn/areaindex_16/{}.html'

     for page in range(10):

         # 先填占位符生成一个省的url

         url = url.format(page)

         # get()方法访问，得到一个Response对象

         rsp = requests.get(url)

         # Response对象的text属性得到源码

         text = rsp.text

         # 用BeautifulSoup()方法将源码生成能被解析的lxml格式文件

         soup = BeautifulSoup(text, 'lxml')

         # 用find()找放置IP的表

         table = soup.find(name='table', attrs={'border': '2px'})

         # 用find_all()找到所以的IP

         ip_list = table.find_all(name='tr')

         # 循环遍历每个IP

         for addr in ip_list:

             # 观察源码发现第一个tr里的内容不是IP，所以跳过

             if addr == ip_list[0]:

                 continue

             # 获取IP

             ip = addr.find_all(name='td')[0].string

             # 获取端口

             port = addr.find_all(name='td')[1].string

             proxy = '%s:%s' % (ip, port)

             proxy_list.append(proxy)

     return proxy_list

 #代理三：

 def getIPList3():

     request_list = []

     headers = {

         'Host': 'www.iphai.com',

         'User-Agent': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)',

         'Accept': r'application/json, text/javascript, */*; q=0.01',

         'Referer': r'http://www.iphai.com',}

     request_item = "http://www.iphai.com/free/ng"

     request_list.append(request_item)

     for req_id in request_list:

         req = urllib.request.Request(req_id, headers=headers)

         response = urllib.request.urlopen(req)

         html = response.read().decode('utf-8')

         ip_list = re.findall(r'\d+\.\d+\.\d+\.\d+', html)

         port_list = re.findall(r'(\s\d+\s)', html)

         for i in range(len(ip_list)):

             #total_count += 1

             ip = ip_list[i]

             port = re.sub(r'(^\s*)|(\s*$)/g','',port_list[i])

             proxy = '%s:%s' % (ip, port)

             proxy_list.append(proxy)

     return proxy_list

 if __name__ == "__main__":

     #选择可以访问的代理

     list1 = ['http://www.66ip.cn/','https://www.xicidaili.com','http://www.iphai.com/free/ng']

     while 1==1:

         for url in list1:

             try:

                 r = requests.get(url, timeout=5,headers=header1)

                 if r.status_code == 200:

                     if url == list1[0]:

                         print ("OK 网站访问正常", url)

                         IPs = getIPList2()

                     elif url == list1[1]:

                         print ("OK 网站访问正常", url)

                         IPs = getIPList1()

                     elif url == list1[2]:

                         print ("OK 网站访问正常", url)

                         IPs = getIPList3()

                     break

             except :

                 print ("Error 不能访问！", url)

                 break

         print("获取的代理IP为：",IPs)

         time.sleep(10)

Python学习笔记六(免费获取代理IP)的更多相关文章

【Python学习笔记六】获取百度搜索结果以及百度返回“百度安全验证”问题解决
1.获取百度搜索结果页面主要是修改百度搜索url中的参数实现,例如查询的关键字为wd: 举例:https://www.baidu.com/s?wd=python",这样就可以查询到‘pyth ...
20180821 Python学习笔记：如何获取当前程序路径
20180821 Python学习笔记:如何获取当前程序路径启动的脚本的路径为:D:\WORK\gitbase\ShenzhenHouseInfoCrawler\main.py 当前脚本的路径为:D ...
Python学习笔记六
Python课堂笔记六常用模块已经可以在单位实际项目中使用,可以实现运维自动化.无需手工备份文件,数据库,拷贝,压缩. 常用模块 time模块 time.time time.localtime ti ...
python学习笔记六面向对象相关下(基础篇)
面向对象基本知识: 面向对象是一种编程方式,此编程方式的实现是基于对类和对象的使用类是一个模板,模板中包装了多个“函数”供使用(可以将多函数中公用的变量封装到对象中) 对象,根据模板创建的 ...
【Python学习笔记四】获取html内容之后，如何提取信息：使用正则表达式筛选
在能够获取到网页内容之后,发现内容很多,那么下一步要做信息的筛选,就和之前的筛选图片那样而在python中可以通过正则表达式去筛选自己想要的数据 1.首先分析页面内容信息,确定正则表达式.例如想获取 ...
python学习笔记六初识面向对象上（基础篇）
python面向对象面向对象编程(Object-Oriented Programming )介绍对于编程语言的初学者来讲,OOP不是一个很容易理解的编程方式,虽然大家都知道OOP的三大特性 ...
python学习笔记(六)、类
Python与java.c++等都被视为一种面向对象的语言.通过创建自定义类,用于处理各种业务逻辑.面向对象有封装.继承.多态三个特征,这也是面子对象语言的通用特征. 1 封装封装,是值向外部隐藏内 ...
Python学习笔记六：数据库操作
一:Python操作数据库的流程二:开发环境准备 1:开发工具PyCharm 2:Python操作mysql的工具:需要安装Python-Mysql Connector,网址:https://sou ...
python学习笔记(六):常用模块
一.模块.包什么是模块? 模块实质上就是一个python文件,它是用来组织代码的,意思就是说把python代码写到里面,文件名就是模块的名称,test.py test就是模块名称. 什么是包? 包, ...

随机推荐

python学习笔记-生成随机数
更多大数据分析.建模等内容请关注公众号<bigdatamodeling> 在实现算法时经常会用到随机数,有时会忘记各种随机数的生成方法,这里对Python中的随机数生成方法进行汇总,以供以 ...
使用@babel/preset-typescript取代awesome-typescript-loader和ts-loader
前言之前写过一篇旧React项目升级使用TypeScript的文章:在React旧项目中安装并使用TypeScript的实践. 博客里使用awesome-typescript-loader对Type ...
[权限管理系统篇] (五)-Spring security（授权过程分析）
欢迎关注公众号[Ccww笔记],原创技术文章第一时间推出前言权限管理系统的组件分析以及认证过程的往期文章: Spring security (一)架构框架-Component.Service.Fi ...
c语言输入矩阵的对角线之和
一.程序代码如下 #include<stdio.h> #define M 4 main() { int matrix[][M]={ {1,2,4,5},{2,6,6,7},{8,7,6,5 ...
flash插件
偶尔见到别人的博客侧边栏有一些很有意思的flash插件,也想加入到自己博客里面,这里来大概讲一下~ 一.支持js代码首先要在博客设置 >开启博客侧边栏公告的js代码支持,提交审核后很快 ...
python故障排除
在初学 Python 时,想要弄懂 Python 的错误信息的含义可能有点复杂.这里列出了常见的的一些让程序 crash 的运行时错误. 1)忘记在 if , elif , else , for , ...
VMware中Bridged、NAT、host-only三种网络连接模式的原理及其区别
VMnet0:这是VMware用于虚拟桥接网络下的虚拟交换机: VMnet1:这是VMware用于虚拟Host-Only网络下的虚拟交换机: VMnet8:这是VMware用于虚拟NAT网络下的虚拟交 ...
CCF-CSP题解 201903-2 二十四点
可枚举. 写栈的主要思想是:一个数栈\(numSta\),一个运算符栈\(opSta\).遇到一个运算符,就把之前优先级\(equal\ or\ greater\ than\)它的运算符处理掉. #i ...
java基础-初识类
一前言在 <[java基础]-谈谈对面向对象理解 >一文中已经知道什么是对象,如何创建对象:这篇文章主讲对象的类型,简称类: 二类介绍 2.1 类每个对象都有一个类型,通常在所有的 ...
《Dotnet9》建站-建站20天感悟
时间如流水,只能流去不流回! 点赞再看,养成习惯,这是您给我创作的动力! 本文 Dotnet9 https://dotnet9.com 已收录,站长乐于分享dotnet相关技术,比如Winform.W ...

Python学习笔记六(免费获取代理IP)

Python学习笔记六(免费获取代理IP)的更多相关文章

随机推荐

热门专题