Python爬虫篇（代理IP）--lizaza.cn

在做网络爬虫的过程中经常会遇到请求次数过多无法访问的现象，这种情况下就可以使用代理IP来解决。但是网上的代理IP要么收费，要么没有API接口。秉着能省则省的原则，自己创建一个代理IP库。

废话不多说，直接上代码：

 import requests

 from bs4 import BeautifulSoup

 # 发送请求

 def GetInfo(url):

     headers = {

         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'

     }

     proxies = {"http": "https://119.180.173.81:8060"}

     response = requests.get(url=url, proxies=proxies, headers=headers)

     response.encoding = "utf8"

     return response.text

 # 将数据写入文件

 def WriteData():

     for i in range(100):

         url = "https://www.xicidaili.com/nn/" + str(i+1)

         data = GetData(url)

         file = open('Proxies.txt', 'a+')

         file.write(str(data))

         file.close()

 # 验证该代理能否使用

 def verify(proxies):

     req = requests.get("https://www.baidu.com", proxies=proxies)

     return req.status_code

 # 解析页面

 def GetData(url):

     data = list()

     html = GetInfo(url)

     soup = BeautifulSoup(html, "lxml")

     table = soup.find_all("table", id="ip_list")

     soup = BeautifulSoup(str(table[0]), "lxml")

     trs = soup.find_all("tr")

     del trs[0]

     for tr in trs:

         ip = tr.select("td")[1].get_text()

         port = tr.select("td")[2].get_text()

         protocol = tr.select("td")[5].get_text()

         address = protocol.lower()+"://"+ip+":"+port

         proxies = {'http': address}

         if verify(proxies) == 200:

             data.append(address)

     return data

 if __name__ == '__main__':

     WriteData()

返回数据：

['http://111.222.141.127:8118', 'https://117.88.177.101:3000', 'http://183.166.136.144:8888', 'http://27.208.231.100:8060', 'http://123.169.99.177:9999', 'http://119.84.84.185:12345', 'http://101.132.190.101:80', 'https://114.99.54.65:8118', 'https://119.4.13.26:1133', 'http://58.253.158.177:9999', 'http://114.223.208.165:8118', 'http://112.84.73.53:9999']

源站地址：https://www.lizaza.cn/page23.html

Python爬虫篇（代理IP）--lizaza.cn的更多相关文章

Python 爬虫的代理 IP 设置方法汇总
本文转载自:Python 爬虫的代理 IP 设置方法汇总 https://www.makcyun.top/web_scraping_withpython15.html 需要学习的地方:如何在爬虫中使用 ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...
python多线程建立代理ip池
之前有写过用单线程建立代理ip池,但是大家很快就会发现,用单线程来一个个测试代理ip实在是太慢了,跑一次要很久才能结束,完全无法忍受.所以这篇文章就是换用多线程来建立ip池,会比用单线程快很多.之所以 ...
爬虫-设置代理ip
1.为什么要设置代理ip 在学习Python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败.高强度.高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网 ...
爬虫前奏——代理ip的使用
如果同一个IP短时见内多次访问统一网页,可能会被系统识别出是爬虫,因此使用代理IP可以很大程度上解决这一问题常用的代理有: 西刺免费代理:www.xicidaili.com 快代理:www.kuai ...
Python 快速验证代理IP是否有效
有时候,我们需要用到代理IP,比如在爬虫的时候,但是得到了IP之后,可能不知道怎么验证这些IP是不是有效的,这时候我们可以使用Python携带该IP来模拟访问某一个网站,如果多次未成功访问,则说明这个 ...
使用Python爬取代理ip
本文主要代码用于有代理网站http://www.kuaidaili.com/free/intr中的代理ip爬取,爬虫使用过程中需要输入含有代理ip的网页链接. 测试ip是否可以用 import tel ...
python实现切换代理ip
大量的处理爬虫的时候,IP地址容易被封掉,这个时候可以使用代理IP来帮助完成接下来的任务了使用Requests模块来完成请求,代码如下: import urllib.requestimport re ...
node.js 爬虫动态代理ip
参考文章: https://andyliwr.github.io/2017/12/05/nodejs_spider_ip/ https://segmentfault.com/q/10100000081 ...

随机推荐

Spring ioc xml 实例化bean 自己实现
public class DefClassPathXmlApplicationContext { private String xmlPath; public DefClassPathXmlAppli ...
iOS提审笔记
查看苹果各大系统的服务状态:中国区服务:https://www.apple.com/cn/support/systemstatus/美国区服务:https://developer.apple.com/ ...
flex布局你真的搞懂了吗？通俗简洁，小白勿入~
flex布局用以代替浮动的布局手段: 必须先把一个元素设置为弹性容器://display:flex: 一个元素可以同时是弹性容器和弹性元素; 设为flex布局以后,子元素的float.clear和v ...
java程序：转化金额
在处理财务账款时,需要将转账金额写成大写的.也就是说,如果要转账123456.00元,则需要写成“壹拾贰万叁仟肆佰伍拾陆元整”.所以常常需要通过程序控制自动进行转换.本实例实现了小写金额到大写金额的转 ...
NKOJ4330 逛公园
时间限制 : - MS 空间限制 : 565536 KB 评测说明 : 3s 问题描述策策同学特别喜欢逛公园.公园可以看成一张N个点M条边构成的有向图,且没有自环和重边.其中1号点是公园的入 ...
E - 不爱学习的lyb HDU - 1789（贪心策略）
众所周知lyb根本不学习.但是期末到了,平时不写作业的他现在有很多作业要做. CUC的老师很严格,每个老师都会给他一个DDL(deadline). 如果lyb在DDL后交作业,老师就会扣他的分. 现在 ...
1032 Sharing (25分)(数组链表)
To store English words, one method is to use linked lists and store a word letter by letter. To save ...
usdt钱包对接，usdt 对接交易平台，usdtapi，以太坊对接，以太坊代币对接
usdt钱包对接,usdt 对接交易平台,usdtapi,以太坊对接,以太坊代币对接自动充提币接口开发. 可对接:商城系统,游戏APP,交易平台,网站,各类APP -实现自动充提,查询,上链等功能接 ...
spring07
关于spring的泛型依赖注入主要是继承等方面的知识具体实现的简单的代码如下: package bao1; public class BaseRepository <T>{ } pack ...
单线程IP扫描解析
扫描代码: private void Button_Click(object sender, RoutedEventArgs e) { a5.Items.Clear(); string str = t ...

Python爬虫篇（代理IP）--lizaza.cn

Python爬虫篇（代理IP）--lizaza.cn的更多相关文章

随机推荐

热门专题