前言

有时候爬的次数太多时ip容易被禁，所以需要ip代理的帮助。
今天爬的思路是：到云代理获取大量ip代理，逐个检测，将超时不可用的代理排除，留下优质的ip代理。

一、爬虫分析

首先看看今天要爬取的网址

http://www.ip3366.net/free/

1.分析网址

首先判断网址是动态网址还是静态网址，静态网址就是直接能通过翻页从网址里找到页码，以下是每页的网址：

http://www.ip3366.net/free/?stype=1&page=2

http://www.ip3366.net/free/?stype=1&page=3

http://www.ip3366.net/free/?stype=1&page=4

所以推出是静态网址，每页page递增1的规律

2.分析数据

今天打算用xpath来解析数据，首先打开F12，可以看到每条代理的信息都包裹在tr中，因此我们可以先通过tr获取全部信息，再遍历tr里的ip，端口和类型

二、完整代码

附上完整代码和详细注释

import requests

from lxml import etree

# 5.检测ip质量

def check_ip(proxies_list):

    headers = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1'}

    can_use=[]

    for ip in proxies_list:

        try:

            # 设置超时时间timeout，如果响应时间超出则不合格

            response=requests.get(url=base_url,headers=headers,proxies=ip,timeout=0.1)

            if response.status_code==200:

                can_use.append(ip)

        except Exception:

            print('当前代理ip:',ip,'请求超时,检测不合格')

        finally:

            print('当前代理ip:',ip,'检测通过')

    return can_use

proxies_list=[]

# 爬3页

for page in range(1,4):

    print('---------------正在爬取第{}页数据---------------'.format(page))

    # 1.分析url，添加headers，伪装成浏览器

    base_url='http://www.ip3366.net/free/?stype=1&page={}'.format(str(page))

    headers = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1'}

    # 2.发送请求

    response=requests.get(url=base_url,headers=headers)

    # 3.解析数据

    response.encoding='gbk'

    page_text=response.text

    tree=etree.HTML(page_text)

    # 获取所有ip代理的信息，就是所有tr

    ip_list=tree.xpath('//*[@id="list"]/table/tbody/tr')

    # 遍历ip代理

    for tr in ip_list:

        # xpath默认是列表类型，加个[0]就是文本类型了

        http_type=tr.xpath('./td[4]/text()')[0]

        ip=tr.xpath('./td[1]/text()')[0]

        port=tr.xpath('./td[2]/text()')[0]

        # 4.构建代理ip结构(格式像这样子{'HTTPS': '47.100.182.193:8081'})

        proxies_dict={}

        proxies_dict[http_type]=ip+":"+port

        print('保存成功:',proxies_dict)

        proxies_list.append(proxies_dict)

        #放入空列表

print('获得代理ip数量:',len(proxies_list))

print('--------------------正在检测ip质量---------------')

can_use=check_ip(proxies_list)

print('质量高的:',can_use)

print('质量高的代理ip数量:',len(can_use))

运行效果如下：

总结

这个网站一次爬取次数多了，浏览器代理（headers）容易挂，换个浏览器代理即可。

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理

想要获取更多Python学习资料可以加
QQ:2955637827私聊
或加Q群630390733
大家一起来学习讨论吧！

用Python批量爬取优质ip代理的更多相关文章

从0实现python批量爬取p站插画
一.本文编写缘由很久没有写过爬虫,已经忘得差不多了.以爬取p站图片为着手点,进行爬虫复习与实践. 欢迎学习Python的小伙伴可以加我扣群86七06七945,大家一起学习讨论二.获取网页源码爬取 ...
python 批量爬取代理ip
import urllib.request import re import time import random def getResponse(url): req = urllib.request ...
python scrapy 爬取西刺代理ip(一基础篇)（ubuntu环境下） -赖大大
第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrapy框架具体就自行百度了,主要内容不是在这. 第二步:创建scrapy(简单介绍) 1.Creating a p ...
python+scrapy 爬取西刺代理ip(一)
转自:https://www.cnblogs.com/lyc642983907/p/10739577.html 第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrap ...
python 批量爬取四级成绩单
使用本文爬取成绩大致有几个步骤:1.提取表格(或其他格式文件——含有姓名,身份证等信息)中的数据,为进行准考证爬取做准备.2.下载准考证文件并提取出准考证和姓名信息.3.根据得到信息进行数据分析和存储 ...
python批量爬取动漫免费看！！
实现效果运行环境 IDE VS2019 Python3.7 Chrome.ChromeDriver Chrome和ChromeDriver的版本需要相互对应先上代码,代码非常简短,包含空行也才50 ...
Python批量爬取谷歌原图，2021年最新可用版
文章目录前言一.环境配置 1.安装selenium 2.使用正确的谷歌浏览器驱动二.使用步骤 1.加载chromedriver.exe 2.设置是否开启可视化界面 3.输入关键词.下载图片数.图 ...
python批量爬取文档
最近项目需要将批量链接中的pdf文档爬下来处理,根据以下步骤完成了任务: 将批量下载链接copy到text中,每行1个链接: 再读txt文档构造url_list列表,利用readlines返回以行为单 ...
python批量爬取猫咪图片
不多说直接上代码首先需要安装需要的库,安装命令如下 pip install BeautifulSoup pip install requests pip install urllib pip ins ...

随机推荐

对于order by子句
order by子句指定排序顺序 select username from user order by username; 依据username的字母顺序对于查找出来的username进行排序,默认是 ...
yii2 删除数据
直接 model 删除 $model = User::find($id); $model->delete(); 带有条件的删除 $connection ->createCommand() ...
pytest的setup和teardown
学过unittest的setup和teardown,前置和后置执行功能.pytest也有此功能并且功能更强大,今天就来学习一下吧. 用例运行级别: 模块级(setup_module/teardown_ ...
iOS 百度地图使用详解
最近仿照美团做了款应用,刚好用到百度地图,高德地图之前用的比较多,只是这个项目的后台服务器是另外一个公司做的,他们用的就是百度地图,现在网上用百度地图的还不算太多,博文也是断断续续的,主要是中间跳跃有 ...
java实验作业1
1 //1已知圆的半径为10,求其周长及面积 2 package calsswork3; 3 4 public class test3_1 { 5 //求周长 6 public static doub ...
区块链V1版本实现之三
部分程序代码(区块链的定义及遍历打印): 1 //创建区块链,使用Block数组模拟 2 type BlockChain struct { 3 Blocks []*Block 4 } 5 6 //实现 ...
python将对象写入文件，以及从文件中读取对象
原文地址: http://www.voidcn.com/article/p-fqtqpwxp-wo.html 写入文件代码: >>> import sys, shelve >& ...
if判断和while、for循环
if判断语法一: if 条件: 条件成立时执行子代码块代码1 代码2 实例一: sex='female' age=18 is_beautifui=True if sex=='female' ...
JZOJ2020年8月7日提高组反思
JZOJ2020年8月7日提高组反思 T1 暴力枚举枚举起点和$p$ 然后就过了?! 根据本人不严谨的推算时间复杂度$O(\dfrac{n^7}{4})$ 数据太水就过去了QAQ T2 ...
PyQt及PyCharm学习中遇到的问题
在PyQt及PyCharm学习过程中,老猿遇到了如下问题: 问题: 刚安装的PyCharm执行代码报"ModuleNotFoundError: No module named XXXX&qu ...

用Python批量爬取优质ip代理

前言