python爬虫redis-ip代理池搭建几十万的ip数据--可以使用

from bs4 import BeautifulSoup
import requests,os,sys,time,random,redis
from lxml import etree
conn = redis.Redis(host='127.0.0.1',port=6379,db=0,decode_responses=True)
def get_ip(page_url,headers,cookies,sui_ji_time):
    """
    爬取ip并组合ip使用的格式
    :param page_url:
    :param headers:
    :param cookies:
    :param sui_ji_time:
    :return:
    """
    try:

        print('{}--{}--{}--{}>>{}'.format('此程序睡眠时间',sui_ji_time,'正在爬取第',page_url,'的数据'))
        response = requests.get(page_url,headers=headers,cookies=cookies).text
        json_lxml = etree.HTML(response)
        table = json_lxml.xpath('//*[@id="list"]/table/tbody/tr')
        for i in table:
            html_ip = i.xpath('.//td[1]/text()')[0]
            html_ip_port = i.xpath('.//td[2]/text()')[0]
            html_ip_lei = i.xpath('.//td[4]/text()')[0]
            daili_ip = '{}{}:{}'.format('http://', html_ip, html_ip_port)
            if html_ip_lei == 'HTTP':
                ceshi_ip(headers,cookies,sui_ji_time,daili_ip,html_ip_lei)
            else:
                ceshi_ip(headers,cookies,sui_ji_time,daili_ip,html_ip_lei)
    except:

        print('{}--{}--{}--{}>>{}'.format('此程序睡眠时间', sui_ji_time, '正在爬取第', page_url, '的数据=========失败'))

def ceshi_ip(headers,cookies,sui_ji_time,daili_ip,html_ip_lei):
    """
    测试爬取下来的ip是否可用
    :param headers:
    :param cookies:
    :param sui_ji_time:
    :param daili_ip:
    :param html_ip_lei:
    :return:
    """
    print(daili_ip,'@@@@@@@@@@@@')
    # list1 = []
    try:
        requests.get('http://wenshu.court.gov.cn/', proxies={str(html_ip_lei): daili_ip})
    except:
        print('{}>>{}'.format(daili_ip,'不可用'))
    else:
        print('{}>>{}'.format(daili_ip,'可用'))
        """
        存储redis数据库
        """
        try:
            conn.sadd('proxy','{}+{}'.format(html_ip_lei,daili_ip))
            print('{}'.format('存储redis成功'))
        except:
            print('{}'.format('存储redis失败'))
        root_dir = '{}'.format('D:\\web_xiangmu\\biquge_tushu\\代理')
        # list1.append({str(html_ip_lei): str(daili_ip)})
        if not os.path.exists(root_dir):
            os.mkdir(root_dir)
            print('{}'.format('创建成功'))
        # print('{}'.format('文件存在'))
        """
        存储文件以防丢失
        """
        try:
            with open(root_dir+'\\'+'daili.text', "a+") as mon:
                mon.write('{}+{}\n'.format(html_ip_lei,daili_ip))
                print('{}>>>{}'.format(daili_ip,'写入成功'))
        except:
            print('{}'.format('写入失败'))

def main():
    """
    爬取ip代理网站的全部ip
    并组合分页
    :return:
    """

    url = 'https://www.kuaidaili.com/free/inha/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36',
        'Referer': 'https://www.kuaidaili.com/free/inha/',
    }
    cookies = {
        'Cookie': 'channelid=0; sid=1575640807483263; _ga=GA1.2.757045199.1575642271; _gid=GA1.2.1903168241.1575642271; _gat=1; Hm_lvt_7ed65b1cc4b810e9fd37959c9bb51b31=1575642272,1575686420; Hm_lpvt_7ed65b1cc4b810e9fd37959c9bb51b31=1575686420',
    }
    try:
        response = requests.get(url,headers=headers,cookies=cookies).text
        json_lxml = etree.HTML(response)
        ip_page = json_lxml.xpath('//ul/li[9]/a/text()')[0]
        ip_page_href = json_lxml.xpath('//ul/li[9]/a/@href')[0]
        sui_ji_time = random.choice(list_time_sleep)
        for page in range(1,int(ip_page)+1):
            page_url = '{}/{}/{}/{}'.format('https://www.kuaidaili.com',''.join(ip_page_href).split('/')[1],''.join(ip_page_href).split('/')[2],page)
            time.sleep(sui_ji_time)
            get_ip(page_url,headers,cookies,sui_ji_time)
    except:
        print('程序崩溃')

if __name__ == '__main__':
    list_time_sleep = [5,10,15]
    zhu_sui_ji_time = random.choice(list_time_sleep)
    print('{}<<{}>>{}'.format('主程序随机睡眠时间',zhu_sui_ji_time,'秒'))
    time.sleep(zhu_sui_ji_time)
    main()

"""
import redis,requests
conn = redis.Redis(host='127.0.0.1',port=6379,db=0,decode_responses=True)
ip = conn.srandmember('proxy')
ip_add = ''.join(ip).split('+')
zhen_ip = ip_add
dict1 = {}
# # 使用IP代理访问百度，测试代理地址是否有效
try:
    requests.get('http://wenshu.court.gov.cn/', proxies={zhen_ip[0]: zhen_ip[1]})
    print('{}---{}>>>{}'.format(zhen_ip[0],zhen_ip[1],'可用'))
except:
    #删除没用的ip
    conn.srem('proxy',zhen_ip[1] )
    print('{}---{}>>>{}'.format(zhen_ip[0], zhen_ip[1], '不可用'))
    dict1 = {zhen_ip[0]:zhen_ip[1]}}

print(dict1)

#<<<proxies=dict1>>>在请求头部添加这个参数就可以正常使用了
"""

python爬虫redis-ip代理池搭建几十万的ip数据--可以使用的更多相关文章

免费IP代理池定时维护，封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池，并制作简易流量爬虫
前言我们之前的爬虫都是模拟成浏览器后直接爬取,并没有动态设置IP代理以及UserAgent标识,本文记录免费IP代理池定时维护,封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池,并制作 ...
反爬虫之搭建IP代理池
反爬虫之搭建IP代理池听说你又被封 ip 了,你要学会伪装好自己,这次说说伪装你的头部.可惜加了header请求头,加了cookie 还是被限制爬取了.这时就得祭出IP代理池!!! 下面就是requ ...
python爬虫18 | 就算你被封了也能继续爬，使用IP代理池伪装你的IP地址，让IP飘一会
我们上次说了伪装头部 ↓ python爬虫17 | 听说你又被封 ip 了,你要学会伪装好自己,这次说说伪装你的头部让自己的 python 爬虫假装是浏览器小帅b主要是想让你知道在爬取网站的时候 ...
记一次企业级爬虫系统升级改造（六）：基于Redis实现免费的IP代理池
前言: 首先表示抱歉,春节后一直较忙,未及时更新该系列文章. 近期,由于监控的站源越来越多,就偶有站源做了反爬机制,造成我们的SupportYun系统小爬虫服务时常被封IP,不能进行数据采集. 这时候 ...
Python爬虫之ip代理池
可能在学习爬虫的时候,遇到很多的反爬的手段,封ip 就是其中之一. 对于封IP的网站.需要很多的代理IP,去买代理IP,对于初学者觉得没有必要,每个卖代理IP的网站有的提供了免费IP,可是又很少,写了 ...
python爬虫实战（三）--------搜狗微信文章（IP代理池和用户代理池设定----scrapy）
在学习scrapy爬虫框架中,肯定会涉及到IP代理池和User-Agent池的设定,规避网站的反爬. 这两天在看一个关于搜狗微信文章爬取的视频,里面有讲到ip代理池和用户代理池,在此结合自身的所了解的 ...
python爬虫（3）——用户和IP代理池、抓包分析、异步请求数据、腾讯视频评论爬虫
用户代理池用户代理池就是将不同的用户代理组建成为一个池子,随后随机调用. 作用:每次访问代表使用的浏览器不一样 import urllib.request import re import rand ...
静听网+python爬虫+多线程+多进程+构建IP代理池
目标网站:静听网网站url:http://www.audio699.com/ 目标文件:所有在线听的音频文件附:我有个喜好就是听有声书,然而很多软件都是付费才能听,免费在线网站虽然能听,但是禁ip ...
Scrapy加Redis加IP代理池实现音乐爬虫
音乐爬虫关注公众号"轻松学编程"了解更多. 目的:爬取歌名,歌手,歌词,歌曲url. 一.创建爬虫项目创建一个文件夹,进入文件夹,打开cmd窗口,输入: scrapy star ...

随机推荐

python —— 文本特征提取 CountVectorize
CountVectorize 来自:python学习文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理 - CSDN博客 https://blog.csdn ...
C#剪切生成高质量缩放图片
/// <summary> /// 高质量缩放图片 /// </summary> /// <param name="OriginFilePath"&g ...
C++ STL——类型转换
目录一类型转换注:原创不易,转载请务必注明原作者和出处,感谢支持! 注:内容来自某培训课程,不一定完全正确! 一类型转换类型转换的含义是通过改变一个变量的类型为别的类型从而改变变量的表示方式 ...
埃利斯（A.Ellis）ABCDE情绪管理理论
埃利斯(A.Ellis)ABCDE情绪管理理论A :Activating Events(诱发事件)B :Beliefs(个体对诱发事件的评价.解释.看法)C :Consequences(个体情绪和行为 ...
有关react-native的最常用的库（文件、样式、UI组件）
一.对文件的处理 1.react-native-fs 2.react-native-file-selector 3.MaterialFilePicker 二.React-Native 样式指南 1.r ...
小D课堂-SpringBoot 2.x微信支付在线教育网站项目实战_2-4.后端项目分层分包及资源文件处理
笔记 4.后端项目分层分包及资源文件处理简介:项目基本目录结构,包名称建立,配置文件建立 1.基本目录结构 controller se ...
用Python计算三角函数之acos()方法的使用
用Python计算三角函数之acos()方法的使用 acos()方法返回x的反余弦值,以弧度表示. 语法以下是acos()方法的语法: acos(x) 注意:此函数是无法直接访问的,所以我们 ...
robots.txt文件
网站通过一个符合Robots协议的robots.txt文件来告诉搜索引擎哪些页面可以爬取.Robots.txt协议全称“网络爬虫排除标准”.一般情况下,该文件以一行或多行User-agent记录开始, ...
Java入门第二季学习总结
课程总概该门课程作为java入门学习的第二季,是在有一定的java基础上进行的进一步学习.由于该季涉及到了java的一些核心内容,所以相对第一季来说,课程难度有所提升.大致可将该季的课程分为五部分: ...
【VS开发】CListCtrl控件使用
为何调用了CListCtrl的InsertColumn却什么效果都没有?这个问题以前发现过,今天才清楚,那就是要把它的Style指定为LVS_REPORT. 具体做法如下: 假 ...

python爬虫redis-ip代理池搭建几十万的ip数据--可以使用

python爬虫redis-ip代理池搭建几十万的ip数据--可以使用的更多相关文章

随机推荐

热门专题