自动爬取代理IP例子

import time

import json

import datetime

import threading

import requests

from lxml import etree

from queue import Queue

# 爬取免费代理IP 来源xicidaili.com

# 多线程验证代理ip是否可用

class ProxyTest:

    def __init__(self):

        self.test_url = "http://pv.sohu.com/cityjson?ie=utf-8"

        self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36",}

        self.request_queue = Queue()

    def parse_url(self, url, proxies, timeout=3):

        return requests.get(url, headers=self.headers, proxies=proxies, timeout=timeout).content.decode()

    # 请求

    def request(self):

        while True:

            # 获取ip地址

            ip = self.request_queue.get()

            # 发起请求

            try:

                starttime = datetime.datetime.now()

                html_str = self.parse_url(self.test_url, proxies={"http": ip}, timeout=5)

                endtime = datetime.datetime.now()

                use_time = endtime - starttime

            except Exception as e:

                # 请求超时

                print("timeout %s" % ip)

                self.request_queue.task_done()

                continue

            # 检查返回html

            try:

                json_dict = json.loads(html_str[19:-1])

            except:

                print("fail %s, use time %d" % (ip, use_time.seconds))

                self.request_queue.task_done()

                continue

            if ip.startswith("http://"+json_dict["cip"]):

                # 代理可用

                print("success %s, use time %d, %s" % (ip, use_time.seconds, html_str))

                self.request_queue.task_done()

                # 保存到文件

                with open("proxy_ok_ip.json", "a", encoding="utf-8") as f:

                    f.write(ip)

                    f.write("\n")

            else:

                # ip不是高匿代理

                print("%s invalid, use time %d" % (ip, use_time.seconds))

                self.request_queue.task_done()

    def run(self):

        # 读取ip地址文件 并存储到队列中

        with open("proxy.json", "r", encoding="utf-8") as f:

            for line in f:

                self.request_queue.put(line.strip())

        # 遍历，发送请求，获取响应

        for i in range(30):

            # daemon=True 把子线程设置为守护线程，该线程不重要主线程结束，子线程结束

            threading.Thread(target=self.request, daemon=True).start()

        self.request_queue.join() #让主线程等待阻塞，等待队列的任务完成之后再完成

        print("主线程结束")

class Proxy:

    def __init__(self):

        self.headers = {

            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"

        }

    def start_urls_superfastip(self):

        return ["http://www.superfastip.com/welcome/freeip/%d" % i for i in range(1,11)]

    def get_content_list_superfastip(self, html_str):

        content_list = []

        html = etree.HTML(html_str)

        tr_list = html.xpath('/html/body/div[3]/div/div/div[2]/div/table/tbody/tr')

        for tr in tr_list:

            if tr.xpath('./td[4]/text()')[0].strip() == 'HTTP':

                item = {}

                item["ip"] = tr.xpath('./td[1]/text()')[0].strip()

                item["port"] = tr.xpath('./td[2]/text()')[0].strip()

                content_list.append(item)

        return content_list

    def start_urls_xici(self):

        return ["http://www.xicidaili.com/nn/%d" % i for i in range(1,6)]

    def get_content_list_xici(self, html_str):

        content_list = []

        html = etree.HTML(html_str)

        tr_list = html.xpath('//table[@id="ip_list"]/tr')[1:]

        for tr in tr_list:

            item = {}

            item["ip"] = tr.xpath('./td[2]/text()')[0].strip()

            item["port"] = tr.xpath('./td[3]/text()')[0].strip()

            content_list.append(item)

        return content_list

    def start_urls_kuaidaili(self):

        return ["https://www.kuaidaili.com/free/inha/%d/" % i for i in range(1, 11)]

    def get_content_list_kuaidaili(self, html_str):

        content_list = []

        html = etree.HTML(html_str)

        tr_list = html.xpath('//div[@id="list"]/table/tbody/tr')

        for tr in tr_list:

            item = {}

            item["ip"] = tr.xpath('./td[1]/text()')[0].strip()

            item["port"] = tr.xpath('./td[2]/text()')[0].strip()

            content_list.append(item)

        return content_list

    def start_urls_89ip(self):

        return ["http://www.89ip.cn/index_%d.html" % i for i in range(1, 11)]

    def get_content_list_89ip(self, html_str):

        content_list = []

        html = etree.HTML(html_str)

        tr_list = html.xpath('//div[@class="layui-form"]/table/tbody/tr')

        for tr in tr_list:

            item = {}

            item["ip"] = tr.xpath('./td[1]/text()')[0].strip()

            item["port"] = tr.xpath('./td[2]/text()')[0].strip()

            content_list.append(item)

        return content_list

    def parse_url(self, url):

        return requests.get(url, headers=self.headers).content.decode()

    def save_content_list(self, content_list):

        with open("proxy.json", "a", encoding="utf-8") as f:

            for ip in content_list:

                f.write("http://%s:%s" % (ip["ip"], ip["port"]))

                f.write("\n")

    def run(self):

        # 构造请求地址列表

        start_urls_xici = self.start_urls_xici()

        start_urls_89ip = self.start_urls_89ip()

        start_urls_kuaidaili = self.start_urls_kuaidaili()

        start_urls_superfastip = self.start_urls_superfastip()

        all_content_list = []  # 存放所有爬取到的ip

        for url in start_urls_superfastip:

            html_str = self.parse_url(url)  # 获取响应

            content_list = self.get_content_list_superfastip(html_str)  # 处理响应

            all_content_list.extend(content_list)  # 将结果加到列表里

            time.sleep(0.2)

        for url in start_urls_xici:

            html_str = self.parse_url(url)  # 获取响应

            content_list = self.get_content_list_xici(html_str)  # 处理响应

            all_content_list.extend(content_list)  # 将结果加到列表里

            time.sleep(0.2)

        for url in start_urls_kuaidaili:

            html_str = self.parse_url(url)

            content_list = self.get_content_list_kuaidaili(html_str)

            all_content_list.extend(content_list)

            time.sleep(0.2)

        for url in start_urls_89ip:

            html_str = self.parse_url(url)

            content_list = self.get_content_list_89ip(html_str)

            all_content_list.extend(content_list)

            time.sleep(0.2)

        print("抓取完成")

        self.save_content_list(all_content_list)

if __name__ == '__main__':

    # 抓取数据

    spider = Proxy()

    spider.run()

    # 检测ip是否可用

    proxy = ProxyTest()

    proxy.run()

    print("最后可以用的代理IP在proxy_ok_ip.json")

自动爬取代理IP例子的更多相关文章

python爬虫爬取代理IP
# #author:wuhao # #--*------------*-- #-****#爬取代理IP并保存到Excel----#爬取当日的代理IP并保存到Excel,目标网站xicidaili.co ...
python 批量爬取代理ip
import urllib.request import re import time import random def getResponse(url): req = urllib.request ...
使用Python爬取代理ip
本文主要代码用于有代理网站http://www.kuaidaili.com/free/intr中的代理ip爬取,爬虫使用过程中需要输入含有代理ip的网页链接. 测试ip是否可以用 import tel ...
爬虫爬取代理IP池及代理IP的验证
最近项目内容需要引入代理IP去爬取内容. 为了项目持续运行,需要不断构造.维护.验证代理IP. 为了绕过服务端对IP 和频率的限制,为了阻止服务端获取真正的主机IP. 一.服务器如何获取客户端IP ...
python代理池的构建3——爬取代理ip
上篇博客地址:python代理池的构建2--代理ip是否可用的处理和检查一.基础爬虫模块(Base_spider.py) #-*-coding:utf-8-*- ''' 目标: 实现可以指定不同UR ...
爬取代理IP
现在爬虫好难做啊,有些网站直接封IP,本人小白一个,还没钱,只能找免费的代理IP,于是去爬了西刺免费代理,结果技术值太低,程序还没调试好, IP又被封了... IP又被封了... IP又被封了... ...
爬取代理IP，并判断是否可用。
# -*- coding:utf-8 -*- from gevent import monkey monkey.patch_all() import urllib2 from gevent.pool ...
Python爬取代理ip
# -*- coding:utf-8 -*- #author : willowj import urllib import urllib2 from bs4 import BeautifulSoup ...
原创:Python爬虫实战之爬取代理ip
编程的快乐只有在运行成功的那一刻才知道QAQ 目标网站:https://www.kuaidaili.com/free/inha/ #若有侵权请联系我因为上面的代理都是http的所以没写这个判断代 ...

随机推荐

lvs工作方式和调度算法
LVS工作原理可以简单理解为: Lvs工作在内核空间,本身工作在input链上,与iptable不能同时用. LVS: ipvsadm :管理集群服务的工具,用来写规则 Ipvs 工作在内核. 工作原 ...
C++ STL（一）string的用法
# 1.string的用法- string在<iostream>的头中就有,但是还是得用<string>的头 ##### 构造函数- str(const char* ch) 直 ...
SpringMVC的工作原理及MVC设计模式
SpringMVC的工作原理: 1.当用户在浏览器中点击一个链接或者提交一个表单时,那么就会产生一个请求(request).这个请求会携带用户请求的信息,离开浏览器. 2.这个请求会首先到达Sprin ...
动态添加+动态绑定（vue数据驱动思路）
先上案例首先来分析一下,勾选科目的时候,下面同时增加科目的满分值设置. 以前写jquery的思路:当勾选的时候创建dom节点,然后把dom节点append到父节点上,项目采用前后分离的方式进行交互, ...
c# 谷歌动态口令对接
https://www.cnblogs.com/easyauthor/p/11054869.html Google 身份验证器与两步验证功能配合,可在您登录 Google 帐户时为您平添一重安全保障. ...
LeetCode - 不邻接植花
有 N 个花园,按从 1 到 N 标记.在每个花园中,你打算种下四种花之一. paths[i] = [x, y] 描述了花园 x 到花园 y 的双向路径. 另外,没有花园有 3 条以上的路径可以进入或 ...
python图片转字符画（转）
先上代码: from PIL import Image import argparse #命令行输入参数处理 parser = argparse.ArgumentParser() parser.add ...
WebClient上传下载文件，小白篇
WebClient的上传文件一直报错,各种百度各种稀奇古怪的东西,终于百度到一篇小白学习篇转自: https://www.cnblogs.com/cncc/p/5722231.html 使用C#We ...
pyCharm报错"your evaluation license has expired, pycharm will now exit"解决方法（实测）
一.修改C:\Windows\System32\drivers\etc 目录下的hosts文件 1.打开hosts文件,路径是 c:\windows\system32\drivers\etc\host ...
[BZOJ2791]:[Poi2012]Rendezvous（塔尖+倍增LCA）
题目传送门题目描述给定一个有n个顶点的有向图,每个顶点有且仅有一条出边.每次询问给出两个顶点${a}_{i}$和${b}_{i}$,求满足以下条件的${x}_{i}$和${y}_{i}$: ...

自动爬取代理IP例子

自动爬取代理IP例子的更多相关文章

随机推荐

热门专题