python3爬虫-通过requests爬取西刺代理

import requests

from fake_useragent import UserAgent

from lxml import etree

from urllib.parse import urljoin

import pymysql

import time

ua = UserAgent()

class MyException(Exception):

    def __init__(self, status, msg):

        self.status = status

        self.msg = msg

        super().__init__()

class XiCi:

    def __init__(self):

        self.session = requests.Session()

        self.session.headers = {

            "User-Agent": ua.random,

            "Host": "www.xicidaili.com"

        }

        self.conn = pymysql.connect(host="127.0.0.1",

                                    port=3306,

                                    user="root",

                                    db="proxies")

        self.cursor = self.conn.cursor(cursor=pymysql.cursors.DictCursor)

    def get_page_html(self, api):

        '''通过get方法请求网页'''

        response = self.session.get(url=api, headers=self.session.headers)

        if response.status_code == 200:

            return response

    def __html_to_etree(self, html):

        '''将html源码转为xml'''

        return etree.HTML(html)

    def get_next_page_url(self, response):

        '''拿到下一页的url'''

        selector = self.__html_to_etree(response.text)

        try:

            next_page_url = selector.xpath("//a[@class='next_page']/@href")[0]

            next_page_url = urljoin(response.url, next_page_url)

            return next_page_url

        except IndexError:

            raise MyException(1000, "爬取完毕")

    def __get_proxies_info(self, response):

        '''获取到爬取的代理信息'''

        selector = self.__html_to_etree(response.text)

        tr_ele_list = selector.xpath("//*[@id='ip_list']//tr")

        for tr in tr_ele_list:

            ip = tr.xpath("td[2]/text()")

            if not ip:

                continue

            ip = ip[0]

            port = tr.xpath("td[3]/text()")[0]

            type = tr.xpath("td[6]/text()")[0]

            yield [ip, port, type]

    def __detect_availability(self, data):

        '''拿到爬取的数据，检测代理是否可以使用'''

        https_api = "https://icanhazip.com/"

        http_api = "http://icanhazip.com/"

        ip = data[0]

        port = data[1]

        type = data[2]

        proxies = {type.lower(): "{}://{}:{}".format(type.lower(), ip, port)}

        try:

            if type.upper() == "HTTPS":

                requests.get(https_api, headers={"User-Agent": ua.random}, proxies=proxies, timeout=3)

            else:

                requests.get(http_api, headers={"User-Agent": ua.random}, proxies=proxies, timeout=3)

            return True

        except Exception:

            return False

    def get_usable_proxies_ip(self, response):

        '''获取到可用的代理ip'''

        res = self.__get_proxies_info(response)

        for data in res:

            if self.__detect_availability(data):

                self.save_to_db(data)

    def save_to_db(self, data):

        '''保存到数据库'''

        sql = 'insert into proxies_table(ip,port,type) values(%s,%s,%s);'

        print(data)

        self.cursor.execute(sql, data)

        self.conn.commit()

    def run(self, api):

        '''启动入口'''

        page = 1

        while True:

            print("爬取第{}页数据...".format(page))

            response = self.get_page_html(api)

            self.get_usable_proxies_ip(response)

            try:

                api = self.get_next_page_url(response)

            except MyException as e:

                if e.status == 1000:

                    print(e.msg)

                    break

            page += 1

            time.sleep(3)

    def __del__(self):

        self.conn.close()

if __name__ == '__main__':

    api = "https://www.xicidaili.com/nn"

    xici = XiCi()

    xici.run(api)

python3爬虫-通过requests爬取西刺代理的更多相关文章

使用XPath爬取西刺代理
因为在Scrapy的使用过程中,提取页面信息使用XPath比较方便,遂成此文. 在b站上看了介绍XPath的:https://www.bilibili.com/video/av30320885?fro ...
Python四线程爬取西刺代理
import requests from bs4 import BeautifulSoup import lxml import telnetlib #验证代理的可用性 import pymysql. ...
手把手教你使用Python爬取西刺代理数据（下篇）
/1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...
Scrapy爬取西刺代理ip流程
西刺代理爬虫 1. 新建项目和爬虫 scrapy startproject daili_ips ...... cd daili_ips/ #爬虫名称和domains scrapy genspider ...
python3爬虫-使用requests爬取起点小说
import requests from lxml import etree from urllib import parse import os, time def get_page_html(ur ...
python3爬虫-通过requests爬取图虫网
import requests from fake_useragent import UserAgent from requests.exceptions import Timeout from ur ...
Python3爬虫使用requests爬取lol英雄皮肤
本人博客:https://xiaoxiablogs.top 此次爬取lol英雄皮肤一共有两个版本,分别是多线程版本和非多线程版本. 多线程版本 # !/usr/bin/env python # -*- ...
python scrapy 爬取西刺代理ip(一基础篇)（ubuntu环境下） -赖大大
第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrapy框架具体就自行百度了,主要内容不是在这. 第二步:创建scrapy(简单介绍) 1.Creating a p ...
python+scrapy 爬取西刺代理ip(一)
转自:https://www.cnblogs.com/lyc642983907/p/10739577.html 第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrap ...

随机推荐

luogu 3375 【模板】KMP字符串匹配
我太菜了今天才学会kmp #include<iostream> #include<cstdio> #include<algorithm> #include< ...
bzoj 2067 [ Poi 2004 ] SZN —— 二分
题目:https://www.lydsy.com/JudgeOnline/problem.php?id=2067 问题1:贪心考虑,应该是每个点的儿子尽量两两配对,如果剩一个就和自己合并向上,所以 a ...
Codeforces 802 补题
codeforces802 A-O Helvetic Coding Contest 2017 online mirror A Heidi and Library (easy) 水题同B #incl ...
SVG Path标签 A 参数
A rx ry x-axis-rotation large-arc-flag sweep-flag x yrx:x轴半径ry:y轴半径x-axis-rotation:指椭圆的X轴与水平方向顺时针方向夹 ...
堆和栈的区别【以java为例潜入分析】
Java的堆是一个运行时数据区,类的对象从中分配空间,这些对象通过new等指令建立. 堆是由垃圾回收来负责的,堆的优势是可以动态地分配内存大小,生存期也不必事先告诉编译器,Java的垃圾收集器会自动 ...
robotframework - 框架做接口自动化post请求
1.做get请求之前先安装 Request库,参考github上链接 :https://github.com/bulkan/robotframework-requests/#readme 2.请求&a ...
array_column() 函数[二维数组转为一维数组]
array_column() 函数输出数组中某个键值的集合[二维数组转为一位数组] <?php // 表示由数据库返回的可能记录集的数组 $a = array( array( 'id' =&g ...
思维题+set URAL 1718 Rejudge
题目传送门 /* 题意:数据加10组,再删掉第6组数据,问rejudge后最少最多几个作者收到邮件思维题:当错在6时结果是不一定,错在7时是一定改变,因为会变成6 思路没错,但用结构题排序一直WA, ...
ACM_01背包
背包1 Time Limit: 2000/1000ms (Java/Others) Problem Description: 有n个重量和价值分别为Wi,Vi的物品,现从这些物品中挑选出总量不超过 W ...
Enumerable.Union<TSource> 方法
功能:生成两个序列的并集(使用默认的相等比较器). 命名空间: System.Linq 程序集: System.Core.dll 备注:实现此方法时使用了延迟执行. 它直接返回一个对象,该对象存储了执 ...

python3爬虫-通过requests爬取西刺代理

python3爬虫-通过requests爬取西刺代理的更多相关文章

随机推荐

热门专题