爬取西刺网的免费IP

在写爬虫时，经常需要切换IP，所以很有必要自已在数据维护库中维护一个IP池，这样，就可以在需用的时候随机切换IP，我的方法是爬取西刺网的免费IP，存入数据库中，然后在scrapy 工程中加入tools这个目录，里面存放一些常用的目录，包括这个免费IP池，具体目录如下：

crawl_ip_from_xichi.py 代码如下：

import requests

from fake_useragent import UserAgent

from scrapy.selector import Selector

import time

import pymysql

class GetIPFromXichi(object):

    """通过西刺得到可用的IP，存入数据库"""

    def crawl_ip(self):

        """爬取西刺的免费IP"""

        ip_list = []

        for i in range(1, 20):

            headers = UserAgent()

            ua = getattr(headers, "random")

            ua = {"User-Agent": ua}

            url = "http://www.xicidaili.com/nn/" + str(i)

            response = requests.get("http://www.xicidaili.com/nn/", headers=ua)

            time.sleep(3)

            selector = Selector(text=response.text)

            alltr = selector.css("#ip_list tr")

            for tr in alltr[1:]:

                speed_str = tr.css(".bar::attr(title)").extract_first()

                if speed_str:

                    speed = float(speed_str.split("秒")[0])

                else:

                    speed = 0

                all_text = tr.css("td ::text").extract()

                ip = all_text[0]

                port = all_text[1]

                type = all_text[6]

                if not 'HTTP' in type.upper():

                    type = "HTTP"

                ip_list.append((ip, port, type, speed))

        conn = pymysql.connect(host="127.0.0.1", user="root", password="root", db="outback")

        cursor = conn.cursor()

        insert_sql = """insert into ip_proxy(ip,port,type,speed) VALUES (%s,%s,%s,%s) """

        for i in ip_list:

            try:

                cursor.execute(insert_sql, (i[0], i[1], i[2], i[3]))

                conn.commit()

            except Exception as e:

                print(e)

                conn.rollback()

        cursor.close()

        conn.close()

if __name__ == "__main__":

    crawl_ip_from_xichi=GetIPFromXichi()

    crawl_ip_from_xichi.crawl_ip()

这里有几个容易出错的地方，

一，把函数放在main线程中去执行，这样在以后导入这个类时就不会执行一次，

二，数据连接一定是在整个循环执行完之后才关闭。

三，为了使这个爬虫更加友好，每爬取一页面 sleep 3秒，

github https://github.com/573320328/tools

爬取西刺网的免费IP的更多相关文章

爬取西刺网代理ip，并把其存放mysql数据库
需求: 获取西刺网代理ip信息,包括ip地址.端口号.ip类型西刺网:http://www.xicidaili.com/nn/ 那,如何解决这个问题? 分析页面结构和url设计得知: 数据都在本页面 ...
爬取西刺ip代理池
好久没更新博客啦~,今天来更新一篇利用爬虫爬取西刺的代理池的小代码先说下需求,我们都是用python写一段小代码去爬取自己所需要的信息,这是可取的,但是,有一些网站呢,对我们的网络爬虫做了一些限制, ...
scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...
Python四线程爬取西刺代理
import requests from bs4 import BeautifulSoup import lxml import telnetlib #验证代理的可用性 import pymysql. ...
使用XPath爬取西刺代理
因为在Scrapy的使用过程中,提取页面信息使用XPath比较方便,遂成此文. 在b站上看了介绍XPath的:https://www.bilibili.com/video/av30320885?fro ...
手把手教你使用Python爬取西刺代理数据（下篇）
/1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...
python scrapy 爬取西刺代理ip(一基础篇)（ubuntu环境下） -赖大大
第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrapy框架具体就自行百度了,主要内容不是在这. 第二步:创建scrapy(简单介绍) 1.Creating a p ...
python+scrapy 爬取西刺代理ip(一)
转自:https://www.cnblogs.com/lyc642983907/p/10739577.html 第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrap ...
Scrapy爬取西刺代理ip流程
西刺代理爬虫 1. 新建项目和爬虫 scrapy startproject daili_ips ...... cd daili_ips/ #爬虫名称和domains scrapy genspider ...

随机推荐

BZOJ 1088: [SCOI2005]扫雷Mine【思维题，神奇的模拟+枚举】
1088: [SCOI2005]扫雷Mine Time Limit: 10 Sec Memory Limit: 162 MBSubmit: 3791 Solved: 2234[Submit][St ...
BZOJ2004: [Hnoi2010]Bus 公交线路
题目:http://www.lydsy.com/JudgeOnline/problem.php?id=2004 状压dp+矩阵乘法. f[i][s]表示从第i位至前面的i-k位,第i位必须取的状态. ...
Codeforces780C
题解:n个气球从1到n染色,如果a.b和c是不同的正方形,a和b在它们之间有一条直接的路径,b和c之间有一条直接的路径,然后在这三个方块上的气球颜色是不同的. AC代码 #include <s ...
Spring框架学习笔记（9）——Spring对JDBC的支持
一.使用JdbcTemplate和JdbcDaoSupport 1.配置并连接数据库 ①创建项目并添加jar包,要比之前Spring项目多添加两个jar包c3p0-0.9.1.2.jar和mysql- ...
[国嵌攻略][068][tftp网络协议实现]
IP协议结构 UDP协议结构 TFTP协议结构 TFTP端口读写请求端口: 69 其他请求端口:1024~65535 主程序 /*********************************** ...
《JavaScript设计模式与开发实践》知识点笔记
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 18.0px "PingFang SC" } p.p2 { margin: 0.0px ...
js BOM DOM
BOM对象 BOM(浏览器对象模型),可以对浏览器窗口进行访问和操作.使用 BOM,开发者可以移动窗口.改变状态栏中的文本以及执行其他与页面内容不直接相关的动作. 简而言之就是使 JavaScript ...
【程序员的吃鸡大法】利用OCR文字识别+百度算法搜索，玩转冲顶大会、百万英雄、芝士超人等答题赢奖金游戏
[先上一张效果图]: 一.原理: 其实原理很简单: 1.手机投屏到电脑: 2.截取投屏画面的题目部分,进行识别,得到题目和三个答案: 3.将答案按照一定的算法,进行搜索,得出推荐答案: 4.添加了一些 ...
PHP截取中英文字符串
//如果字符串长度超过10,则截取并以省略号结尾 function sub($str){ $str=(string)$str; if( mb_strlen($str,'utf-8') >10){ ...
move_uploaded_file
move_uploaded_file() 函数将上传的文件移动到新位置. 若成功,则返回 true,否则返回 false. 语法 move_uploaded_file(file,newloc) 参数 ...

爬取西刺网的免费IP

爬取西刺网的免费IP的更多相关文章

随机推荐

热门专题