爬取西刺网代理ip，并把其存放mysql数据库

需求：

　　获取西刺网代理ip信息，包括ip地址、端口号、ip类型

　　西刺网：http://www.xicidaili.com/nn/

那，如何解决这个问题？

　　分析页面结构和url设计得知：

　　　　数据都在本页面可以全部获取，没有单独的详情页面

　　　　下一页通过更改当前页面最后url后缀进行跳转页面，那我实现URL的拼接不就解决这个问题了

那，软件的运行环境？

　　　　python3.5

　　　　scrapy

　　　　twisted

　　　　request

　　　　pymysql

　　以上是第三方包，通过pip安装

　　MySQL服务

其中db，user，password的值根据实际情况而定

#!/usr/bin/python3

__author__ = 'beimenchuixue'

__blog__ = 'http://www.cnblogs.com/2bjiujiu/'

import requests

import pymysql

from time import sleep

from random import randint, choice

from scrapy.selector import Selector

from twisted.enterprise import adbapi

from twisted.internet import reactor

# 数据库基本配置, 自行配置

db_settings = {

    'host': 'localhost',

    'db': 'db_name',

    'user': 'user_name',

    'password': 'password',

    'charset': 'utf8',

    'use_unicode': True

}

# conn = pymysql.connect(**db_settings)

# cursor = conn.cursor()

# 生成连接池

db_conn = adbapi.ConnectionPool('pymysql', **db_settings)

def go_sleep():

    """进行随机io堵塞，模仿人访问"""

    while randint(0, 1):

        sleep(choice([0.1, 0.2, 0.3, 0.4, 0.5, 0.6]))

def get_sql(ip, port, ip_type):

    """获得sql语句"""

    if ip and port and ip_type:

        sql = """insert into

              ip_server(ip, port, ip_type)

               value (%s, %s, %s)

              on DUPLICATE key update ip=values(ip), port=values(port), ip_type=values(ip_type)"""

        try:

            params = (ip, int(port), ip_type)

        except Exception as e:

            print(e)

            return None

        return sql, params

    else:

        return None

def go_insert(cursor, sql, params):

    """数据库插入操作"""

    try:

        cursor.execute(sql, params)

    except Exception as e:

        print(e)

def get_ip():

    """爬取ip信息并存入数据库"""

    # 设置请求头

    headers = {

        'Referer': 'http://www.xicidaili.com/nn/',

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'

    }

    # 获取50页的数据

    for page in range(1, 50):

        # 建立关系映射，增加程序可阅读性

        ip_index, port_index, type_index = 2, 3, 6

        # 爬取的url

        url = 'http://www.xicidaili.com/nn/{page}'.format(page=page)

        go_sleep()

        response = requests.get(url, headers=headers)

        # 打印状态码

        print(response.status_code)

        # 进行页面解析

        selectors = Selector(text=response.text)

        all_trs = selectors.css('#ip_list .odd')

        for tr in all_trs:

            ip = tr.css('td:nth-child(%s)::text' % ip_index).extract_first()

            port = tr.css('td:nth-child(%s)::text' % port_index).extract_first()

            ip_type = tr.css('td:nth-child(%s)::text' % type_index).extract_first()

            sql, params = get_sql(ip, port, ip_type)

            if sql:

                try:

                    # cursor.execute(sql, params)

                    # conn.commit()

                    # 执行sql操作

                    db_conn.runInteraction(go_insert, sql, params)

                except Exception as e:

                    print(e)

            else:

                break

if __name__ == '__main__':

    get_ip()

    # 让twisted的sql操作去完成

    reactor.callLater(4, reactor.stop)

    reactor.run()

爬取西刺网代理ip，并把其存放mysql数据库的更多相关文章

爬取西刺网的免费IP
在写爬虫时,经常需要切换IP,所以很有必要自已在数据维护库中维护一个IP池,这样,就可以在需用的时候随机切换IP,我的方法是爬取西刺网的免费IP,存入数据库中,然后在scrapy 工程中加入tools ...
爬取西刺ip代理池
好久没更新博客啦~,今天来更新一篇利用爬虫爬取西刺的代理池的小代码先说下需求,我们都是用python写一段小代码去爬取自己所需要的信息,这是可取的,但是,有一些网站呢,对我们的网络爬虫做了一些限制, ...
Python四线程爬取西刺代理
import requests from bs4 import BeautifulSoup import lxml import telnetlib #验证代理的可用性 import pymysql. ...
使用XPath爬取西刺代理
因为在Scrapy的使用过程中,提取页面信息使用XPath比较方便,遂成此文. 在b站上看了介绍XPath的:https://www.bilibili.com/video/av30320885?fro ...
scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...
手把手教你使用Python爬取西刺代理数据（下篇）
/1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...
python scrapy 爬取西刺代理ip(一基础篇)（ubuntu环境下） -赖大大
第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrapy框架具体就自行百度了,主要内容不是在这. 第二步:创建scrapy(简单介绍) 1.Creating a p ...
python+scrapy 爬取西刺代理ip(一)
转自:https://www.cnblogs.com/lyc642983907/p/10739577.html 第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrap ...
Scrapy爬取西刺代理ip流程
西刺代理爬虫 1. 新建项目和爬虫 scrapy startproject daili_ips ...... cd daili_ips/ #爬虫名称和domains scrapy genspider ...

随机推荐

Web程序员必备的CSS工具
对于web开发来说,CSS是最有效的美化页面.设置页面布局的技术.但问题是,CSS是一种标记性语言,语法结构非常的松散.不严谨.WEB程序员会经常发现自己的或别人的CSS文件里有大量的冗余代码或错误或 ...
无法向Windows服务器复制粘贴文件
在向服务器拷贝文件的时候卡死,直接任务管理器结束应用程序,但是随之引发一个问题,就是之后不能从本地向服务器拷贝文件了,只能服务器自己复制粘贴. 解决办法重启rdpclip.exe,先在任务管理器中结束 ...
基于input子系统的sensor驱动调试（一）
要想弄明白世界的本质,就要追根溯源:代码也是一样的道理: 最近调试几个sensor驱动,alps sensor驱动.compass sensor驱动.G-sensor驱动都是一样的架构: 一.基于in ...
Haproxy配置文件(2)
#/usr/local/sbin/haproxy -f /etc/haproxy/haproxy.cfg -st `cat /var/run/haproxy.pid` ################ ...
Zabbix实战-简易教程（5）--Proxy和Agent端（源码和yum方式）
3.3.1 zabbix proxy安装(源码方式) 1.创建目录 mkdir -p /usr/local/zabbix 2.安装必要软件 yum install -y fping(若安装不成功) 或 ...
基于Flask实现博客开发--准备工作
背景说明本项目是基于<深入理解flask>一书,主要是用来记录学习历程和交流心得,所以写得不好请大神勿喷. 准备工作 virtualenv介绍也许 Virtualenv 是你在开发中最 ...
JavaScript基础知识（正则表达式、字符串）
23.正则表达式作用:定义一个特定的验证字符串内容规则的表达式注:正则表达式并不是JavaScript独有的:JavaScript支持正则表达式 var a = { }; // 定义一个空对象 ...
Java与算法之(1) - 冒泡排序
冒泡排序法的原理是,每次比较相邻的两个元素,如果它们的顺序错误就把它们交换过来. 例如对4 3 6 2 7 1 5这7个数字进行从小到大的排序,从最左侧开始,首先比较4和3 因为是从小到大排序,4和3 ...
Codeforces 626A Robot Sequence(模拟)
A. Robot Sequence time limit per test:2 seconds memory limit per test:256 megabytes input:standard i ...
2017ecjtu-summer training #2 CodeForces 608B
B. Hamming Distance Sum time limit per test 2 seconds memory limit per test 256 megabytes input stan ...

爬取西刺网代理ip，并把其存放mysql数据库

爬取西刺网代理ip，并把其存放mysql数据库的更多相关文章

随机推荐

热门专题