Scrapy爬取西刺代理ip流程

西刺代理爬虫

1. 新建项目和爬虫

scrapy startproject daili_ips

......

cd daili_ips/

#爬虫名称和domains

scrapy genspider xici xicidaili.com

2. 测试

In [1]: import requests

In [2]: r = requests.get('http://www.xicidaili.com/nn/1')

In [3]: r.status_code

Out[3]: 500

In [4]:

返回500, 猜测是没有加User-Agent导致

In [4]: headers = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}

In [5]:

In [5]: r = requests.get('http://www.xicidaili.com/nn/1', headers=headers)

In [6]: r.status_code

Out[6]: 200

In [7]:

返回正常

3. 在项目的settings中去掉`USER_AGENT`的注释

# Crawl responsibly by identifying yourself (and your website) on the user-agent

USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'

4. 编写items.py

item定义存储哪些字段

import scrapy

class DailiIpsItem(scrapy.Item):

    ip = scrapy.Field()

    port = scrapy.Field()

    position = scrapy.Field()

    type = scrapy.Field()

    speed = scrapy.Field()

    last_check_time = scrapy.Field()

5. 编写spider

# -*- coding: utf-8 -*-

import scrapy

from daili_ips.items import DailiIpsItem

class XiciSpider(scrapy.Spider):

    name = "xici"

    allowed_domains = ["xicidaili.com"]

    start_urls = (

        'http://www.xicidaili.com/',

    )

    def start_requests(self):

        res = []

        for i in range(1, 2):

            url = 'http://www.xicidaili.com/nn/%d'%i

            req = scrapy.Request(url)

            # 存储所有对应地址的请求

            res.append(req)

        return res

    def parse(self, response):

        table = response.xpath('//table[@id="ip_list"]')[0]

        trs = table.xpath('//tr')[1:]   #去掉标题行

        items = []

        for tr in trs:

            pre_item = DailiIpsItem()

            pre_item['ip'] = tr.xpath('td[2]/text()').extract()[0]

            pre_item['port'] = tr.xpath('td[3]/text()').extract()[0]

            pre_item['position'] = tr.xpath('string(td[4])').extract()[0].strip()

            pre_item['type'] = tr.xpath('td[6]/text()').extract()[0]

            pre_item['speed'] = tr.xpath('td[7]/div/@title').re('\d+\.\d*')[0]

            pre_item['last_check_time'] = tr.xpath('td[10]/text()').extract()[0]

            items.append(pre_item)

        return items

编写spider的时候可以通过命令行工具scrapy shell url来测试要提取数据的xpath语法, 这样更高效

6. 编写Pipelines

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: http://doc.scrapy.org/en/latest/top ics/item-pipeline.html

import MySQLdb

class DailiIpsPipeline(object):

    # 该函数必须返回一个具有数据的dict或者item对象

    def process_item(self, item, spider):

        DBS = spider.settings.get('DBS')

        con = MySQLdb.connect(**DBS)

        # 下面这行代码表示设置MySQL使用的字符集为utf8

        con.set_character_set('utf8')

        cur = con.cursor()

        insert_sql = (

            "insert into proxy (ip, port, position, type, speed, last_check_time) "

            "values (%s,%s,%s,%s,%s,%s);"

        )

        values = (item['ip'], item['port'], item['position'], item['type'], item['speed'], item['last_check_time'])

        # 插入数据库

        try:

            cur.execute(insert_sql, values)

        except Exception, e:

            print "插入失败: ", e

            con.rollback()

        else:

            con.commit()

        cur.close()

        con.close()

        return item

        return item

注意:

这里我刚开始做的时候没有加con.set_character_set('utf8')这一行, 结果报错如下

UnicodeEncodeError: 'latin-1' codec can't encode character

但是我在创建数据表的时候已经设置字符集为utf8, 查资料后是MySQLdb正常情况下会尝试将所有的内容转为latin1字符集处理

所以处理方法就是，设置连接和游标的charset为你所希望的编码

con = MySQLdb.connect(...)

# 设置链接编码

con.set_character_set('utf8')

cur = con.cursor()

# 设置游标编码

cur.execute('SET NAMES utf8;')

cur.execute('SET CHARACTER SET utf8;')

cur.execute('SET CHARACTER_SET_CONNECTION=utf8;')

我在测试后发现仅仅设置连接(con)的编码也不会报错, 所以上述程序并没有设置游标编码

7. 创建MySQL数据表

mysql> create table porxy(

    -> id int primary key auto_increment,

    -> ip varchar(20),

    -> port varchar(20),

    -> position varchar(20),

    -> type varchar(20),

    -> speed varchar(20),

    -> last_check_time varchar(20)

    -> )charset=utf8;

Query OK, 0 rows affected (0.01 sec)

mysql>

8. 启用Pipelines

更改settings.py文件, 取消注释

# Configure item pipelines

# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html

#ITEM_PIPELINES = {

#    'daili_ips.pipelines.SomePipeline': 300,

#}

改为

ITEM_PIPELINES = {

   'daili_ips.pipelines.DailiIpsPipeline': 300,

}

后面的数字一般在0-1000以内, 当有多个Pipelines的时候表示执行顺粗, 数字小的先执行

启动爬虫

scrapy crawl xici

Scrapy爬取西刺代理ip流程的更多相关文章

python scrapy 爬取西刺代理ip(一基础篇)（ubuntu环境下） -赖大大
第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrapy框架具体就自行百度了,主要内容不是在这. 第二步:创建scrapy(简单介绍) 1.Creating a p ...
python+scrapy 爬取西刺代理ip(一)
转自:https://www.cnblogs.com/lyc642983907/p/10739577.html 第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrap ...
scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...
使用XPath爬取西刺代理
因为在Scrapy的使用过程中,提取页面信息使用XPath比较方便,遂成此文. 在b站上看了介绍XPath的:https://www.bilibili.com/video/av30320885?fro ...
Python四线程爬取西刺代理
import requests from bs4 import BeautifulSoup import lxml import telnetlib #验证代理的可用性 import pymysql. ...
手把手教你使用Python爬取西刺代理数据（下篇）
/1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...
python3爬虫-通过requests爬取西刺代理
import requests from fake_useragent import UserAgent from lxml import etree from urllib.parse import ...
python爬取高匿代理IP（再也不用担心会进小黑屋了）
为什么要用代理IP 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类人 ...
爬取西刺ip代理池
好久没更新博客啦~,今天来更新一篇利用爬虫爬取西刺的代理池的小代码先说下需求,我们都是用python写一段小代码去爬取自己所需要的信息,这是可取的,但是,有一些网站呢,对我们的网络爬虫做了一些限制, ...

随机推荐

AngularJS <a> 超链接标签不起作用？
问题描述: Angular JS app中,使用超链接标签<a href='location'>click</a> 不起作用. 解决方法: 如果你不巧配置了$locationP ...
Vulkan Tutorial 22 Index buffer
操作系统:Windows8.1 显卡:Nivida GTX965M 开发工具:Visual Studio 2017 Introduction 在实际产品的运行环境中3D模型的数据往往共享多个三角形之间 ...
java中得到图片的宽度高度：
java中得到图片的宽度高度:BufferedImage srcImage = null;srcImage = ImageIO.read(new File(srcImagePath));int sr ...
SequoiaDB x Spark 新主流架构引领企业级应用
6月,汇集当今大数据界精英的Spark Summit 2017盛大召开,Spark作为当今最炙手可热的大数据技术框架,向全世界展示了最新的技术成果.生态体系及未来发展规划. 巨杉作为业内领先的分布式数 ...
Django 学习笔记（二）
Django 第一个 Hello World 项目经过上一篇的安装,我们已经拥有了Django 框架 1.选择项目默认存放的地址默认地址是C:\Users\Lee,也就是进入cmd控制台的地址,创 ...
VMwareTools安装失败提示找不到C headers和gcc目录
在VMware虚拟机上安装好linux系统后,发现往往不能全屏,也不能设置共享文件夹进行文件共享,这时候可以通过安装VMwareTools这个工具来实现文件拖拽.共享和全屏. 安装的过程不再赘述,关键 ...
c# 上传附件大小限制的问题
在c# 相关的asp.net 中.需要设置附件的大小.需要修改2部分. 1.修改metabase.XML 以Windows2003 为例子. 打开 C:\Windows\System32\Inets ...
初学c语言
虽然有一点点基础,但是还是从头学吧,这一周也就一些c语言的几个代码代表的意思和一个Hello world的程序. #include是头文件名,<>这是要返回的函数类型,然后是main主函数 ...
Chrome浏览器扩展开发系列之三：Google Chrome浏览器扩展的架构
1) 不可视的background页面 Google Chrome扩展往往包含一个不可见的background页面,Google Chrome扩展的主要业务逻辑都位于此.有两种类型的backgroun ...
JS实现悬浮导航的制作--web前端
思想:导航在这里只有两种状态,一种是初始状态.一种是固定布局状态.实现悬浮导航其实就是通过Javascript脚本语言控制导航的两种状态,主要是对两种状态成立条件的判断,明确了这些,实现起来就不会太难 ...