Centos7__Scrapy + Scrapy_redis 用Docker 实现分布式爬虫

原理：其实就是用到redis的优点及特性，好处自己查---

1，scrapy 分布式爬虫配置：

settings.py

BOT_NAME = 'first'

SPIDER_MODULES = ['first.spiders']

NEWSPIDER_MODULE = 'first.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent

#USER_AGENT = 'first (+http://www.yourdomain.com)'

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

# Configure a delay for requests for the same website (default: 0)

# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay

# See also autothrottle settings and docs

#DOWNLOAD_DELAY = 3

# The download delay setting will honor only one of:

#CONCURRENT_REQUESTS_PER_DOMAIN = 16

#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)

#COOKIES_ENABLED = False

ITEM_PIPELINES = {

   # 'first.pipelines.FirstPipeline': 300,

   'scrapy_redis.pipelines.RedisPipeline':300,

   'first.pipelines.VideoPipeline': 100,

}

#分布式爬虫

#指定redis数据库的连接参数

REDIS_HOST = '172.17.0.2'

REDIS_PORT = 15672

REDIS_ENCODING = 'utf-8'

# REDIS_PARAMS ={

#     'password': '123456',  # 服务器的redis对应密码

# }

#使用了scrapy_redis的调度器，在redis里分配请求

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# # 确保所有爬虫共享相同的去重指纹

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# Requests的调度策略，默认优先级队列

SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

#(可选). 在redis中保持scrapy-redis用到的各个队列，从而允许暂停和暂停后恢复，也就是不清理redis queues

SCHEDULER_PERSIST = True

spider.py

# -*- coding: utf-8 -*-

import scrapy

import redis

from ..items import Video

from scrapy.http import Request

from scrapy_redis.spiders import RedisSpider

class VideoRedis(RedisSpider):

    name = 'video_redis'

    allowed_domains = ['zuidazy2.net']

    # start_urls = ['http://zuidazy2.net/']

    redis_key = 'zuidazy2:start_urls'

    def parse(self, response):

        item = Video()

        res= response.xpath('//div[@class="xing_vb"]/ul/li/span[@class="xing_vb4"]/a/text()').extract_first()

        url = response.xpath('//div[@class="xing_vb"]/ul/li/span[@class="xing_vb4"]/a/@href').extract_first()

        v_type = response.xpath('//div[@class="xing_vb"]/ul/li/span[@class="xing_vb5"]/text()').extract_first()

        u_time  = response.xpath('//div[@class="xing_vb"]/ul/li/span[@class="xing_vb6"]/text()').extract_first()

        if res is not None:

            item['name'] = res

            item['v_type'] = v_type

            item['u_time'] = u_time

            url = 'http://www.zuidazy2.net' + url

            yield scrapy.Request(url, callback=self.info_data,meta={'item': item},dont_filter=True)

        next_link =  response.xpath('//div[@class="xing_vb"]/ul/li/div[@class="pages"]/a[last()-1]/@href').extract_first()

        if next_link:

            yield scrapy.Request('http://www.zuidazy2.net'+next_link,callback=self.parse,dont_filter=True)

    def info_data(self,data):

        item = data.meta['item']

        res = data.xpath('//div[@id="play_2"]/ul/li/text()').extract()

        if res:

            item['url'] = res

        else:

            item['url'] = ''

        yield item

items.py

import scrapy

class FirstItem(scrapy.Item):

    # define the fields for your item here like:

    content = scrapy.Field()

class Video(scrapy.Item):

    name = scrapy.Field()

    url = scrapy.Field()

    v_type = scrapy.Field()

    u_time = scrapy.Field()

pipelines.py

from pymysql import *

import aiomysql

class FirstPipeline(object):

    def process_item(self, item, spider):

        print('*'*30,item['content'])

        return item

class VideoPipeline(object):

    def __init__(self):

        self.conn = connect(host="39.99.37.85",port=3306,user="root",password="",database="queyou")

        self.cur = self.conn.cursor()

    def process_item(self, item, spider):

        # print(item)

        try:

            # insert_sql = f"insert into video values(0,'{item['name']}','{item['url']}','{item['v_type']}','{item['u_time']}')"

            # self.cur.execute(insert_sql)

            # # self.cur.execute("insert into video values(0,'"+item['name']+"','"+item['url']+"','"+item['v_type']+"','"+item['u_time']+"')")

            self.cur.execute("insert into video values(0,'"+item['name']+"','"+item['v_type']+"')")

            self.conn.commit()

        except Exception as e:

            print(e)

        finally:

            return item

    def close_spider(self, spider):

        self.conn.commit()  # 提交数据

        self.cur.close()

        self.conn.close()

2,Docker 安装和pull centos7 及安装依赖（跳过）

3,cp 宿主机项目到 Centos7 容器中

docker cp /root/first 35fa:/root

4,安装redis 及开启远程连接服务

具体在 /etc/redis.conf 中设置和开启redis服务

redis-server /etc/redis.conf

5，Docker虚拟主机多个及建立通信容器

运行容器

docker run -tid --name 11  CONTAINER_ID 

建立通信容器

docker run  -tid --name 22 --link 11 CONTAINER_ID

进入容器  docker attach CONTAINER_ID

退出容器，不kill掉容器（通常exit会kill掉的） ctrl+q+p

查看网络情况 cat /etc/hosts

5,开启所有容器的spider 及定义start_url

完工！

附上打包好的镜像：链接: https://pan.baidu.com/s/1Sj244da0pOZvL3SZ_qagUg 提取码: qp23

Centos7__Scrapy + Scrapy_redis 用Docker 实现分布式爬虫的更多相关文章

分布式爬虫scrapy-redis
第一步下载scrapy模块: pip install scrapy-redis 第二步创建项目在终端/cmd进入创建项目的目录: cd 路径: scrapy startproject douba ...
scrapy分布式爬虫scrapy_redis二篇
=============================================================== Scrapy-Redis分布式爬虫框架 ================ ...
scrapy分布式爬虫scrapy_redis一篇
分布式爬虫原理首先我们来看一下scrapy的单机架构: 可以看到,scrapy单机模式,通过一个scrapy引擎通过一个调度器,将Requests队列中的request请求发给下载器,进行页 ...
使用Docker Swarm搭建分布式爬虫集群
https://mp.weixin.qq.com/s?__biz=MzIxMjE5MTE1Nw==&mid=2653195618&idx=2&sn=b7e992da6bd1b2 ...
scrapy_redis分布式爬虫
文章来源:https://github.com/rmax/scrapy-redis Scrapy-Redis Documentation: https://scrapy-redis.readthedo ...
python3下scrapy爬虫(第十三卷：scrapy+scrapy_redis+scrapyd打造分布式爬虫之配置）
之前我们的爬虫都是单机爬取,也是单机维护REQUEST队列, 看一下单机的流程图: 一台主机控制一个队列,现在我要把它放在多机执行,会产生一个事情就是做重复的爬取,毫无意义,所以分布式爬虫的第一个难点 ...
利用scrapy_redis实现分布式爬虫
介绍 Scrapy框架不支持分布式,所以需要将一些关键代码进行修改使之支持分布式.scrapy-redis相当于一个插件,用来替换scrapy中的一些模块,使得scrapy支持分布式.github地址 ...
python3 分布式爬虫
背景部门(东方IC.图虫)业务驱动,需要搜集大量图片资源,做数据分析,以及正版图片维权.前期主要用node做爬虫(业务比较简单,对node比较熟悉).随着业务需求的变化,大规模爬虫遇到各种问题.py ...
scrapy-redis 分布式爬虫
为什么要学? Scrapy_redis在scrapy的基础上实现了更多,更强大的功能. 有哪些功能体现? request去重.爬虫持久化.实现分布式爬虫.断点续爬(带爬取的request存在redis ...

随机推荐

能否安装 CrossOver 上没有的软件
系统兼容软件CrossOver可以像虚拟机一下帮助我们在Mac或者Linux上运行Windows应用程序,快速实现跨平台文件互通,所以我们也称它为类虚拟机. 不需要安装Windows操作系统的Cros ...
[C#.NET 拾遗补漏]13：动态构建LINQ查询表达式
最近工作中遇到一个这样的需求:在某个列表查询功能中,可以选择某个数字列(如商品单价.当天销售额.当月销售额等),再选择小于或等于和大于或等于 ,再填写一个待比较的数值,对数据进行查询过滤. 如果 ...
C语言常用的一些转换工具函数！
1.字符串转十六进制代码实现: 2.十六进制转字符串代码实现: 或者效果:十六进制:0x13 0xAA 0x02转为字符串:"13AAA2" 3.字符串转十进制代码实现: ...
企业安全01-Apache solr XML实体注入漏洞CVE-2017-12629
Apache solr XML 实体注入漏洞CVE-2017-12629 一.简介 Apache Solr 是一个开源的搜索服务器.Solr 使用 Java 语言开发,主要基于 HTTP 和 Apac ...
思维导图学《JVM 虚拟机规范》
目录工具虚拟机实现 class 文件结构字节码指令其他虚拟机结构公众号 coding 笔记.点滴记录,以后的文章也会同步到公众号(Coding Insight)中,希望大家关注_ 公众号 ...
Linux驱动模块00
一.驱动基础 1.什么是驱动能够通过软件操作硬件的这份程序就是驱动 2.Linux驱动和ARM裸机驱动的区别 1)Linux设备驱动工作时依赖于Linux内核, ARM裸机驱动不依赖于Linux内核 ...
spring java config配置搭建工程资料收集（网文）
https://blog.csdn.net/poorcoder_/article/details/70231779 https://github.com/lovelyCoder/springsecur ...
Python音视频开发：消除抖音短视频Logo的图形化工具实现
☞ ░ 前往老猿Python博文目录 ░ 一.引言在<Python音视频开发:消除抖音短视频Logo和去电视台标的实现详解>节介绍了怎么通过Python+Moviepy+OpenCV实现 ...
CF1416D Graph and Queries
本题解用于作者加深算法印象,也欢迎各位的阅读. 题目大意给你一张无向图,并给你两种操作: \(1~v\) :找到当前点 \(v\) 所在的联通块内权值最大的点,输出该点权值并将其权值改为 \(0\) ...
Java-web-多个独立项目之间相互调用实践
本篇文章只涉及到应用层面,没有涉及到什么底层原理之类的,我目前的实力还没有达到那个级别.如果是大神级别的人看到这篇文章,请跳过. 项目框架也已经是搭建好了的,springboot版本为1.5,数据库操 ...

Centos7__Scrapy + Scrapy_redis 用Docker 实现分布式爬虫

Centos7__Scrapy + Scrapy_redis 用Docker 实现分布式爬虫的更多相关文章

随机推荐

热门专题