一.整体思路及中心节点的配置

1.首先在虚拟机中运行一个docker，docker中运行的是一个linux系统，里面有我们所有需要的东西，linux系统，python，mysql，redis以及一些python的库如request、urllib等，
　　最好把这个做成一个镜像文件

docker save -o 文文件名 镜像id

2.我们把上面的镜像文件还原为一个镜像：

docker load --input 文件名

3.docker images查看一下是否有多出来一个image

docker images

4.以这个镜像为基础创建新的docker（这个docker是作为center中心调度器，所有信息的读写都在这边，3a54是上面加载进来镜像的id）

docker run -tid  --name center 3a54

5. 查看docker是否在运行

docker ps -a

　6.进入容器并且查看这个docker的ip (center为docker的name)

docke attach center

cat  /etc/hosts

6.配置mysql

1.启动mysql

　　/etc/init.d/mysql restart

2.登录（以localhost、127.0.0.1成功登录）

　　mysql -u root -p

　

3.以本容器的ip登录（不能登录）
　　mysql -h 127.0.0.1 -u root -p
　　
　　处理：
　　　　修改mysql的启动配置文件：
　　　　vim /etc/mysql/my.cnf  #把bing 127.0.0.1这一行注释掉，这样一来他就不仅仅只监听本机的ip，外网ip也会监听
4.再次重启（修改过配置文件，要以新的配置启动）
　　/etc/init.d/mysql restart

5.重复第三步（修改丙丁ip后还是不能登录）
　　mysql -h 127.0.0.1 -u root -p

6.以root 身份以本机登录后创建新的用户（这是因为root用户不允许远程登录，所以需要创建普通用户）
　　mysql -h 127.0.0.1 -u root -p

7.创建用户配置权限
　　create user "tom"@"%" identified by "tom";
　　grant create,delete,update,select,insert on *.* to tom;

8.退出mysq，再用普通用户，本机ip登录
　　mysql -h 172.17.0.2 -u tom -p

总结：
　　1.修改配置文件的bind
　　2。创建普通用户

7. 配置redis

1.启动redis
　　/etc/init.d/resdis-server
2.连接redis
　　redis-cli
3.以本机ip连接
　　redis-cli -h 172.17.0.2  #不成功
4.修改配置文件
　　vim  /etc/redis/redis.conf
　　#同样把bind 127.0.0.1给注释掉
5.重启
　　/etc/init.d/resdis-server
6.再用本机ip登录
　　redis-cli -h 172.17.0.2  #不成功
7.退出容器
　　ctrl+P+q
8.停止容器
　　docker stop e5da
9.再次开启容器
　　docker start e5da
10.进入容器
　　docker attach e5da
11.重启redis
　　/etc/init.d/resdis-server

12.再次以本机ip登录

　　redis-cli -h 172.17.0.2  #成功

总结：
　　1.修改配置文件，修改绑定的端口 #bind 127.0.0.1 注释
　　2.重启容器
　　　　1.一定要以ctrl+p+q退出
　　　　2.docker stop id
　　　　3.docker start id
　　　　4.docker attach id
　　　　5.启动redis
　　　　6.连接redis redis-cli

二.子节点的配置

　　1.退出中心节点的容器（不停止运行）

crtrl + p + q

　　2.创建子节点并且进入

#创建名为c1的自己节点，并且连接到center这个节点的docker，以3a54（和中心节点一样）的镜像创建
docker run -tid --name c1 ---link center 3a54

　　3.查看本机ip和连接主机的ip

cat /etc/hosts

　　4.测试子节点和中心节点的连通

#就是在子节点下用中心节点的ip和用户连接中心节点的数据库，都没问题

mysql -h 172.17.0.2 -u tom -p  
redis-cli -h 172.17.0.2

三.在子节点编写爬虫文件

　　编写爬虫文件并且测试可以进行

import redis

import pymysql

import urllib.request

import re

#这里的ip是中心节点的ip

rconn=redis.Redis("172.17.0.8","")

#url:http://www.17k.com/book/2.html

'''

url-i-"1"

'''

for i in range(0,5459058):

    #先判断url是否怕取过进行过就过掉

    isdo=rconn.hget("url",str(i))

    if(isdo!=None):

        continue

    #没有爬取就，做个标志并且进爬取

    rconn.hset("url",str(i),"")

    try:

        data=urllib.request.urlopen("http://www.17k.com/book/"+str(i)+".html").read().decode("utf-8","ignore")

    except Exception as err:

        print(str(i)+str(err))

        continue

    pat='<a class="red" .*?>(.*?)</a>

'

    rst=re.compile(pat,re.S).findall(data)

    if(len(rst)==0):

        continue

    name=rst[0]

    rconn.hset("rst",str(i),str(name))

四.增加子节点

　　1.退出子节点容器并且停止容器运行

exit

　　2.把上面子节点容器封装成一个镜像

#docker commit  容器id 名称：tag
docker commit bee8 crwl:abc

　　3.用子节点容器鞥装好的镜像创建新的docker

docker run -tid --name c2 --link center 56bc

docker run -tid --name c3 --link center 56bc

docker run -tid --name c4 --link center 56bc

　　4.分别进入子节点编写爬虫文件并且启动

基于docker+redis++urlib/request的分布式爬虫原理的更多相关文章

基于 Scrapy-redis 两种形式的分布式爬虫
基于 Scrapy-redis 两种形式的分布式爬虫 .caret, .dropup > .btn > .caret { border-top-color: #000 !important ...
Python分布式爬虫原理
转载 permike 原文 Python分布式爬虫原理首先,我们先来看看,如果是人正常的行为,是如何获取网页内容的. (1)打开浏览器,输入URL,打开源网页 (2)选取我们想要的内容,包括标题,作 ...
基于Redis的三种分布式爬虫策略
前言: 爬虫是偏IO型的任务,分布式爬虫的实现难度比分布式计算和分布式存储简单得多. 个人以为分布式爬虫需要考虑的点主要有以下几个: 爬虫任务的统一调度爬虫任务的统一去重存储问题速度问题足够“ ...
基于Python使用scrapy-redis框架实现分布式爬虫
1.首先介绍一下:scrapy-redis框架 scrapy-redis:一个三方的基于redis的分布式爬虫框架,配合scrapy使用,让爬虫具有了分布式爬取的功能.github地址: https: ...
17.基于scrapy-redis两种形式的分布式爬虫
redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls ...
基于scrapy-redis两种形式的分布式爬虫
redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls ...
17，基于scrapy-redis两种形式的分布式爬虫
redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls ...
Redis、Zookeeper实现分布式锁——原理与实践
Redis与分布式锁的问题已经是老生常谈了,本文尝试总结一些Redis.Zookeeper实现分布式锁的常用方案,并提供一些比较好的实践思路(基于Java).不足之处,欢迎探讨. Redis分布式锁 ...
基于（Redis | Memcache）实现分布式互斥锁
设计一个缓存系统,不得不要考虑的问题就是:缓存穿透.缓存击穿与失效时的雪崩效应. 缓存击穿缓存穿透是指查询一个一定不存在的数据,由于缓存是不命中时被动写的,并且出于容错考虑,如果从存储层查不到数据则 ...

随机推荐

默默的发现在网上找到的hook NtQueryDirectoryFile......
默默的发现在网上找到的hook NtQueryDirectoryFile...... hook NtQueryDirectoryFile是为了实现文件隐藏,然后就发现在网上发现的代码版本似乎同一个 ...
dataframe 用法总结
http://pda.readthedocs.io/en/latest/chp5.html data = [] 列表初始化 data = (,) data = {} 字典初始化 data = pd.D ...
用js获取cookie
//获取cookiefunction cookie_email(cookie_name){ var cookiestr = document.cookie; if (cookiestr.length ...
codefirst 最新策略
http://www.yunjuu.com/info/76058.html 在原有数据库中使用 CodeFirst ,除了第一次添加实体后要立即执行一次 Enable-Migrations add-m ...
Part8-不用内存怎么行_2440内存初始化lesson2
1.2440地址空间先去找PCB原理图,看CPU引出的内存地址线和数据线的宽度. 说明内存的其实地址是0x30000000为起始地址. 初始化内存其实是去初始化存储器控制器,只有初始化好这个存储器控 ...
Mybaties核心配置文件
<?xml version="1.0" encoding="UTF-8" ?><!DOCTYPE configurationPUBLIC &q ...
在UIWebView中添加自定义编辑菜单
如何在UIWebView中添加自定义的编辑菜单困扰了很久.没想到意外的简单! 现在很多的内容提供类应用中,长按内容页会选中按的单词并且显示一个编辑菜单.如图: 独乐乐不如众乐乐.一篇好文章是需要大家一 ...
定制JMeter取样器
JMeter运行你区定义自己的取样器sampler,方法很简单,只需继承类org.apache.jmeter.protocol.java.sampler.AbstractJavaSamplerClie ...
.NET MVC对接POLYV——HTML5播放器播放加密视频
官方参考文档:http://dev.polyv.net/2017/videoproduct/v-playerapi/html5player/html5-docs/ 1.上传视频之前根据自己需要对所上传 ...
MarkdownPad基于语法示例
博客园 [有道] (https://www.zybuluo.com/mdeditor#) [Markdown语法教学链接] (https://www.cnblogs.com/chimoxuanzhi/ ...