python--分布式爬虫

//server

import socket, select, re, queue, redis

from multiprocessing import Pool, cpu_count

from pymongo import MongoClient

host = '192.168.1.107'

ConnectionList = []

Recv_buffer = 4096000

Client_Status = {}

Client_Num = {}

redis1 = redis.Redis(host='localhost', port=6379, db=0)

Num = 0

class Distributed_Web_Crawler:

    def __init__(self, port):

        self.url_num = 1

        self.queue = queue.Queue()

        self.db = MongoClient().CrawSpider.content

        self.server_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

        self.server_socket.bind((host, port))

        self.server_socket.listen(10)

        self.pool = Pool(cpu_count() - 1)

        ConnectionList.append(self.server_socket)

        print("服务器运行在端口：" + str(port))

        address = 'https://movie.douban.com/'

        self.queue.put(address)

        redis1.set(address, 0)

        self.main()

    def main(self):

        global Num

        while 1:

            if not self.queue.empty() and ConnectionList.__len__() > 1 is not None:

                self.pool.apply_async(self.task_manage())

            read_sockets, write_sockets, error_sockets = select.select(ConnectionList, [], [])

            for sock in read_sockets:

                if sock == self.server_socket:

                    conn, addr = self.server_socket.accept()

                    ConnectionList.append(conn)

                    core_num = conn.recv(Recv_buffer).decode('utf8')

                    Client_Status[conn] = core_num

                    Client_Num[conn] = Client_Num.__len__() + 1

                    print('客户端 ' + addr[0] + ':' + str(addr[1]) + '已连接,核心数: ' + core_num + '\n编号为' + str(Client_Num[

                        conn]))

                else:

                    data = sock.recv(Recv_buffer)

                    if data:

                        Contents = data.decode('utf8').split('Page_ContentPPPPPP///////')

                        # print('收到'+str(Client_Num[sock])+'号机发来数据，正在处理')

                        Client_Status[sock] = int(Client_Status[sock]) + len(Contents)

                        print('编号'+str(Client_Num[sock])+'可用核心'+str(Client_Status[sock]))

                        for content in Contents:

                            if content:

                                self.pool.apply_async(self.web_page_resolution(content))

                    else:

                        print('客户端 ' + addr[0] + ':' + str(addr[1]) + '断开连接')

                        sock.close()

                        Client_Status.pop(sock)

                        Client_Num.pop(sock)

                        ConnectionList.remove(sock)

    def web_page_resolution(self, content):

        db = MongoClient().Web.data

        db.insert({'page_content': content})

        pattern = re.compile('https://movie.douban.com/(.*?)"')

        urls = re.findall(string=content, pattern=pattern)

        for url in urls:

            url = 'https://movie.douban.com/' + url

            if redis1.get(url) is None:

                redis1.set(url, self.url_num)

                self.queue.put(url)

                self.url_num += 1

    def task_manage(self):

        urls = ''

        for socket in ConnectionList:

            if socket != self.server_socket:

                while not self.queue.empty() and int(Client_Status[socket]) != 0:

                    urls = urls + self.queue.get() + ' '

                    Client_Status[socket] = int(Client_Status[socket]) - 1

                # print('向' + str(Client_Num[socket]) + '号终端分配任务')

                socket.send(urls.encode('utf8'))

if __name__ == "__main__":

    port = 8888

    Distributed_Web_Crawler(port, )

//Client

import socket, sys, select

from multiprocessing import cpu_count

from requests import get

from multiprocessing import Pool

p = Pool(cpu_count() - 1)

host = '192.168.0.103'

Page_contents = []

def crawler_page(url):

    print("正在爬取网页" + url)

    content = get(url).content.decode('utf8') + 'Page_ContentPPPPPP///////'

    print(url + "爬取完成，正在向服务器发送数据")

    s.send(content.encode('utf8'))

def listing():

    while 1:

        rlist = [sys.stdin, s]

        read_list, write_list, error_list = select.select(rlist, [], [])

        for sock in read_list:

            if sock == s:

                data = sock.recv(4096).decode('utf8')

                if data != 'quit' and data:

                    urls = data.split()

                    if len(urls) == 1:

                        p.apply_async(crawler_page(urls[0]))

                    else:

                        for url in urls:

                            p.apply_async(crawler_page(url))

                            urls.remove(url)

                elif data == 'quit':

                    print('接收到服务器关闭指令，客户端正在退出')

                    sys.exit()

                else:

                    print('服务器连接失败，正在退出')

                    sys.exit()

if __name__ == "__main__":

    port = 8888

    s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

    s.settimeout(3)

    try:

        s.connect(('192.168.1.107', port))

    except:

        print("无法连接至服务器，请检查地址后重试")

        sys.exit()

    print("已连接至服务器，开始发送机器信息\n核心数:" + str(cpu_count()))

    s.send(str(cpu_count()).encode('utf8'))

    listing()

python--分布式爬虫的更多相关文章

Python分布式爬虫原理
转载 permike 原文 Python分布式爬虫原理首先,我们先来看看,如果是人正常的行为,是如何获取网页内容的. (1)打开浏览器,输入URL,打开源网页 (2)选取我们想要的内容,包括标题,作 ...
第三百七十二节，Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目
第三百七十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目 scrapyd模块是专门用于部署scrapy项目的,可以部署和管理scrapy项目下载地址:h ...
第三百七十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现我的搜索以及热门搜索
第三百七十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现我的搜索以及热门我的搜素简单实现原理我们可以用js来实现,首先用js获取到 ...
第三百七十节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索结果分页
第三百七十节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索结果分页逻辑处理函数计算搜索耗时在开始搜索前:start_time ...
第三百六十九节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索功能
第三百六十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索功能 Django实现搜索功能 1.在Django配置搜索结果页的路由映 ...
第三百六十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索的自动补全功能
第三百六十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—用Django实现搜索的自动补全功能 elasticsearch(搜索引擎)提供了自动补全接口官方说明:https://www.e ...
第三百六十七节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中
第三百六十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中前面我们讲到的elasticsearch( ...
第三百六十六节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的bool组合查询
第三百六十六节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的bool组合查询 bool查询说明 filter:[],字段的过滤,不参与打分must:[] ...
第三百六十五节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本查询
第三百六十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本查询 1.elasticsearch(搜索引擎)的查询 elasticsearch是功能 ...
第三百六十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mapping映射管理
第三百六十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mapping映射管理 1.映射(mapping)介绍映射:创建索引的时候,可以预先定义字 ...

随机推荐

Synchronized 个人深解
1.synchronized方法相当于synchronized(this) Synchronized 方法是锁的当前对象,同一个对象的2个synchronized方法被2个线程调用会发生 ...
iOS中的#ifdef DEBUG为什么会在didFinishLaunchingWithOptions之前执行
#ifdef DEBUG ...程序段1... #else ...程序段2... #endif 这表明如果标识符DEBUG已被#define命令定义过则对程序段1进行编译:否则对程序段2进行编译.#i ...
configure.ac:32: error: possibly undefined macro: AC_DEFINE
在ubuntu 下编译snappy时,在检查依赖关系时,处理autoconf的包时,在相关依赖包都已经安装的情况下,报如下错误,死活不过. configure.ac:32: error: possib ...
JavaBean-DAO模式
一.信息系统的开发架构客户层-------显示层-------业务层---------数据层---------数据库 1.客户层:客户层就是客户端,简单的来说就是浏览器. 2.显示层:JSP/S ...
JS逗号运算符的用法详解
逗号运算符的用法详解注意: 一.由于目前正在功读JavaScript技术,所以这里拿JavaScript为例.你可以自己在PHP中试试. 二.JavaScript语法比较复杂,因此拿JavaScri ...
20145227&20145201 《信息安全系统设计基础》实验一开发环境的熟悉
北京电子科技学院(BESTI) 实验报告课程:信息安全系统设计基础班级:1452 姓名:李子璇鄢曼君学号:20145201 20145227 成绩: 指导教师:娄嘉鹏实验日期:2016 ...
《Java并发编程实战》读书笔记
Subsections 线程安全(Thread safety)锁(lock)共享对象对象组合基础构建模块任务执行取消和关闭线程池的使用性能与可伸缩性并发程序的测试显示锁原子变量和非阻塞同步机制一.线 ...
正则表达式（http://tieba.baidu.com/p/882391125）
觉得不错,就记下来了正则表达式30分钟入门教程版本:v2.31 (2009-4-11) 作者:deerchao 转载请注明来源30分钟内让你明白正则表达式是什么,并对它有一些基本的了解,让你 ...
JAVA基础知识之NIO.2——Path,Paths,Files
NIO.2 JDK7对NIO进行了重大改进,主要包含以下两方面新增Path接口,Paths工具类,Files工具类. 这些接口和工具类对NIO中的功能进行了高度封装,大大简化了文件系统的IO编程. ...
asp.net core 通过 TeamCity 实现持续集成笔记
0x00 很早之前就想体验一把持续集成的快感,然后刚好手头上有个 asp.net core 的项目,就想来部署一下持续集成.一开始我是想用 Jenkins 的,弄了好半天,git 仓库没法同步下来,我 ...

python--分布式爬虫

python--分布式爬虫的更多相关文章

随机推荐

热门专题