python--分布式爬虫
//server
import socket, select, re, queue, redis
from multiprocessing import Pool, cpu_count
from pymongo import MongoClient host = '192.168.1.107'
ConnectionList = []
Recv_buffer = 4096000
Client_Status = {}
Client_Num = {}
redis1 = redis.Redis(host='localhost', port=6379, db=0)
Num = 0 class Distributed_Web_Crawler:
def __init__(self, port):
self.url_num = 1
self.queue = queue.Queue()
self.db = MongoClient().CrawSpider.content
self.server_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
self.server_socket.bind((host, port))
self.server_socket.listen(10)
self.pool = Pool(cpu_count() - 1)
ConnectionList.append(self.server_socket)
print("服务器运行在端口:" + str(port))
address = 'https://movie.douban.com/'
self.queue.put(address)
redis1.set(address, 0)
self.main() def main(self):
global Num
while 1:
if not self.queue.empty() and ConnectionList.__len__() > 1 is not None:
self.pool.apply_async(self.task_manage())
read_sockets, write_sockets, error_sockets = select.select(ConnectionList, [], [])
for sock in read_sockets:
if sock == self.server_socket:
conn, addr = self.server_socket.accept()
ConnectionList.append(conn)
core_num = conn.recv(Recv_buffer).decode('utf8')
Client_Status[conn] = core_num
Client_Num[conn] = Client_Num.__len__() + 1
print('客户端 ' + addr[0] + ':' + str(addr[1]) + '已连接,核心数: ' + core_num + '\n编号为' + str(Client_Num[
conn]))
else:
data = sock.recv(Recv_buffer)
if data:
Contents = data.decode('utf8').split('Page_ContentPPPPPP///////')
# print('收到'+str(Client_Num[sock])+'号机发来数据,正在处理')
Client_Status[sock] = int(Client_Status[sock]) + len(Contents)
print('编号'+str(Client_Num[sock])+'可用核心'+str(Client_Status[sock]))
for content in Contents:
if content:
self.pool.apply_async(self.web_page_resolution(content))
else:
print('客户端 ' + addr[0] + ':' + str(addr[1]) + '断开连接')
sock.close()
Client_Status.pop(sock)
Client_Num.pop(sock)
ConnectionList.remove(sock) def web_page_resolution(self, content):
db = MongoClient().Web.data
db.insert({'page_content': content})
pattern = re.compile('https://movie.douban.com/(.*?)"')
urls = re.findall(string=content, pattern=pattern)
for url in urls:
url = 'https://movie.douban.com/' + url
if redis1.get(url) is None:
redis1.set(url, self.url_num)
self.queue.put(url)
self.url_num += 1 def task_manage(self):
urls = ''
for socket in ConnectionList:
if socket != self.server_socket:
while not self.queue.empty() and int(Client_Status[socket]) != 0:
urls = urls + self.queue.get() + ' '
Client_Status[socket] = int(Client_Status[socket]) - 1
# print('向' + str(Client_Num[socket]) + '号终端分配任务')
socket.send(urls.encode('utf8')) if __name__ == "__main__":
port = 8888
Distributed_Web_Crawler(port, )
//Client
import socket, sys, select
from multiprocessing import cpu_count
from requests import get
from multiprocessing import Pool p = Pool(cpu_count() - 1)
host = '192.168.0.103'
Page_contents = [] def crawler_page(url):
print("正在爬取网页" + url)
content = get(url).content.decode('utf8') + 'Page_ContentPPPPPP///////'
print(url + "爬取完成,正在向服务器发送数据")
s.send(content.encode('utf8')) def listing():
while 1:
rlist = [sys.stdin, s]
read_list, write_list, error_list = select.select(rlist, [], [])
for sock in read_list:
if sock == s:
data = sock.recv(4096).decode('utf8')
if data != 'quit' and data:
urls = data.split()
if len(urls) == 1:
p.apply_async(crawler_page(urls[0]))
else:
for url in urls:
p.apply_async(crawler_page(url))
urls.remove(url)
elif data == 'quit':
print('接收到服务器关闭指令,客户端正在退出')
sys.exit()
else:
print('服务器连接失败,正在退出')
sys.exit() if __name__ == "__main__":
port = 8888
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
s.settimeout(3)
try:
s.connect(('192.168.1.107', port))
except:
print("无法连接至服务器,请检查地址后重试")
sys.exit()
print("已连接至服务器,开始发送机器信息\n核心数:" + str(cpu_count()))
s.send(str(cpu_count()).encode('utf8'))
listing()
python--分布式爬虫的更多相关文章
- Python分布式爬虫原理
转载 permike 原文 Python分布式爬虫原理 首先,我们先来看看,如果是人正常的行为,是如何获取网页内容的. (1)打开浏览器,输入URL,打开源网页 (2)选取我们想要的内容,包括标题,作 ...
- 第三百七十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目
第三百七十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目 scrapyd模块是专门用于部署scrapy项目的,可以部署和管理scrapy项目 下载地址:h ...
- 第三百七十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现我的搜索以及热门搜索
第三百七十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现我的搜索以及热门 我的搜素简单实现原理我们可以用js来实现,首先用js获取到 ...
- 第三百七十节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索结果分页
第三百七十节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索结果分页 逻辑处理函数 计算搜索耗时 在开始搜索前:start_time ...
- 第三百六十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索功能
第三百六十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索功能 Django实现搜索功能 1.在Django配置搜索结果页的路由映 ...
- 第三百六十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索的自动补全功能
第三百六十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—用Django实现搜索的自动补全功能 elasticsearch(搜索引擎)提供了自动补全接口 官方说明:https://www.e ...
- 第三百六十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中
第三百六十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中 前面我们讲到的elasticsearch( ...
- 第三百六十六节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的bool组合查询
第三百六十六节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的bool组合查询 bool查询说明 filter:[],字段的过滤,不参与打分must:[] ...
- 第三百六十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本查询
第三百六十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本查询 1.elasticsearch(搜索引擎)的查询 elasticsearch是功能 ...
- 第三百六十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mapping映射管理
第三百六十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mapping映射管理 1.映射(mapping)介绍 映射:创建索引的时候,可以预先定义字 ...
随机推荐
- Android 线程的正确使用姿势
进程优先级(Process Priority) 线程寄宿在进程当中,线程的生命周期直接被进程所影响,而进程的存活又和其优先级直接相关.在处理进程优先级的时候,大部分人靠直觉都能知道前台进程(Foreg ...
- 开发不改bug?给你支个招
在测试过程中,不免会遇到开发人员因为一些原因不想修改个别bug的情况.那一般遇到这种问题时,我们该如何去推进开发修改bug呢? 我们先来分析下到底会有哪些原因会导致开发不修改bug 1. 开发与测试对 ...
- [Android Tips] 15. Enforcing spaces in string resources
解决方案 使用双引号括起来 使用空格符的 unicode 编码 \u0200 ref Enforcing spaces in string resources How to put space cha ...
- Struts2(五):ActionSupport
我们在上一章节中的一个列子中使用到了一个标识跳转到登录页面的例子: 示例是这样写的: index.jsp: <br/> <a href="gotoLoginPage&quo ...
- java 笔试题 字符串旋转
package com.shb.java; /** * 取出第一个重复的字符 * @author shaobn * @date 2016-9-28 * @package_name com.shb.ja ...
- AJAX-----08jsonp跨域请求
jsonp跨域请求其实我个人感觉并非传统上的ajax,因为传统的ajax几乎都是采用了xmlhttprequest这个对象来进行发送数据或者接收数据而已, 而jsop是通过双方约定成一个接口文件,然后 ...
- Android Studio 入门指南
转载: 原文链接:http://www.codeceo.com/article/android-studio-guide.html 写在前面 作为一个Android 开发者,你应该很了解Android ...
- opencv的学习笔记4
通常更加高级的形态学变换,如开闭运算.形态学梯度.“顶帽”.“黑帽”等等,都是可以由常用的腐蚀膨胀技术结合来达到想要的效果. 1.开运算:先腐蚀后膨胀,用于用来消除小物体.在纤细点处分离物体.平滑较大 ...
- CoordinatorLayout 自定义Behavior并不难,由简到难手把手带你飞
先来看看最终的效果~~ 本文同步至博主的私人博客wing的地方酒馆 嗯..一个是头像上移的 另一个是模仿UC浏览器的. (PД`q.)你不是说!有三款的吗,怎么只有两款!!!! 不要急嘛... 说了从 ...
- TCP/IP学习-链路层
链路层: 路径MTU: 网络层: ifconfig netstat IP首部 网络字节序:大端字节序