基于docker的spark分布式与单线程、多线程wordcount的对比实验

1. 分布式环境搭建

1.1 基于docker的spark配置文件

docker-compose.yml

version: '2'

services:

  spark:

    image: docker.io/bitnami/spark:3

    environment:

      - SPARK_MODE=master

      - SPARK_RPC_AUTHENTICATION_ENABLED=no

      - SPARK_RPC_ENCRYPTION_ENABLED=no

      - SPARK_LOCAL_STORAGE_ENCRYPTION_ENABLED=no

      - SPARK_SSL_ENABLED=no

    ports:

      - '8080:8080'

  spark-worker-1:

    image: docker.io/bitnami/spark:3

    environment:

      - SPARK_MODE=worker

      - SPARK_MASTER_URL=spark://spark:7077

      - SPARK_WORKER_MEMORY=1G

      - SPARK_WORKER_CORES=1

      - SPARK_RPC_AUTHENTICATION_ENABLED=no

      - SPARK_RPC_ENCRYPTION_ENABLED=no

      - SPARK_LOCAL_STORAGE_ENCRYPTION_ENABLED=no

      - SPARK_SSL_ENABLED=no

  spark-worker-2:

    image: docker.io/bitnami/spark:3

    environment:

      - SPARK_MODE=worker

      - SPARK_MASTER_URL=spark://spark:7077

      - SPARK_WORKER_MEMORY=1G

      - SPARK_WORKER_CORES=1

      - SPARK_RPC_AUTHENTICATION_ENABLED=no

      - SPARK_RPC_ENCRYPTION_ENABLED=no

      - SPARK_LOCAL_STORAGE_ENCRYPTION_ENABLED=no

      - SPARK_SSL_ENABLED=no

1.2 安装集群

在cmd中cd到yml所在的目录，执行

docker-compose up

等待安装完成并且启动完成

可在docker-desktop中查看启动的集群

在浏览器中输入localhost:8080访问master 的web UI：

1.3 数据准备

编写利用python脚本生成1KB、1MB、10MB、100MB的文本

def txtwriter(count, file_name):

    for i in range(len(count)):

        for j in range(count[i]):

            with open(file_name[i], mode='a', encoding='utf-8') as file_obj:

                file_obj.write('apple peach pear\n')

                print(str(i)+"  "+str(j)+ file_name[i])

if __name__ == "__main__":

    count = [64, 64*1024, 64*1024*10, 64*1024*100] #1KB 1Mb 10MB 100Mb

    file_name = ["1KB", "1Mb", "10MB", "100Mb"]

    txtwriter(count, file_name)

1.4 脚本准备

编写wordcount以及计时脚本

from pyspark import SparkConf, SparkContext

import sys

import time

import os

def wordcount(file_path):

    counts = sc.textFile(file_path)\

        .flatMap(lambda line: line.split(' '))\

        .map(lambda x: (x, 1))\

        .reduceByKey(lambda a, b: a+b)

    output = counts.collect()

    for(word, count) in output:

        print('%s : %i'%(word, count))

# def txtwriter(count, file_name):

#     for i in range(len(count)):

#         for j in range(count[i]):

#             with open(file_name[i], mode='a', encoding='utf-8') as file_obj:

#                 file_obj.write('apple peach pear\n')

if __name__ == "__main__":

    count = [64, 64*1024, 64*1024*10, 64*1024*100] #1KB 1Mb 10MB 100Mb

    file_name = ["1KB", "1Mb", "10MB", "100Mb"]

    # txtwriter(count, file_name)

    for i in range(len(file_name)):

        starttime = time.time()

        conf = SparkConf()

        sc = SparkContext(conf = conf)

        wordcount(file_path=file_name[i])

        endtime = time.time()

        print('time:', endtime-starttime)

        with open("time.txt", mode='a', encoding='utf-8') as file_obj:

            file_obj.write(str(endtime-starttime) + '\n')

        sc.stop()

    # for i in range(file_name):

    #     os.remove(file_name[i])

1.5 数据上传

将数据上传到集群中

docker cp cluster_test.py 8c089a440dd5:/tmp/test

docker cp txtw.py 8c089a440dd5:/tmp/test

......

2. 单线程`wordcount`

在master主机中执行

spark-submit --master  local[1] cluster_test.py

计算结果

数据大小	1KB	1MB	10MB	100MB
执行时间	6.970337629318237	2.368252992630005	11.44127345085144	102.59012055397034

3. 多线程`wordcount`

在master主机中执行

spark-submit --master  local[2] cluster_test.py

计算结果

数据大小	1KB	1MB	10MB	100MB
执行时间	7.166856050491333	1.9559352397918701	6.257161378860474	61.2608277797699

4. 分布式`wordcount`

在master主机中执行

spark-submit --master  spark://8c089a440dd5:7077 cluster_test.py

计算结果

数据大小	1KB	1MB	10MB	100MB
执行时间	11.847958087921143	9.145256996154785	13.520023584365845	68.8401427268982

5. `wordcount`结果汇总

数据大小	1KB	1MB	10MB	100MB
单线程（one worker）	6.970337629318237	2.368252992630005	11.44127345085144	102.59012055397034
多线程（two workers）	7.166856050491333	1.9559352397918701	6.257161378860474	61.2608277797699
分布式（two workers）	11.847958087921143	9.145256996154785	13.520023584365845	68.8401427268982

由表可以看到，分布式在数据量较小时所花时间最长，推测为系统调度消耗时间较多，但数据量大时，分布式的处理时间是显著减少的。单机处理时，数据量较小的时候消耗时间是小于分布式的，并且多线程处理是显著优于单线程的，单机处理的能力毕竟有限，可以推测分布式机器数量增多时，在处理大量数据时能力是优于单机处理的。

基于docker的spark分布式与单线程、多线程wordcount的对比实验的更多相关文章

暑假第二弹：基于docker的hadoop分布式集群系统的搭建和测试
早在四月份的时候,就已经开了这篇文章.当时是参加数据挖掘的比赛,在计科院大佬的建议下用TensorFlow搞深度学习,而且要在自己的hadoop分布式集群系统下搞. 当时可把我们牛逼坏了,在没有基础的 ...
基于docker的spark-hadoop分布式集群之二：环境测试
在上一章<环境搭建>基础上,本章对各个模块做个测试 Mysql 测试 1.Mysql节点准备为方便测试,在mysql节点中,增加点数据进入主节点 docker exec -it had ...
基于Docker Compose部署分布式MinIO集群
一.概述 Minio 是一个基于Go语言的对象存储服务.它实现了大部分亚马逊S3云存储服务接口,可以看做是是S3的开源版本,非常适合于存储大容量非结构化的数据,例如图片.视频.日志文件.备份数据和容器 ...
007.基于Docker的Etcd分布式部署
一环境准备 1.1 基础环境 ntp配置:略 #建议配置ntp服务,保证时间一致性 etcd版本:v3.3.9 防火墙及SELinux:关闭防火墙和SELinux 名称地址主机名备注 etcd ...
基于docker的spark-hadoop分布式集群之一：环境搭建
一.软件准备 1.基础docker镜像:ubuntu,目前最新的版本是18 2.需准备的环境软件包: (1) spark-2.3.0-bin-hadoop2.7.tgz (2) hadoop-2.7. ...
搭建基于docker 的redis分布式集群在docker for windows
https://blog.csdn.net/xielinrui123/article/details/85104446 首先在docker中下载使用 docker pull redis:3.0.7do ...
喵星之旅-狂奔的兔子-基于docker的redis分布式集群
一.docker安装(略) 二.下载redis安装包(redis-4.0.8.tar.gz) 以任何方式获取都可以.自行官网下载. 三.拉取centos7的docker镜像命令:docker pul ...
Python串行运算、并行运算、多线程、多进程对比实验
转自:http://www.redicecn.com/html/Python/20111223/355.html Python发挥不了多核处理器的性能(据说是受限于GIL,被锁住只能用一个CPU核心, ...
分布式任务调度系统xxl-job搭建(基于docker)
一.简介 XXL-JOB是一个轻量级分布式任务调度平台,其核心设计目标是开发迅速.学习简单.轻量级.易扩展.现已开放源代码并接入多家公司线上产品线,开箱即用. 更多介绍,请访问官网: http://w ...
基于Docker搭建分布式消息队列Kafka
本文基于Docker搭建一套单节点的Kafka消息队列,Kafka依赖Zookeeper为其管理集群信息,虽然本例不涉及集群,但是该有的组件都还是会有,典型的kafka分布式架构如下图所示.本例搭建的 ...

随机推荐

K8S 部署电商项目
Ingress 和 Ingress Controller 概述在 k8s 中为什么会有 service 这个概念?Pod 漂移问题 Kubernetes 具有强大的副本控制能力,能保证在任意副本(P ...
GitOps实践之kubernetes安装argocd
1. 什么是argocd 1.Argo CD是Kubernetes的一个声明性GitOps持续交付工具. 2.应用程序定义.配置和环境应该是声明性的和版本控制的.应用程序部署和生命周期管理应自动化.可 ...
虚拟网络VLAN
一.VLAN划分基础 1.VLAN概念 VLAN叫做虚拟局域网,逻辑上将网络划分 2.VLAN的分类静态vlan:基于端口划分静态VLAN 动态vlan:基于MAC地址划分动态VLAN 3.VLAN ...
utf-8与utf8mb4与base64和md5
utf-8与utf8mb4的区别 utf8--->utf-8,mysql字节的,两个字节表示一个字符--->生僻字,表示存不了 utf8mb4-->utf-8,最多4个字节表示一个字 ...
出现报错:The field admin.LogEntry.user was declared with a lazy reference to 'api.user', but app 'api' isn't installed.解决方法
LeetCode HOT 100：最大子数组和
题目:53. 最大子数组和题目描述: 给你一个整数数组,在该数组的所有子数组中,找到一个子数组中所有元素相加和最大,返回这个最大的和.子数组就是一个数组中,由一个或几个下标连续的元素,组成的小数组, ...
JavaScript：函数：函数的参数
声明函数的时候,有个括号,这里面可以加上函数的参数,这些参数,我们叫做形参(形式参数): 此时这些参数,也是已经声明了的变量,只是还没有赋值而已. 也可以不加,取决于函数的逻辑.如果函数需要从外部传进 ...
error: expected ‘)’ before ‘PRIx64’
打印uint64时编译报错 printf("prefix:0x%"PRIx64"\n",ipv6Prefix); 解决办法:添加头文件 #include < ...
java线程基础知识整理
目录线程基本概念 1.java实现线程 2.线程的生命周期 3.线程常用的方法 3.1.sleep() 3.2.interrupt方法 3.3.stop方法 4.线程调度 4.1.常见的线程调度模型 ...
通过Canal将云上MySQL数据同步到华为云ES(CSS)中
背景: A部门想将mysql中多张表join成一个sql查询语句,然后将结果同步到es中供搜索使用环境信息: 源端mysql在阿里云上,有公网ip 目标端es在华为云上,三节点操作步骤与目的: 配 ...

基于docker的spark分布式与单线程、多线程wordcount的对比实验

1. 分布式环境搭建

1.1 基于docker的spark配置文件

1.2 安装集群

1.3 数据准备

1.4 脚本准备

1.5 数据上传

2. 单线程wordcount

3. 多线程wordcount

4. 分布式wordcount

5. wordcount结果汇总

基于docker的spark分布式与单线程、多线程wordcount的对比实验的更多相关文章

随机推荐

热门专题

2. 单线程`wordcount`

3. 多线程`wordcount`

4. 分布式`wordcount`

5. `wordcount`结果汇总