在飞速发展的云计算大数据时代,Spark是继Hadoop之后,成为替代Hadoop的下一代云计算大数据核心技术,目前Spark已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且是Apache顶级Project,可以预计的是2014年下半年到2015年Spark在社区和商业应用上会有爆发式的增长。

Spark在业界的使用案例

Spark技术在国内外的应用开始越来越广泛,它正在逐渐走向成熟,并在这个领域扮演更加重要的角色。国外一些大型互联网公司已经部署了Spark。例如:一直支持Hadoop的四大商业机构(Cloudera、MapR、Hortonworks、EMC)已纷纷宣布支持Spark;Mahout前一阶段也表示,将不再接受任何形式以MapReduce实现的算法,同时还宣布了基于Spark新的算法;而Cloudera的机器学习框架Oryx的执行引擎也将由Hadoop的MapReduce替换成Spark;另外,Google也已经开始将负载从MapReduce转移到Pregel和Dremel上;FaceBook也宣布将负载转移到Presto上……而目前,我们国内的淘宝、优酷土豆、网易、Baidu、腾讯等企业也已经使用Spark技术在自己的商业生产系统中。

Spark是最新一代的大数据处理框架,在数据统计分析、数据挖掘、流处理、图技术、机器学习、误差查询等方面都有自己的技术,从我们的技术研究和长期业界观察来看,Spark会成为大数据时代集大成的计算框架。随着2014年5月30日Spark  1.0.0的发布,Spark已经相对稳定,可以放心使用。

Spark如何部署到生产环境

对于Spark该如何部署到生产环境中,Spark是最新一代大数据计算框架,使用时需要单独部署集群,Spark集群部署方式主要有三种:Standalone、Yarn、Mesos。一般而言,在部署的时候都会基于HDFS文件存储系统,所以,如果已经有Hadoop平台,部署Spark就非常容易,只需在平台上增加Spark功能即可。目前,国内企业淘宝使用的Spark就是基于Hadoop的yarn。当然也可以采用standalone和zookeeper的方式进行从无到有的构建Spark集群,这也是一种常见和理想的选择,并且这种方式也是官方推荐的。

企业如何做云计算大数据部署的技术选型

现在,谈到云计算大数据话题的时候很多人还是多会提到Hadoop,对Spark了解的人还不是很多,如果企业有计划要部署云计算大数据的话,如何做技术选型是很重要的。对此,Spark亚太研究院院长和首席专家王家林给出了如下建议:

如果企业以前没有云计算大数据集群,选择使用Spark要比Hadoop更为明智,原因是:首先,Hadoop本身的计算模型决定了它的所有工作都要转化成Map、Shuffle和Reduce等核心阶段,由于每次计算都要从磁盘读或者写数据,而且整个计算模型需要网络传输,这就导致越来越难以忍受的延迟性。其次,Hadoop还不能支持交互式应用。

而Spark可以轻松应对数据统计分析、数据挖掘、流处理、图技术、机器学习、误差查询等,且Spark的“One stack  rule them all”的特性也导致部署的简易性,省去多套系统部署的麻烦。

如果技术选型为Spark,那么,解决数据统计分析、实时流计算、数据挖掘基本只需要一个团队即可,而如果采用Hadoop则需要不同团队做处理每一项专门的技术,极大的增加人力成本。

另外,对于已经有Hadoop集群的公司而言,建议尝试使用Spark技术,可以从Spark的Shark或者Spark SQL开始,推荐使用Spark的实时流处理和机器学习技术。

Spark趋势,中型企业如何抉择

Spark因其部署的简易性和“One stack  to rule them all”的特点,是大数据时代中型企业处理大数据的福音。例如,Yahoo!、淘宝、优酷土豆、网易、腾讯等国内大型知名企业已经在商业生产环境下开始使用Spark技术;Intel、IBM、Linkin、Twwitter等国外大型知名企业也都在大力支持Spark。随着这些国内外大企业的使用,Spark技术的发展必然势不可挡,行业普及很快就会到来,因此对于中型企业的使用和普及,只是时间问题。中型公司如果要基于Spark进行部署,只需配备约5-20人的团队,即可在Spark上做数据分析统计、机器学习、实施流处理计算等工作。

对于电信、金融等行业,使用Spark同样势不可挡。在数据统计分析方面,Spark比Hadoop快几十倍,如果是使用内存表,Spark更是比Hadoop快100倍以上。同时Spark的实时流处理、机器学习、图计算也非常高效,可以充分满足电信、金融行业数据挖掘的需要。

作为唯一可以革命Hadoop并正在成为大数据计算框架霸主的Spark技术,由于其“One stack to rule them all”的特性(使用一个统一的技术堆栈解决了大数据处理生态系统中的流处理、图技术、机器学习、NoSQL查询等方面的技术问题),在2014年10月左右会在中国的需求有爆发之势,这种需求包含企业使用Spark的需求和Spark人才的迫切需求,同时,这种需求将不限已经使用Spark的Yahoo!、淘宝、腾讯、网易等国内大型企业,还会包含很多中小企业。

Spark部署及应用的更多相关文章

  1. Spark部署三种方式介绍:YARN模式、Standalone模式、HA模式

    参考自:Spark部署三种方式介绍:YARN模式.Standalone模式.HA模式http://www.aboutyun.com/forum.php?mod=viewthread&tid=7 ...

  2. 基于Docker搭建大数据集群(四)Spark部署

    主要内容 spark部署 前提 zookeeper正常使用 JAVA_HOME环境变量 HADOOP_HOME环境变量 安装包 微云下载 | tar包目录下 Spark2.4.4 一.环境准备 上传到 ...

  3. 大数据系列之并行计算引擎Spark部署及应用

    相关博文: 大数据系列之并行计算引擎Spark介绍 之前介绍过关于Spark的程序运行模式有三种: 1.Local模式: 2.standalone(独立模式) 3.Yarn/mesos模式 本文将介绍 ...

  4. Spark部署

    Spark的部署让人有点儿困惑,有些需要注意的事项,本来我已经装成功了YARN模式的,但是发现了一些问题,出现错误看日志信息,完全看不懂那个错误信息,所以才打算翻译Standalone的部署的文章.第 ...

  5. 再谈spark部署搭建和企业级项目接轨的入门经验(博主推荐)

    进入我这篇博客的博友们,相信你们具备有一定的spark学习基础和实践了. 先给大家来梳理下.spark的运行模式和常用的standalone.yarn部署.这里不多赘述,自行点击去扩展. 1.Spar ...

  6. Spark 部署即提交模式意义解析

    Spark 的官方从 Cluster Mode Overview 中,官方向我们介绍了 cluster 模式的部署方式. Spark 作为独立进程在集群上运行,他们通过 SparkContext 进行 ...

  7. 入门大数据---Spark部署模式与作业提交

    一.作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业,其格式如下: ./bin/spark-submit \ --class <ma ...

  8. spark 部署问题

    spark的web UI 端口设置:spark-env.sh 中设置SPARK_MASTER_WEBUI_PORT 为自己想设置的端口号. 其他worker 的web UI 端口默认:8081 mas ...

  9. [Spark] - Spark部署安装

    环境:centos6.0 虚拟机 搭建单机版本的spark 前提条件:搭建好hadoop环境 1. 下载scala进行安装 只需要设置环境变量SCALA_HOME和PATH即可 export SCAL ...

随机推荐

  1. (转)mongdb性能优化收集

    一.数据库最大连接数问题当你在后台日志中,发现大量“connection refused because too many open connections: 819”信息时,一般跟你没有设置合适的最 ...

  2. SQL Server 使用分区函数实现查询优化

    在项目中遇到一个需求,需要在商家收藏信息中,获取到该商家发布的最新一条商品的发布时间,需求很简单,SQL语句也不复杂, select T_UserCollectMerchant.CollectID,T ...

  3. ASP.NET页面之间传值Session(2)

    想必这个肯定是大家使用中最常见的用法了,其操作与Application类似,作用于用户个人,所以,过量的存储会导致服务器内存资源的耗尽. 优点:1.使用简单,不仅能传递简单数据类型,还能传递对象. 2 ...

  4. 【题解】CQOI2017老C的方块

    网络流真的是一种神奇的算法.在一张图上面求感觉高度自动化的方案一般而言好像都是网络流的主阵地.讲真一开始看到这道题也有点懵,题面很长,感觉很难的样子.不过,仔细阅读了题意之后明白了:我们所要做的就是要 ...

  5. [CF620E]New Year Tree

    题目大意:有一棵以$1$为根的有根树,有$n$个点,每个节点初始有颜色$c_i$.有两种操作: $1 v c:$将以$v$为根的子树中所有点颜色更改为$c$ $2 v:$ 查询以$v$为根的子树中的节 ...

  6. BZOJ day8

    好吧,, 补一天题解. 1001  狼抓兔子 妥妥的网络流啊,难度仅次于草地排水,边都给出来了.就是注意反向边也要有流量就行. 1007 水平可见直线 这个题按斜率排序(注意不是绝对值),然后将直线入 ...

  7. [hdu 4417]树状数组+离散化+离线处理

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4417 把数字离散化,一个查询拆成两个查询,每次查询一个前缀的和.主要问题是这个数组是静态的,如果带修改 ...

  8. [fzu 2271]不改变任意两点最短路至多删的边数

    题目链接:http://acm.fzu.edu.cn/problem.php?pid=2271 题目中说每条边的边权都是[1,10]之间的整数,这个条件非常关键!以后一定要好好读题啊…… 做10次循环 ...

  9. TCP ------ TCP创建服务器中出现的套接字

    在服务器端,socket()返回的套接字用于监听(listen)和接受(accept)客户端的连接请求.这个套接字不能用于与客户端之间发送和接收数据. accept()接受一个客户端的连接请求,并返回 ...

  10. RPC-Thrift(四)

    Client Thrift客户端有两种:同步客户端和异步客户端. 同步客户端 同步客户端比较简单,以RPC-Thrift(一)中的的例子为基础进行研究源码,先看一下类图. TServiceClient ...