三、spark简介

一、简介

spark的官网：http://spark.apache.org/

spark解决了什么问题？

我们都知道hadoop，hadoop以一个非常容易使用的编程模型解决了大数据的两大难题：

1）分布式存储hdfs；

2）分布式计算mapReduce；

但是hadoop也存在着一些问题，最主要的缺陷在于它的延迟比较严重，因为hadoop的mapReduce总是需要进行大量的I/O，即使是中间输出结果也需要通过I/O来保存到HDFS中并再次读取。如果是在大规模迭代的情况下hadoop的效率就更不忍直视了。

而spark的诞生弥补了mapreduce的问题，并迅速成为了Apache的顶级项目。

由于spark是基于内存计算的，极大地减少了计算过程的I/O操作，在大规模的迭代计算中它的计算速度是hadoop的100多倍，如图：

spark的计算速度非常快，同时它支持scala、Python、Java以及R四种语言来编写spark应用，更加的易于使用。

spark核心组件

如图所示，spark主要包含了五块内容，在spark core的基础之上构建了4大组件

1、spark SQL：可以使用SQL来操作数据

文档地址：http://spark.apache.org/docs/latest/sql-programming-guide.html

2、spark stream：做流式计算的组件

文档地址：http://spark.apache.org/docs/latest/streaming-programming-guide.html

3、MLlib：spark用于数据挖掘的算法库

文档地址：http://spark.apache.org/docs/latest/ml-guide.html

4、graphx：用于图计算的算法库

文档地址：http://spark.apache.org/docs/latest/graphx-programming-guide.html

总结

spark并不是hadoop的替代品，相反它是hadoop的一个补充，弥补了mapReduce的缺陷。同时，spark并也会利用HDFS进行持久化操作，所以spark和hadoop本身是相辅相成的。而spark除了速度快之外，还提供了强大的组件用于SQL、流式计算、机器学习、图计算等。它也支持很多的数据源，并支持如scala、Python、Java、R等编程语言非常地易于使用。

三、spark简介的更多相关文章

（一）Spark简介-Java&Python版Spark
Spark简介视频教程: 1.优酷 2.YouTube 简介: Spark是加州大学伯克利分校AMP实验室,开发的通用内存并行计算框架.Spark在2013年6月进入Apache成为孵化项目,8个月 ...
Data - Spark简介
Spark简介 Spark是基于内存计算的大数据并行计算框架,可用于构建大型的.低延迟的数据分析应用程序. HomePage:http://spark.apache.org/ GitHub:https ...
Spark之 spark简介、生态圈详解
来源:http://www.cnblogs.com/shishanyuan/p/4700615.html 1.简介 1.1 Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithm ...
笔记:Spark简介
Spark简介 [TOC] Spark是什么 Spark是基于内存计算的大数据并行计算框架 Spark是MapReduce的替代方案 Spark与Hadoop Spark是一个计算框架,而Hadoop ...
Mybatis sql映射文件浅析 Mybatis简介（三）简介
Mybatis sql映射文件浅析 Mybatis简介(三) 简介除了配置相关之外,另一个核心就是SQL映射,MyBatis 的真正强大也在于它的映射语句. Mybatis创建了一套规则以XML ...
Spark简介安装和简单例子
Spark简介安装和简单例子 Spark简介 Spark是一种快速.通用.可扩展的大数据分析引擎,目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark S ...
Spark学习之路（一）—— Spark简介
一.简介 Spark于2009年诞生于加州大学伯克利分校AMPLab,2013年被捐赠给Apache软件基金会,2014年2月成为Apache的顶级项目.相对于MapReduce的批处理计算,Spar ...
Spark 系列（一）—— Spark简介
一.简介 Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab,2013 年被捐赠给 Apache 软件基金会,2014 年 2 月成为 Apache 的顶级项目.相对于 MapRedu ...
入门大数据---Spark简介
一.简介 Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab,2013 年被捐赠给 Apache 软件基金会,2014 年 2 月成为 Apache 的顶级项目.相对于 MapRedu ...

随机推荐

DOS磁盘操作类命令
外部命令 formAT---磁盘格式化命令格式:formAT<盘符:>[/S][4][/Q] 1)命令收的盘符不可缺省,若对硬盘进行格式化,则会有如下提示:WARNING:ALL DA ...
Sphinx全文检索
全文检索一.生活中的数据总体分为: 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等. 非结构化数据:指没有固定格式或不定长的数据,如邮件,word文档等. 非结构化数据还有一种叫法: ...
acedSSSetFirst选择集夹点亮显实例
ads_name ss; //执行预选好像可以无视PICKSTYLE变量 if (RTNORM != acedSSGet(_T("I"),NULL,NULL,NULL,ss)) ...
脚本：定时释放 Linux/CentOS 缓存【转载自：杭州山不高】
定时释放Linux/CentOS缓存的脚本(yl_dropcaches)如下: #!/bin/bash used=`free -m | awk 'NR==2' | awk '{print $3}'` ...
关于CentOS-6的默认带的mysql启动和安装问题
http://blog.csdn.net/arrowzz/article/details/24439731 以下纯复制粘贴: 一开始想自己一步一步从编译开始搭建一个lanmp环境: 从鸟哥的linux ...
【bash】今天你坑队友了吗
需求: 压缩日志并删除压缩过的文件很日常的运维需求!!! 好,来看代码 echo 'start' quke.log rm -f quke.log echo 'delete' 不管是初级运维还是高级运 ...
Linux nl --让输出的文件内容自动加上行号
nl命令在linux系统中用来计算文件中行号.nl 可以将输出的文件内容自动的加上行号!其默认的结果与 cat -n 有点不太一样, nl 可以将行号做比较多的显示设计,包括位数与是否自动补齐 0 等 ...
浅谈Android选项卡（四）
前面几篇介绍的选项的用法,基本上使用TabActivity.ViewPager.已经基本上满足开发需求了.但是这里再介绍一种小技巧,在有的时候,感觉使用前面的ViewPager和Fragment时候, ...
iOS中生成随机的UUID
+ (NSString *)uuidString { CFUUIDRef uuid_ref = CFUUIDCreate(NULL); CFStringRef uuid_string_ref= CFU ...
Asp.net的生命周期应用之IHttpModule和IHttpHandler
摘自:http://www.cnblogs.com/JimmyZhang/archive/2007/11/25/971878.html 从 Http 请求处理流程一文的最后的一幅图中可以看到,在Ht ...