Spark简介 --大数据

2024-10-06 07:23:47 原文

一、Spark是什么？

快速且通用的集群计算平台

二、Spark的特点：

快速：Spark扩充流行的Mapreduce计算模型，是基于内存的计算
通用：Spark的设计容纳了其它分布式系统拥有的功能，批处理、迭代式计算、交互查询和流处理等，降低了维护成本
高度开放：Spark提供Python、Java、Scala、SQL的API和丰富的内置库，Spark和其它的大数据工作整合得很好，包括hadoop、Kafka

三、Spark的组件

1、Spark Core

包含基本功能，包括任务调度、内存管理、容错机制。内部定义了RDDS（弹性分布式数据集），提供了很多APIs来创建和操作这些RDDs。
应用场景：为其它组件提供底层的服务。

2、Spark SQL

Spark处理结构化数据的库，像Hive SQL、MySQL一样。
应用场景：企业中用来做报表统计

3、Spark Streaming

实时数据流处理组件，类似Storm。Spark Streaming提供API来操作实时流数据。
应用场景：企业中用来从Kafka接收数据做实时统计

4、MLlib

一个包含通用机器学习功能的包，Machine learning lib。包含分类、聚类、回归等，还包括模型评估和数据导入。MLlib提供的上面这些方法，都支持集群上的横向扩展。

5、Graphx

处理图的库（例如社交网络图），并进行图的并行计算，像Spark Streaming,Spark SQL一样，它继承了RDD API。提供了各种图的操作，和常用的图算法，例如RangeRank算法
应用场景：图计算

6、Cluster Manager

集群管理，Spark自带一个集群管理是单独调度器。常见的集群管理包括：Hadoop YARN、Apache Mesos

四、紧密集成的优点

Spark底层优化，基于Spark底层的组件，也得到相应的优化。紧密集成，节省了各个组件使用时的部署，测试时间。向Spark增加新的组件时，其它组件可立即享用新组件的功能。

五、Spark和Hadoop比较

Hadoop应用场景：离线处理、对及时性要求不高
Spark应用场景：时效性要求高、机器学习等领域

Spark简介 --大数据的更多相关文章

大数据实时处理-基于Spark的大数据实时处理及应用技术培训
随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的 ...
Spark记录-大数据简介
什么是大数据大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信 ...
[转载] Spark：大数据的“电光石火”
转载自http://www.csdn.net/article/2013-07-08/2816149 Spark已正式申请加入Apache孵化器,从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突 ...
Spark：大数据的电花火石！
什么是Spark?可能你很多年前就使用过Spark,反正当年我四六级单词都是用的星火系列,没错,星火系列的洋名就是Spark. 当然这里说的Spark指的是Apache Spark,Apache Sp ...
spark快速大数据分析学习笔记*初始化sparkcontext(一)
初始化SparkContext 1// 在java中初始化spark import org.apache.spark.SparkConf; import org.apache.spark.api.ja ...
大数据框架对比：Hadoop、Storm、Samza、Spark和Flink
转自:https://www.cnblogs.com/reed/p/7730329.html 今天看到一篇讲得比较清晰的框架对比,这几个框架的选择对于初学分布式运算的人来说确实有点迷茫,相信看完这篇文 ...
大数据框架对比：Hadoop、Storm、Samza、Spark和Flink——flink支持SQL，待看
简介大数据是收集.整理.处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称.虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性.规模,以及价值在最近几年才 ...
大数据计算平台Spark内核解读
1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着 Spark在大数据计算领域的暂露头角,越来越多 ...
王家林大数据Spark超经典视频链接全集[转]
压缩过的大数据Spark蘑菇云行动前置课程视频百度云分享链接链接:http://pan.baidu.com/s/1cFqjQu SCALA专辑 Scala深入浅出经典视频链接:http://pan ...

随机推荐

iptables防火墙--------基本操作
查看规则查看filter表中的规则 $ iptables -t filter -L 使用-t选项,指定要操作的表.使用-L 选项,查看-t选项对应表的规则,-L 选项的意思是,列出规则. ps : ...
洛谷P3119草鉴定
题目草鉴定,tarjan可以用来缩点,优化spfa的时间, 缩点之后就是一个\(DAG\)了,因此完全可以用来跑spfa上的最长路,然后枚举每条边,查看是否这条边的两个节点分别可以到达起点所在的强连 ...
微信H5的video标签解决方案
https://github.com/cczw2010/weixin-video 偶尔发现了可以h5化的一种更适合的方式,一个有趣的属性 h5-page 已经更新
SDN与IXP
IXP 互联网交换中心(IXP)在互联网生态系统中发挥着关键作用.在全球范围内,100多个国家/地区有超过400个IXP,其中最大的IXP具有接近10 Tbps的峰值数据速率并连接数百个网络.IXP提 ...
第二次作业社团UML图
第二次作业 UML图用例图: 时序图: 申请加入社团学生可以在页面投递社团加入申请,送交给社团管理员审批社团活动审批团委通过社团提交胡活动进行审批评价活动社团活动举行完,会有相应的团委和学 ...
ElasticSearch java客户端更新时出现的错误：NoNodeAvailableException[None of the configured nodes are available
下午尝试用ElasticSearch 的java客户端去做数据检索工作,测试了一下批量更新,代码如下: public static void bulkUpdateGoods(List<Goo ...
maven引入第三方jar包
maven有两种文件解析和分配策略,也就是我们常说的artifacts(依赖). 第一种是本地仓库,这是你缓存在本地的依赖.默认在${user.home}/.m2/repository目录下;当mav ...
meshing-八分之一圆球
原视频下载地址:https://yunpan.cn/cqwiFDCg6PbFj 访问密码 d1c8
Arts打卡第10周
Algorithm.主要是为了编程训练和学习. 每周至少做一个 leetcode 的算法题(先从Easy开始,然后再Medium,最后才Hard). 进行编程训练,如果不训练你看再多的算法书,你依然不 ...
Arts打卡第5周
Algorithm.主要是为了编程训练和学习. 每周至少做一个 leetcode 的算法题(先从Easy开始,然后再Medium,最后才Hard). 进行编程训练,如果不训练你看再多的算法书,你依然不 ...