二十三、Hadoop学记笔记————Spark简介与计算模型

spark优势在于基于内存计算，速度很快，计算的中间结果也缓存在内存，同时spark也支持streaming流运算和sql运算

Mesos是资源管理框架，作为资源管理和任务调度，类似Hadoop中的Yran

Tachyon是分布式内存文件系统

Spark是核心计算引擎，能够将数据并行大规模计算

Spark Streaming是流式计算引擎，将每个数据切分成小块采用spark运算范式进行运算

Spark SQL是Spark的SQL ON Hadoop，能够用sql来对数据进行查询等功能

GraphX是图计算引擎

MLlib是机器学习库，提供聚类，分类以及推荐等基本的机器学习算法，并且社区中不断开发新的算法

Spark解决了哪些之前专有系统的局限性

重复开发，可能用使用storm来进行流式计算，有用别的框架进行机器学习

系统组合，不同系统之间数据需要约定格式

专有系统适用范围局限，storm适用于流计算，graphX适用于图计算

资源分配与管理，每个系统都有各自的资源管理，不方便协调

弹性分布式数据集RDD：分布式数组，将整个数据切分成不同的块，然后存到不同的节点通过一个统一的元数据RDD进行管理

partition，存储所有数据块的列表

compute函数，支持不同的RDD完成不同的运算（在不同节点上对这些数据块进行不同的运算）

dependencies维持每次RDD的顺序，比如一部分数据首先要进行去重，然后排序，分组，每次一运算数据都要用到上一次RDD的结果，这就需要dependencies来进行管理

partitioner，重新分区，

preferredLocations，优先读取本地数据

transformations，转换数据

编写程序实例：

进入spark官网，下载并解压spark程序包，此处用最新的：

解压之后在IDE中新建Scala项目，此处使用IntelliJ作为IDE：

new一个project并选择Scala，然后选择object：

讲Spark中jar文件下的jar包全部导入project：

编写如上代码运行，先建立连接spark实例，然后命名，之后选择地址，目前用本地环境

之后编写数据，用parallelize将数据写入RDD，然后可以开始统计count，或者take数据等操作

还可以在服务器上用spark-shell执行代码，还是先解压下载好的scala包，然后进入bin目录，执行./spark-shell，由于是内环境操作，不需要实例化链接，然后与上述操作一样：

二十三、Hadoop学记笔记————Spark简介与计算模型的更多相关文章

二十四、Hadoop学记笔记————Spark的架构
master为主节点一个集群中可能运行多个application,因此也可能会有多个driver DAG Scheduler就是讲RDD Graph拆分成一个个stage 一个Task对应一个Spa ...
二十二、Hadoop学记笔记————Kafka 基础实战：消费者和生产者实例
kafka的客户端也支持其他语言,这里主要介绍python和java的实现,这两门语言比较主流和热门图中有四个分区,每个图形对应一个consumer,任意一对一即可获取topic的分区数,每个分区 ...
二十一、Hadoop学记笔记————kafka的初识
这些场景的共同点就是数据由上层框架产生,需要由下层框架计算,其中间层就需要有一个消息队列传输系统 Apache flume系统,用于日志收集 Apache storm系统,用于实时数据处理 Spark ...
二十、Hadoop学记笔记————Hive On Hbase
Hive架构图: 一般用户接口采用命令行操作, hive与hbase整合之后架构图: 使用场景场景一:通过insert语句,将文件或者table中的内容加入到hive中,由于hive和hbase已经 ...
二十五、Hadoop学记笔记————Hive复习与深入
Hive主要为了简化MapReduce流程,使非编程人员也能进行数据的梳理,即直接使用sql语句代替MapReduce程序 Hive建表的时候元数据(表明,字段信息等)存于关系型数据库中,数据存于HD ...
十九、Hadoop学记笔记————Hbase和MapReduce
概要: hadoop和hbase导入环境变量: 要运行Hbase中自带的MapReduce程序,需要运行如下指令,可在官网中找到: 如果遇到如下问题,则说明Hadoop的MapReduce没有权限访问 ...
十七、Hadoop学记笔记————Hbase入门
简而言之,Hbase就是一个建立在Hdfs文件系统上的数据库(mysql,orecle等),不同的是Hbase是针对列的数据库 Hbase和普通的关系型数据库区别如下: Hbase有一些基本的术语,主 ...
十八、Hadoop学记笔记————Hbase架构
Hbase结构图: Client,Zookeeper,Hmaster和HRegionServer相互交互协调,各个组件作用如下: 这几个组件在实际使用过程中操作如下所示: Region定位,先读取zo ...
笔记:Spark简介
Spark简介 [TOC] Spark是什么 Spark是基于内存计算的大数据并行计算框架 Spark是MapReduce的替代方案 Spark与Hadoop Spark是一个计算框架,而Hadoop ...

随机推荐

OS X升级到10.11后Xcode6.4界面无iOS device选择栏的解决办法
原来在Xcode6.4项目运行按钮右侧会有一个可以选择设备或模拟器的选择栏,但是升级后没有了.但是Xcode7.0.1打开同样的项目会有显示. 简单找了一下无果后,发现咋Xcode顶部菜单里可以找到切 ...
cocos2d-x 游戏开发之有限状态机(FSM) (一)
cocos2d-x 游戏开发之有限状态机(FSM) (一) 参考:http://blog.csdn.net/mgphuang/article/details/5845252<Cocos2d-x游 ...
cdh5 hadoop redhat 本地仓库配置
cdh5 hadoop redhat 本地仓库配置 cdh5 在网站上的站点位置: http://archive-primary.cloudera.com/cdh5/redhat/6/x86_64/c ...
linux 网络不通问题排查
基本的排错步骤(从上往下)ping 127.0.0.1ping的通说明tcp协议栈没有问题ping 主机地址 ping的通说明网卡没有问题ping 路由器默认网关 ping的通说明包可以到达路由器最后 ...
c/c++ 表达式求值
表达式求值 [问题描述] 一个算术表达式是由操作数(operand).运算符(operator)和界限符(delimiter)组成的.假设操作数是正整数,运算符只含加减乘除等四种运算符,界限符有左右括 ...
rails应用ajax之一：使用纯js方法
考虑如下需求: 1. 用户输入一个用户名,当焦点跳出文本框时,检查该用户名是否有效 2. 动态更新检查的结果我们使用ajax的方式来实现这个简单的功能,首先建立view:check.html.erb ...
分享一个国内首个企业级开源的GO语言网关--GoKu API Gateway
一. 简介 GoKu API Gateway,中文名:悟空API网关,是国内首个开源go语言API网关,帮助企业进行API服务治理与API性能安全维护,为企业数字化赋能. GoKu API Gatew ...
万水千山ABP - 弹出对话框禁用回车
模态对话框中禁用回车 ABP Zero 中,使用弹出对话框进行实体编辑,回车时会自动保存并关闭对话框.那么如何禁用这个回车功能 ? 查看实体列表视图 index.cshtml 所对应加载的脚本文件 i ...
WebService技术简介
今天继续阅读<.Net 大局观>时看到一段关于WebService支持技术的论述,真是简明扼要: Web services的另一个重要应用是B2B整合,一般来说它也依赖Internet,将 ...
Spring Aop 梳理
Aspect Oriented Programming 面向切面编程.解耦是程序员编码开发过程中一直追求的.AOP也是为了解耦所诞生. 具体思想是:定义一个切面,在切面的纵向定义处理方法,处理完成之 ...

二十三、Hadoop学记笔记————Spark简介与计算模型

二十三、Hadoop学记笔记————Spark简介与计算模型的更多相关文章

随机推荐

热门专题