Spark学习之基础相关组件（1）

1. Spark是一个用来实现快速而通用的集群计算的平台。

2. Spark的一个主要特点是能够在内存中进行计算，因而更快。

3. RDD（resilient distributed dataset弹性分布式数据集）表示分布在多个计算节点上可以并行操作的元素的集合，是Spark的主要编程抽象。

4. Spark是一个大一统的软件栈：

4.1 Spark core实现了Spark的基本功能，包括任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集的API定义。

4.2 Spark Streaming是Spark提供的对实时数据进行流式计算的组件。

4.3 Mlib机器学习（ML），提供了很多的机器学习算法，包括分类、回归、聚类、协同过滤等，还包括模型评估、数据导入等额外支持功能。

4.4 Graph是用来操作图的程序库，可以进行并行的图计算。

4.5 集群管理器（cluster manager），包括自带的独立调度器，还有支持Hadoop YARN、Apache Mesos。

5. Spark的存储层，包括HDFS(分布式文件系统)、本地文件、亚马逊S3、Cassandra、Hive、Hbase等。

6. spark是用Scala写的，运行在Java虚拟机）（JVM）上。

7. 独立应用，在独立应用程序中使用Spark需要自行初始化SparkContext。

7.1. 初始化SparkContext：

    完成与Spark的连接后，接下来需要导入Spark包并且创建SparkContext。可以通过先创建一个SparkConf对象来配置应用，然后基于这个SparkConf创建一个SparkContext对象。

    在Python中初始化Spark

        from pyspark import SparkConf,SparkContext

        conf = SparkConf().setMaster("local").setAppname("My App")

        sc = SparkContext(conf = conf)

7.2 使用方法（如使用文本文件）来创建RDD并操控它们。

7.3 最后关闭Spark调用SparkContext的stop()方法，或者直接退出应用（System.exit(0)或者sys.exit())。

8. 构建独立应用：1）java、Scala、Python创建应用2）stb、maven打包3)stb、maven运行

Spark学习之基础相关组件（1）的更多相关文章

数论算法剩余系相关学习笔记 (基础回顾,(ex)CRT,(ex)lucas,(ex)BSGS,原根与指标入门,高次剩余,Miller_Rabin+Pollard_Rho)
注:转载本文须标明出处. 原文链接https://www.cnblogs.com/zhouzhendong/p/Number-theory.html 数论算法剩余系相关学习笔记 (基础回顾,(ex ...
【Flutter学习】页面布局之基础布局组件
一,概述 Flutter中拥有30多种预定义的布局widget,常用的有Container.Padding.Center.Flex.Row.Colum.ListView.GridView.按照< ...
hadoop以及相关组件介绍以及个人理解
前言本人是由java后端转型大数据方向,目前也有近一年半时间了,不过我平时的开发平台是阿里云的Maxcompute,通过这么长时间的开发,对数据仓库也有了一定的理解,ETL这些经验还算比较丰富.但是 ...
【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之RAC 工作原理和相关组件（三）
RAC 工作原理和相关组件(三) 概述:写下本文档的初衷和动力,来源于上篇的<oracle基本操作手册>.oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总.然后形成体 ...
spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
Spark学习之路（八）SparkCore的调优之开发调优
摘抄自:https://tech.meituan.com/spark-tuning-basic.html 前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一.Spark ...
Linux学习-计算机基础
Linux 学习-计算机基础一.描述计算机的组成及其功能. 计算机系统是由硬件(Hardware)和软件(Software )两部分组成. 硬件: 从硬件基本结构上来讲,计算机是由运算器.控制器.存 ...
[转] Spark快速入门指南 – Spark安装与基础使用
[From] https://blog.csdn.net/w405722907/article/details/77943331 Spark快速入门指南 – Spark安装与基础使用 2017年09月 ...
【转】【Oracle 集群】ORACLE DATABASE 11G RAC 知识图文详细教程之RAC 工作原理和相关组件（三）
原文地址:http://www.cnblogs.com/baiboy/p/orc3.html 阅读目录目录 RAC 工作原理和相关组件 ClusterWare 架构 RAC 软件结构集群注册(OC ...

随机推荐

使用11g DNFS建立基于DNFS的tablespace
使用11g DNFS建立基于DNFS的tablespace 參考自: Step by Step - Configure Direct NFS Client (DNFS) on Linux (11g) ...
AutoCAD如何设置线宽
一般要求粗实线粗实线0.4,细实线0.2mm. 1 先打开图层特性管理器,新建一个图层,专门放粗实线(我起名叫"我的粗实线",颜色设置为紫色,线宽为0.4mm),此前的乱七八糟的图 ...
工作总结 js for 循环遍历 json 数据
[{"Branch":"Bangkok","2017-01|Replenishment":"0","2017- ...
读书笔记：Information Architecture for the World Wide Web, 3rd Edition 北极熊简介
书籍介绍 Information Architecture for the World Wide Web, 3rd Edition<web信息架构:设计大型网站(第三版)> Designi ...
IIS6下PHP配置(转载)
Windows 2003+IIS6+PHP5.4.10配置PHP支持空间的方法 (2013-01-10 16:48:56)标签: php it php环境 php配置分类: PHP环境配置简介:一般 ...
【OI】指针线段树&指针
对于线段树,我们一般需要n*4的空间去存储线段树,然后有一种玄学操作是用指针来实现线段树. #include <inttypes.h> #include <algorithm> ...
蓝桥 ADV-232 算法提高矩阵乘法【区间DP】
算法提高矩阵乘法时间限制:3.0s 内存限制:256.0MB 问题描述有n个矩阵,大小分别为a0*a1, a1*a2, a2*a3, ..., a[n-1]*a[n],现要 ...
iOS 证书详解
引言关于开发证书配置(Certificates & Identifiers & Provisioning Profiles),相信做iOS开发的同学没少被折腾.对于一个iOS开发小白 ...
linux 基础 —— 网络管理
Linux 最强大的功能是什么?网络功能. 修改 dns 服务器(解析域名到 ip 地址): $ sudo vim /etc/resolvconf/resolv.conf.d/base # 添加如下内 ...
ELK Stack总结
目录 ELK Stack 介绍 Elasticsearch 概念1(基础) CRUD基本用法概念2(文本解析器) 查询分析/聚合概念3(架构原理的补充) Logstash基础 Kibana的数据 ...

Spark学习之基础相关组件（1）

Spark学习之基础相关组件（1）

1. Spark是一个用来实现快速而通用的集群计算的平台。

2. Spark的一个主要特点是能够在内存中进行计算，因而更快。

3. RDD（resilient distributed dataset弹性分布式数据集）表示分布在多个计算节点上可以并行操作的元素的集合，是Spark的主要编程抽象。

4. Spark是一个大一统的软件栈：

5. Spark的存储层，包括HDFS(分布式文件系统)、本地文件、亚马逊S3、Cassandra、Hive、Hbase等。

6. spark是用Scala写的，运行在Java虚拟机）（JVM）上。

7. 独立应用，在独立应用程序中使用Spark需要自行初始化SparkContext。

8. 构建独立应用：1）java、Scala、Python创建应用2）stb、maven打包3)stb、maven运行

Spark学习之基础相关组件（1）的更多相关文章

随机推荐

热门专题