Spark 学习笔记之 Standalone与Yarn启动和运行时间测试

Standalone与Yarn启动和运行时间测试: 写一个简单的wordcount: 打包上传运行: Standalone启动: 运行时间: Yarn启动: 运行时间: 测试结果: Standalone要比Yarn启动快10-15s…

Spark学习笔记（四）—— Yarn模式

1.Yarn运行模式介绍 Yarn运行模式就是说Spark客户端直接连接Yarn,不需要额外构建Spark集群.如果Yarn是分布式部署的,那么Spark就跟随它形成了分布式部署的效果.有yarn-client和yarn-cluster两种模式,主要区别在于:Driver程序的运行节点. yarn-client:Driver程序运行在客户端,适用于交互.调试,希望立即看到app的输出 yarn-cluster:Driver程序运行在由RM(ResourceManager)启动的AP(APPMas…

spark学习笔记总结-spark入门资料精化

Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用.减少了延时处理,提高性能效率实用灵活性.也可以与hadoop切实相互结合. spark核心部分分为RDD.Spark SQL.Spark Streaming.MLlib.GraphX.Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎.其相应的生态环境包括zepplin等可视化方面…

Spark学习笔记0——简单了解和技术架构

目录 Spark学习笔记0--简单了解和技术架构什么是Spark 技术架构和软件栈 Spark Core Spark SQL Spark Streaming MLlib GraphX 集群管理器受众起源和发展 Spark学习笔记0--简单了解和技术架构笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 什么是Spark Spark 是一个用来实现快速而通用的集群计算的平台. 扩展了广泛使用的MapReduce 计算模型能够在内存中进行计算一个统一的框架…

Spark学习笔记之SparkRDD

Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② 通过转换来自于其他RDD,如map,filter等 2.创建操作(creation operation):RDD的创建由SparkContext来负责. 3.转换操作(transformation operation):将一个RDD通过一定操作转换为另一个RDD. 4.控制操作(control o…

Spark学习笔记2（spark所需环境配置

Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求不需要最新版的maven客户端. 解压完成之后在解压好的maven客户端的文件夹内打开conf文件夹,修改里面的settings.xml文件然后只需要修改这一行就可以了 ,把这一行替换成你自己本地的maven仓库的路径最好是自己有一个完整点的maven仓库,然后把这个修改过的xml文件放到maven仓库下到这里,你本地的maven客户端环…

Spark学习笔记3（IDEA编写scala代码并打包上传集群运行）

Spark学习笔记3 IDEA编写scala代码并打包上传集群运行我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包上传至集群,来检验一下我们的spark搭建后是否真正可以使用了 1.今天就和大家写一个计算π的spark代码下面我把已经写好了的代码放在下面,大家可以借以参考一下 package day02 import org.apache.spark.{SparkConf, SparkContext} import scala.math.r…

Spark学习笔记-GraphX-1

Spark学习笔记-GraphX-1 标签: SparkGraphGraphX图计算 2014-09-29 13:04 2339人阅读评论(0) 收藏举报分类: Spark(8) 版权声明:本文为博主原创文章,未经博主允许不得转载. Spark GraphX是一个分布式图处理框架,Spark GraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了大家对分布式图处理的需求.Spark GraphX由于底层是基于Spark来处理的,所以天然就是一个分布式…

Spark学习笔记3——RDD（下）

目录 Spark学习笔记3--RDD(下) 向Spark传递函数通过匿名内部类通过具名类传递通过带参数的 Java 函数类传递通过 lambda 表达式传递(仅限于 Java 8 及以上) 常见的转化操作和行动操作基本RDD 行动操作不同 RDD 的类型转换持久化 Spark学习笔记3--RDD(下) 笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 向Spark传递函数大部分 Spark 的转化操作和一部分行动操作,都需要传递函数后进行计算.如…

Spark学习笔记2——RDD（上）

目录 Spark学习笔记2--RDD(上) RDD是什么? 例子创建 RDD 并行化方式读取外部数据集方式 RDD 操作转化操作行动操作惰性求值 Spark学习笔记2--RDD(上) 笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> RDD是什么? 弹性分布式数据集(Resilient Distributed Dataset,简称 RDD) Spark 的核心概念一个不可变的分布式对象集合每个 RDD 都被分为多个分区运行在集群的不同节点上 RDD…

Spark学习笔记1——第一个Spark程序：单词数统计

Spark学习笔记1--第一个Spark程序:单词数统计笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖通过 Maven 添加 Spark-core_2.10 的依赖程序找了一篇注释比较清楚的博客代码1,一次运行通过 import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.ap…

IIC驱动学习笔记,简单的TSC2007的IIC驱动编写,测试

IIC驱动学习笔记,简单的TSC2007的IIC驱动编写,测试目的不是为了编写TSC2007驱动,是为了学习IIC驱动的编写,读一下TSC2007的ADC数据进行练习,, Linux主机驱动和外设驱动分离思想外设驱动→API→主机驱动→板级逻辑--具体的i2c设备(camera,ts,eeprom等等) 主机驱动:根据控制器硬件手册,配置SOC的I2C寄存器产生波形,这个不在我的研究范围之内 linux应用工程师不需要驱动和硬件的细节. linux驱动工程师:不需要考虑硬件!由BSP工程师提…

spark学习笔记_1

简单的讲,Apache Spark是一个快速且通用的集群计算系统. Apache Spark 历史: 2009年由加州伯克利大学的AMP实验室开发,并在2010年开源,13年时成长为Apache旗下大数据领域最活跃的开源项目之一.2014年5月底spark1.0.0发布,2016年6月spark2.0发布,至今最近的版本是xxx(看官网). Spark的使用场景: 实时查看浏览统计信息,流式计算,SQL查询,图计算,机器学习. Spark特点: 快速的处理能力.由于spark可以将中间输出和最后…

Spark学习笔记——读写Hbase

1.首先在Hbase中建立一张表,名字为student 参考 Hbase学习笔记——基本CRUD操作一个cell的值,取决于Row,Column family,Column Qualifier和Timestamp Hbase表结构 2.往Hbase中写入数据,写入的时候,需要写family和column build.sbt libraryDependencies ++= Seq( "org.apache.spark" %% "spark-core" % "…

Spark学习笔记5：Spark集群架构

Spark的一大好处就是可以通过增加机器数量并使用集群模式运行,来扩展计算能力.Spark可以在各种各样的集群管理器(Hadoop YARN , Apache Mesos , 还有Spark自带的独立集群管理器)上运行,所以Spark应用既能够适应专用集群,又能用于共享的云计算环境. Spark运行时架构 Spark在分布式环境中的架构如下图: 在分布式环境下,Spark集群采用的是主/从结构.在Spark集群,驱动器节点负责中央协调,调度各个分布式工作节点.执行器节点是工作节点,作为独立的Ja…

Spark学习笔记(一)

概念: Spark是加州大学伯克利分校AMP实验室,开发的通用内存并行计算框架. 支持用scala.java和Python等语言编写应用程序.相较于Hdoop,往往有更好的运行效率. Spark包括了Spark Core, Spark SQL, SparkStreaming,MLlib和Graphx等组件. Spark Core:内存计算框架 Spark SQL:及时查询 SparkStreaming:实时应用的处理 MLlib:机器学习 Graphx:图形处理 Spark运行模式: Local…

Redis深入学习笔记（一）Redis启动数据加载流程

这两年使用Redis从单节点到主备,从主备到一主多从,再到现在使用集群,碰到很多坑,所以决定深入学习下Redis工作原理并予以记录. 本系列主要记录了Redis工作原理的一些要点,当然配置搭建和使用这类就不说了,这个系列主要侧重Redis工作流程和管理,分享出来希望可以帮助到正在学习的童鞋们. Redis启动数据加载流程: 1)AOF持久化开启且存在AOF文件时,优先加载AOF文件. 2)AOF关闭或者AOF文件不存在时,加载RDB文件. 3)加载AOF/RDB文件成功后,Redis启动成功.…

Spark学习笔记--Linux安装Spark集群详解

本文主要讲解如何在Linux环境下安装Spark集群,安装之前我们需要Linux已经安装了JDK和Scala,因为Spark集群依赖这些.下面就如何安装Spark进行讲解说明. 一.安装环境操作系统:Red Hat Enterprise Linux 6 64 位(版本号6.6) JDK版本:1.8 Scala版本:2.12.2 Spark版本:2.2.0 172.18.3.135 主节点 172.18.3.136 从节点 172.18.3.137 从节点之后的操作如果是用普通用户操作的话也必…

Spark环境搭建（三）-----------yarn环境搭建及测试作业提交

配置好HDFS之后,接下来配置单节点的yarn环境 1,修改配置文件文件 : /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop/yarn-site-xml 插入 <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property>…

Spark学习笔记（三）—— Standalone模式

上篇笔记记录了Local模式的一些内容,但是实际的应用中很少有使用Local模式的,只是为了我们方便学习和测试.真实的生产环境中,Standalone模式更加合适一点. 1.基础概述 Standalone不是单机模式,它是集群,但是是基于Spark独立调度器的集群,也就是说它是Spark特有的运行模式.有Client和Cluster两种模式,主要区别在于:Driver程序的运行节点.怎么理解呢?哪里提交任务哪里启动Driver,这个叫做Client模式:随便找台机器启动Driver,这个叫做Cl…

hadoop学习笔记贰 --HDFS及YARN的启动

1.初始化HDFS :hadoop namenode -format 看到如下字样,说明初始化成功. 启动HDFS,start-dfs.sh 终于启动成功了,原来是core-site.xml 中配置fs.defaultFS值中所设置的hosts映射与IP对应不上,造成端口拒绝连接启动namenode :指的是core-site.xml配置的fs.defaultFS值启动datanode :指的是/home/hadoop/Downloads/hadoop-2.4.1/etc/hadoop/s…

Spark学习笔记（一）

1.调度分为FIFO和FAIR两种模式创建调度池:sc.setLocalProperty("spark.scheduler.pool", "pool6") 终止调度池:sc.setLocalProperty("spark.scheduler.pool6", null) 配置调度池: 通过conf/fairscheduler.xml sparkConf.set("spark.scheduler.allocation.file"…

Spark学习笔记（一）——基础概述

本篇笔记主要说一下Spark到底是个什么东西,了解一下它的基本组成部分,了解一下基本的概念,为之后的学习做铺垫.过于细节的东西并不深究.在实际的操作过程中,才能够更加深刻的理解其内涵. 1.什么是Spark? Spark是由美国加州伯克利大学的AMP实验室开发的,一款基于内存计算的大数据并行计算框架,可用于构建大型的.低延迟的数据分析应用程序. 说白了就是搞数据计算分析的框架,过于细节的东西在学习过程中再去体会,一口吃不成胖子,反而会噎死人. 2.Spark的内置模块来看一下Spark内置哪些…

Spark学习笔记（二）—— Local模式

Spark 的运行模式有 Local(也称单节点模式),Standalone(集群模式),Spark on Yarn(运行在Yarn上),Mesos以及K8s等常用模式,本文介绍第一种模式. 1.Local模式 Local模式就是运行在一台计算机上的模式, 也称单节点模式 .Local 模式是最简单的一种Spark运行方式,它采用单节点多线程(CPU)方式运行, 通常就是用于在本机学习或者测试使用的,对新手比较友好.它可以通过以下的方式设置Master: local:所有的计算都运行在一个线程中…

Spark 学习笔记1 (常见术语 )

本来没打算学Spark 的,不过时机很逗. 最膜拜的大神做spark分享,还是其中最好玩的notebook.这不就是另外一个 HUE吗,但感觉更好玩. 刚好新的Spark 2.x 要问世了,大神在组织战队一起迭代.就此开始跟着大神脚后跟一点点的了解,学习争取入门吧. https://github.com/endymecy/spark-programming-guide-zh-cn (官方文档) https://www.gitbook.com/book/endymecy/spark-config…

spark学习笔记01

spark学习笔记01 1.课程目标 1.熟悉spark相关概念 2.搭建一个spark集群 3.编写简单spark应用程序 2.spark概述 spark是什么是基于内存的分布式计算引擎,计算速度非常快,仅仅只是涉及到数据的计算,没有涉及到数据存储.可以对接外部的数据源(比如hdfs,这个时候就需要搭建一个hadoop集群) 为什么要学习spark spark运行速度快,由于中间数据结果可以不落地,直接保存在内存中,速度比mapreduce快很多 3.spark特性速度快 spark比ma…

Spark学习笔记（详细）

Spark Core 第1章 Spark 概述 Spark是一种基于内存的快速.通用.可扩展的大数据分析计算引擎 Spark和Hadoop 的根本差异是多个作业之间的数据通信问题: Spark多个作业之间数据通信基于内存,而Hadoop基于磁盘 Spark是基于内存的,所以在实际的生产环境中,由于内存的限制,可能会由于内存资源不够导致Job 执行失败,此时MapReduce其实是一个更好的选择,所以Spark并不能完全替代MR Spark核心模块 Spark Core:提供Spark最基础与最核…

Spark学习笔记-使用Spark History Server

在运行Spark应用程序的时候,driver会提供一个webUI给出应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口,也就是说,Spark应用程序运行完后,将无法查看应用程序的历史记录.Spark history server就是为了应对这种情况而产生的,通过配置,Spark应用程序在运行完应用程序之后,将应用程序的运行信息写入指定目录,而Spark history server可以将这些运行信息装载并以web的方式供用户浏览. 要使用history server,对于提交应用…

YARN学习笔记（一）——YARN的简介

YARN的简介什么是YARN MRv1的架构和缺陷经典MapReduce的局限性解决可伸缩性问题 YARN的架构一个可运行任何分布式应用程序的集群 YARN中的应用程序提交 YARN的其他特性总结 YARN的简介什么是YARN Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度.它将资源管理和处理组件分开,它的引入…

Spark学习笔记之RDD中的Transformation和Action函数

总算可以开始写第一篇技术博客了,就从学习Spark开始吧.之前阅读了很多关于Spark的文章,对Spark的工作机制及编程模型有了一定了解,下面把Spark中对RDD的常用操作函数做一下总结,以pyspark库为例. RDD 的操作函数(operation)主要分为2种类型 Transformation 和 Action,如下图: Transformation 操作不是马上提交 Spark 集群执行的,Spark 在遇到 Transformation 操作时只会记录需要这样的操作,并不会去执行,…

【Spark 学习笔记之 Standalone与Yarn启动和运行时间测试】的更多相关文章