前期博客 Spark standalone模式的安装(spark-1.6.1-bin-hadoop2.6.tgz)(master.slave1和slave2)  Spark运行模式概述 1. Standalone模式     即独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统.从一定程度上说,该模式是其他两种的基础.借鉴Spark开发模式,我们可以得到一种开发新型计算框架的一般思路:先设计出它的standalone模式,为了快速开发,起初不需要考虑服务(比如mast…
前期博客 Spark on YARN模式的安装(spark-1.6.1-bin-hadoop2.6.tgz +hadoop-2.6.0.tar.gz)(master.slave1和slave2)(博主推荐)  Spark运行模式概述 Spark On YARN模式 这是一种很有前景的部署模式.但限于YARN自身的发展,目前仅支持粗粒度模式(Coarse-grained Mode).这是由于YARN上的Container资源是不可以动态伸缩的,一旦Container启动之后,可使用的资源不能再发生…
之前在 大话Spark(2)里讲过Spark Yarn-Client的运行模式,有同学反馈与Cluster模式没有对比, 这里我重新整理了三张图分别看下Standalone,Yarn-Client 和 Yarn-Cluster的运行流程. 1.独立(Standalone)运行模式  独立运行模式是Spark自身实现的资源调度框架,由客户端.Master节点和多个Worker节点组成.其中SparkContext既可以运行在Master节点上,也可以运行在客户端. Worker节点可以通过Exe…
IDE:eclipse Spark:spark-1.1.0-bin-hadoop2.4 scala:2.10.4 创建scala工程,编写wordcount程序如下 package com.luogankun.spark.base import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ /** * 统计字符出现次数 */ object…
前提条件 1.CDH安装spark服务 2.下载IntelliJ IDEA编写WorkCount程序 3.上传到spark集群执行 一.下载IntellJ IDEA编写Java程序 1.下载IDEA 官网地址:http://www.jetbrains.com/idea/  下载IntlliJ IDEA后,进行安装. 2.新建Java项目 1.点击File 2.点击New Project 3.点击Java 注意:Project SDK要选择本机安装的JDK的位置,由于我的JDK是1.7,所以下面的…
RDD工作原理: 主要分为三部分:创建RDD对象,DAG调度器创建执行计划,Task调度器分配任务并调度Worker开始运行. SparkContext(RDD相关操作)→通过(提交作业)→(遍历RDD拆分stage→生成作业)DAGScheduler→通过(提交任务集)→任务调度管理(TaskScheduler)→通过(按照资源获取任务)→任务调度管理(TaskSetManager) 举例:以下面一个按 A-Z 首字母分类,查找相同首字母下不同姓名总个数的例子来看一下 RDD 是如何运行起来的…
 前期博客  Spark运行模式概述 Spark standalone简介与运行wordcount(master.slave1和slave2) 开篇要明白 (1)spark-env.sh 是环境变量配置文件 (2)spark-defaults.conf (3)slaves 是从节点机器配置文件 (4)metrics.properties 是 监控 (5)log4j.properties 是配置日志 (5)fairscheduler.xml是公平调度 (6)docker.properties 是…
不多说,直接上干货! 请移步 Spark standalone简介与运行wordcount(master.slave1和slave2) Spark standalone模式的安装(spark-1.6.1-bin-hadoop2.6.tgz)(master.slave1和slave2)…
Spark Standalone 部署配置 Standalone架构 手工启动一个Spark集群 https://spark.apache.org/docs/latest/spark-standalone.html 通过脚本启动集群 编辑slaves,其实把worker所在节点添加进去 配置spark-defaults.conf 启动集群(我这里是三节点集群) 在浏览器打开页面 修改 spark-env.sh 文件 先停止 在重新启动一下 再次访问网页 下面跑一个Job实例 ./spark-su…
说白了 Spark on YARN模式的安装,它是非常的简单,只需要下载编译好Spark安装包,在一台带有Hadoop YARN客户端的的机器上运行即可.  Spark on YARN简介与运行wordcount(master.slave1和slave2)(博主推荐) Spark on YARN分为两种: YARN cluster(YARN standalone,0.9版本以前)和 YARN client.    如果需要返回数据到client就用YARN client模式. 如果数据存储到hd…