1.三大弹性数据集介绍 1)概念 2)优缺点对比 2.Spark RDD概述与创建方式 1)概述 在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(resilientdistributed dataset,RDD),它是逻辑集中的实体,在集群中的多台机器上进行了数据分区.RDD是Spark的核心数据结构,通过RDD的依赖关系形成Spark的调度顺序. 通过对RDD的操作形成整个Spark程序. 2)创建方式 a)创建方式一 val data = Array(1, 2, 3, 4,…
1.三大弹性数据集介绍 1)概念 2)优缺点对比 2.Spark RDD概述与创建方式 1)概述 在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(resilientdistributed dataset,RDD),它是逻辑集中的实体,在集群中的多台机器上进行了数据分区.RDD是Spark的核心数据结构,通过RDD的依赖关系形成Spark的调度顺序. 通过对RDD的操作形成整个Spark程序. 2)创建方式 a)创建方式一 val data = Array(1, 2, 3, 4,…
1.Spark概述 Spark 是一个用来实现快速而通用的集群计算的平台. 在速度方面, Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理. 在处理大规模数据集时,速度是非常重要的.速度快就意味着我们可以进行交互式的数据操作, 否则我们每次操作就需要等待数分钟甚至数小时. Spark 的一个主要特点就是能够在内存中进行计算, 因而更快.不过即使是必须在磁盘上进行的复杂计算, Spark 依然比 MapReduce 更加高效. 2.Sp…
跑一下这个结果 参考代码 package com.spark.test import org.apache.spark.sql.SparkSession import org.apache.spark.{SparkConf, SparkContext} object Test { def main(args: Array[String]): Unit = { val spark= SparkSession .builder .master("local[2]") .appName(&q…
1.几种运行模式介绍 Spark几种运行模式: 1)Local 2)Standalone 3)Yarn 4)Mesos 下载IDEA并安装,可以百度一下免费文档. 2.spark Standalone模式配置并测试 1)jdk1.8已经安装 2)scala2.11.8已经安装 3)Hadoop2.5.0已经安装 4)安装Spark Standalone a)配置slave vi slaves bigdata-pro01.kfk.com bigdata-pro02.kfk.com bigdata-…
(一)hadoop2.x版本下载及安装 Hadoop 版本选择目前主要基于三个厂商(国外)如下所示: 1.基于Apache厂商的最原始的hadoop版本, 所有发行版均基于这个版本进行改进. 2.基于HortonWorks厂商的开源免费的hdp版本. 3.基于Cloudera厂商的cdh版本,Cloudera有免费版和企业版, 企业版只有试用期.不过cdh大部分功能都是免费的. (二)hadoop2.x分布式集群配置 1.集群资源规划设计 2.hadoop2.x分布式集群配置 1)hadoop2…
Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理系统如Cloudera.Apache Storm.Spark都支持与Kafka集成. 1.下载Kafka并安装 1)下载Apache版本的Kafka. 2)下载Cloudera版本的Kafka. 3)这里选择下载Apache版本的kafka_2.11-0.8.2.1.tgz ,然后上传至bigdata-pro01.kfk.com节点/opt/softwa…
HBase是一个高可靠.高性能.面向列.可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建 大规模结构化存储集群. HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, HBase 利用Hadoop HDFS 作为其文件存储系统:Google 运行MapReduce 来处理Bigtable中的海量数据, HBase 同样利用Hadoop MapReduce来处理HBase中的海量数据:Google…
1.Windows开发环境配置与安装 下载IDEA并安装,可以百度一下免费文档. 2.IDEA Maven工程创建与配置 1)配置maven 2)新建Project项目 3)选择maven骨架 4)创建项目名称 5)选择maven地址 6)生成maven项目 7)选择scala版本 8)新建Java 和 scala目录 9)编辑pom.xml文件 a)地址一 b)地址二 3.开发Spark Application程序并进行本地测试 1)idea编写WordCount程序 package com.…
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力. 1.flume节点服务设计 2.下载Flume并安装 1)下载Apache版本的Flume. 2)下载Cloudera版本的Flume. 3)这里选择下载Apache版本的apache-flume-1.7.0-bin.tar.gz ,然后上传至bigdata-p…