《OD学spark》20161022

一、Spark Core

1. 什么是Spark Shuffle

Wide Dependencies

*ByKey： groupByKey,reduceByKey

关联操作：join，cogroup

窄依赖：

父RDD的每个分区的数据，仅仅只会给子RDD的一个分区。

Spark性能优化：

开发优化：

依据业务场景及数据，使用较好的RDD的方法

（1）能使用reduceByKey不要使用groupByKey

（2）适当的时候已经处理的数据RDD，进行重新分区

repartition

reduceByKey(func, numPartitions)

coalse

SCALA中的拉链编程

val rdd = sc.parallelize(List(1,2,3,4,5))

val rdd2 = sc.parallelize(List("aa", "bb", "cc", "dd", "ee"))

rdd.zip(rdd2)

rdd.zip(rdd2).collect

2. MapReduce Shuffle

Spark Stages

（1）ResultStage

Stage阶段运行Jobs输出结果

ResultTask

（2）ShuffleMapStage

Stage阶段的RDD会发生Shuffle过程，

ShuffleMapTask

每个Stage中的所有任务的逻辑处理相同(functions)

Spark Scheduler

RDD Objects -> DAGScheduler -> TaskScheduler -> Worker

二、Spark SQL

MapReduce -> Hive

SparkCore -> SparkSQL

1. SQL on Hadoop

（1）Hive

基础，数据仓库，Facebook开源，

（2）Presto

内存，Facebook，依赖于Hive MetaStore

国内：京东

（3）Impala

内存，Cloudera，依赖于Hive MetaStore

应用：电信、游戏

安装方式： RPM包，联网安装，包特别多；CM5.3.x安装CDH5.3.x，包含Impala，界面化安装

（4）Spark SQL

（5）Drill

1PB的数据进行分析查询-> 3s

（6）Kylin

麒麟框架，唯一一个由国人开源的大数据框架，提供中文文档，也是Apache顶级项目

大数据起源搜索引擎，发展于电商互联网，Google三大论文

大数据的前三驾马车： GFS、 MapReduce和BigTable

大数据的后三驾马车： Caffeine、Pregel(Pregel主要绘制大量网上信息之间关系的“图形数据库”)、Dremel

2. SparkSQL

DataFrame = RDD[Row]

封装所有数据，提供一系列方法进行操作。

SQLContext

spark-1.3.0 release

特性：外部数据源(接口) hive\parquet\orc\json\xml\jdbc\tsv\csv\......

SparkSQL读取文件数据的内容

文件数据格式默认的是parquet格式

Hive引擎：

SQL->Parse（语法解析）->Logical Plan(逻辑计划)->优化LP->Pyhsical Plan（物理计划）

MapReduce

SparkCore

SHark = Spark on Hive spark 1.0之前

Catalyst: Spark SQL引擎

1）替代Hive

shark

SparkSQL与Hive无缝对接继承

企业中开发经验

（1）Hive对要分析的数据进行ETL操作

数据仓库

（2）SparkSQL进行分析

HiveQL：

val df = sqlContext.sql("select * from emp")

DSL：

val df = sqlContext.table("emp").select("empno")

Spark与Hive继承

从某个角度来说，SparkSQL读取Hive表中的数据，就是Hive客户端

（1）hive-site.xml

metastore存储在哪里？MySQL中

（2）数据库驱动包

3. Catalyst

SQL Text

------Parsing ----->Unsolved Logic Plan

------Binding & Anlyzidng -------> Logical Plan

------Optimizing -----> Optimized Logical Plan

------QueryPlanning ----> Physical Plan

4. 如何将依赖包放入到应用CLASSPATH虾米那

（1）--jars

（2）万能

SPARK_CLASSPTH

《OD学spark》20161022的更多相关文章

《OD学spark》20160925 Spark Core
一.引言 Spark内存计算框架中国Spark技术峰会十二场演讲大数据改变世界,Spark改变大数据大数据: 以Hadoop 2.x为主的生态系统框架(MapReduce并行计算框架) 存储数 ...
《OD学spark》20160924scala基础
拓展: Hadoop 3.0 NameNode HA NameNode是Active NameNode是Standby可以有多个 HBase Cluster 单节点故障? HBaster -> ...
《OD学hive》第四周0717
一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spar ...
《OD学hadoop》20160903某旅游网项目实战
一.大数据的落地点 1.数据出售数据商城:以卖数据为公司的核心业务 2. 数据分析百度统计友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 ...
《OD学HBase》20160821
一.HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab. ...
《OD学Oozie》20160807Oozie
一.引入 MapReduce Job Hive 脚本任务同一个业务:先后.定时调度工作流: 定义工作流程 activity jbpm oozie: 大数据工作流定义与调度框架专门定义与调度Map ...
《OD学Flume》20160806Flume和Kafka
一.Flume http://flume.apache.org/FlumeUserGuide.html Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集.聚集.移动信 ...
《OD学hive》第六周20160731
一.hive的压缩 1. hadoop的压缩 1)为什么需要压缩 MapReduce的性能瓶颈:网络IO.磁盘IO 数据量:对于MapReduce的优化,最主要.根本就是要能够减少数据量 Combin ...
《OD学hadoop》第三周0709
一.MapReduce编程模型1. 中心思想: 分而治之2. map(映射)3. 分布式计算模型,处理海量数据4. 一个简单的MR程序需要制定map().reduce().input.output5. ...

随机推荐

如何让DIV可编辑、可拖动
1.可编辑: <div id="move" contentEditable="true">可编辑</div> 设置contentEdit ...
Leetcode 1002. Find Common Characters
python可重集合操作 class Solution(object): def commonChars(self, A): """ :type A: List[str] ...
Android的五大基本组件
Android的基本组件 1.Activity Activity 是最基本的模块,一般称之为“活动”,在应用程序中一般一个Activity就是一个单独的屏幕.每一个活动都被实现为一个独立的类,并且从活 ...
C语言访问MCU寄存器的两种方式
转自http://blog.csdn.net/liming0931/article/details/7752248 单片机的特殊功能寄存器SFR,是SRAM地址已经确定的SRAM单元,在C语言环境下对 ...
Oracle 12c 新特性之数据库内归档(In-Database Archiving)
Oracle Database 12c中引入了 In-Database Archiving的新特性, 该特性允许用户通过对表上的数据行标记为inactive不活跃的,以归档数据. 这些inactive ...
python中文件打开的各个标识含义
w代表清空后写入 r代表打开后追查 +代表可以写 b代表二进制写入
Azure自动化部署服务 (2)
上一篇文章介绍了如何通过添加用户名和密码的方式实现自动化部署服务中与Azure Subscription的连接. 本文将介绍如何使用证书的方式实现Azure Automation与Azure的Subs ...
Linux根据端口查看进程
若不知道具体目录,可以根据端口查找,查看端口22000的信息: sudo lsof -i:22000 RelaySvr 4322 root 13u IPv4 75680495 0t0 ...
HeartBleed bug
前两年的一个严重漏洞,影响很大.出现在openssl 1.0.1和1.0.2 beta(包含1.0.1f和1.0.2beta1).利用了TLS的heartbeat. 简单的说,该漏洞被归为缓冲过度读取 ...
JAVA基础知识（12）-----同步
好处:解决了线程安全问题.弊端:相对降低性能,因为判断锁需要消耗资源,产生了死锁.定义同步是有前提的:1,必须要有两个或者两个以上的线程,才需要同步.2,多个线程必须保证使用的是同一个锁. 同步的第二 ...

《OD学spark》20161022

《OD学spark》20161022的更多相关文章

随机推荐

热门专题