一、引言

Spark内存计算框架

中国Spark技术峰会

十二场演讲

大数据改变世界,Spark改变大数据

大数据:

以Hadoop 2.x为主的生态系统框架(MapReduce并行计算框架)

存储数据、处理数据

分布式

Spark:

类似于MapReduce的另外一种分布式计算框架

核心:

数据结构:RDD,集合List[T]

MapReduce

最大的痛点:

IO性能瓶颈,也是所有分布式计算框架的痛点

(1)磁盘IO,

input(disk) -> map -> DISK(local)->reduce->output(DISK)

(2)网络IO,

shuffle

2015年Spark Submit

阿里巴巴和databricks

全球,每天使用Spark处理数据最大的公司

数据量: 1PB = 1024TB

腾讯:集群规模 8000台

Spark:内存计算框架

为什么要将中间结果存储到磁盘中呢?要进行写呢?我放入内存不行吗?

input(disk) -> flatMap -> memory->map->memory->groupByKey->memory->map->output(DISK)

分析:

(1)将中间处理的数据,存储在内存中

(2)提供很多的Operation,上百种

list.map(_ * 2).filter(_ % 5 == 1).map(_ + 100)

对于迭代计算、机器学习

Scala->Java->JVM

作业:

假期期间,MapReduce Shuffle过程,好好再理解

Spark处理分析数据:

(1)读取输入数据

Core: Rdd

SQL: DataFrame

Streaming:DStream

(2)process data

Core: rdd#xxx

SQL: df#xxx

Streaming:dstream#xxx

里面的方法基本上95%以上都是高阶函数,依据你自己的需求,定义操作

(3)ouputdata

resultRdd.saveAsTextFile("")

resultDF.write.jdbc.(url, tableName, props)

resultDStream.foreach(Redis\HBase\RDBMS)

钨丝计划:三阶段

腾讯:技术发展路线

服务器,上百台,产生数据

运维人员

维护上百台集群的产生的日志文件

产品人员提供的需求,需要进行数据分析

(1)MySQL+Python

每台机器都有MySQL数据库

使用Python对数据进行清洗,加载到MySQL表中

各自统计分析->聚合->格子分析统计

(2)HADOOP+Hive

HDFS(分布式存储)

MapReduce

Hive

HiveQL

分区表/year/month/day/number

Hive + Python

如何集成?

(3)HADOOP+SPARK

二、Spark简介

设置Hive为本地模式,进行测试

HiveQL转换为MapReduce的本地模式

set hive.exec.mode.local.auto

set hive.exec.mode.local.auto  = true

select session_id, count(1)

from db_hive.page_views

group by session_id

limit 5

使用SparkCore

val rdd = sc.textFile("/path")

val sessionIdRdd = rdd.map(line => line.split("\t")).mpa(x => (x(2), 1)).reduceByKey(_ + _)

sessionIdRdd.take(5)

使用SparkSQL

val df = sqlContext.sql("

select session_id, count(1)

from db_hive.page_views

group by session_id

limit 5

");

sqlContext.cacheTable("db_hive.page_views")

df.show()

DSL语句

val df = sqlContext.sql("select * from db_hive.page_views")

df.groupBy("session_id")

Core/Spark SQL/Streaming/Graphx/MLlib/R/StructStreaming(2.0)

JAR

处理的数据

HDFS/Hive/HBase/ES/JSON/JDBC

Spark程序运行模式

本地模式,

集群模式:YARN、Mesos(分布式资源管理框架)、Standalone集群、EC2

七牛云存储技术总监陈超

Tachyon李浩源

三、Spark学习网站

(1)官方文档

http://spark.apache.org/docs/1.6.2/

(2)源码

https://github.com/apache/spark

导入IDEA

(3)官方博客

http://databricks.com/blog

英文

《OD学spark》20160925 Spark Core的更多相关文章

  1. 深入理解Spark 2.1 Core (十一):Shuffle Reduce 端的原理与源代码分析

    http://blog.csdn.net/u011239443/article/details/56843264 在<深入理解Spark 2.1 Core (九):迭代计算和Shuffle的原理 ...

  2. 大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池

    第0章 预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark ...

  3. 《OD学hive》第四周0717

    一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spar ...

  4. 【转】科普Spark,Spark是什么,如何使用Spark

    本博文是转自如下链接,为了方便自己查阅学习和他人交流.感谢原博主的提供! http://www.aboutyun.com/thread-6849-1-1.html http://www.aboutyu ...

  5. 大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序

    第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...

  6. Spark记录-Spark性能优化解决方案

    Spark性能优化的10大问题及其解决方案 问题1:reduce task数目不合适解决方式:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism.通常,r ...

  7. Spark 以及 spark streaming 核心原理及实践

    收录待用,修改转载已取得腾讯云授权 作者 | 蒋专 蒋专,现CDG事业群社交与效果广告部微信广告中心业务逻辑组员工,负责广告系统后台开发,2012年上海同济大学软件学院本科毕业,曾在百度凤巢工作三年, ...

  8. Spark之 spark简介、生态圈详解

    来源:http://www.cnblogs.com/shishanyuan/p/4700615.html 1.简介 1.1 Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithm ...

  9. Spark Streaming——Spark第一代实时计算引擎

    虽然SparkStreaming已经停止更新,Spark的重点也放到了 Structured Streaming ,但由于Spark版本过低或者其他技术选型问题,可能还是会选择SparkStreami ...

  10. 大数据体系概览Spark、Spark核心原理、架构原理、Spark特点

    大数据体系概览Spark.Spark核心原理.架构原理.Spark特点 大数据体系概览(Spark的地位) 什么是Spark? Spark整体架构 Spark的特点 Spark核心原理 Spark架构 ...

随机推荐

  1. 【python】关于函数递归使用 return 后,收到数据为 None。

    在写一个辗转相除求最小公因数的程序的时候,突然发现自己不管怎么写(除了两数恰巧可以整除),return 返回的值恒为 none. 代码为此: def gcd(a,b): if a%b==0: retu ...

  2. Idea_学习_06_IntelliJ IDEA 自动导入包 快捷方式 关闭重复代码提示

    二.参考资料 1.IntelliJ IDEA 自动导入包 快捷方式 关闭重复代码提示

  3. Windows常用的命令

    wmic msinfo32 regedit msconfig

  4. Java中CountDownLatch类的使用

    0.CountDownLatch作用 1) Java api中的解释:一个同步辅助类,在完成一组正在其他线程中执行的操作之前,它允许一个或多个线程一直等待. 2) CountDownLatch可以使J ...

  5. vc++ 访问php webService

    之前做了一个VC++访问c#制作的WebService,没有问题,接着我又做了一个VC++访问php制作的WebService ,结果老是出现Client错误.这个php WebService是用Ze ...

  6. 洛谷 1351 联合权值——树形dp

    题目:https://www.luogu.org/problemnew/show/P1351 对拍了一下,才发现自己漏掉了那种拐弯的情况. #include<iostream> #incl ...

  7. VijosP1274:神秘的咒语

    描述 身为拜月教的高级间谍,你的任务总是逼迫你出生入死.比如这一次,拜月教主就派你跟踪赵灵儿一行,潜入试炼窟底. 据说试炼窟底藏着五行法术的最高法术:风神,雷神,雪妖,火神,山神的咒语.为了习得这些法 ...

  8. Python脚本开头两行:#!/usr/bin/python和# -*- coding: utf-8 -*-的作用

    转于:https://www.crifan.com/python_head_meaning_for_usr_bin_python_coding_utf-8/ 出处:在路上 一.基本功能 1)#!/us ...

  9. JAVA 1.5 并发之 Executor框架 (二)execute VS submit

    http://www.cnblogs.com/rockman12352/p/3788688.html 上一篇对于整体框架讲了很多东西,但是具体在使用时有一些细节并没有说出来 首先是执行任务 execu ...

  10. js提交数据时需判断是点击事件还是回车键

    使用回车键实质还是点击事件==回车时将焦点聚居在某个标签上. Html代码: <div id="btlogin" class="btlogin">& ...