《OD学spark》20160924scala基础
拓展:
Hadoop 3.0
NameNode HA
NameNode是Active
NameNode是Standby可以有多个
HBase
Cluster
单节点故障?
HBaster -> BackMaster
HRegionServer
WEBUI 60010
Spark 课程安排
分为两个部分:
第一部分:基础篇
SCALA:1天
SparkCore:2天 - MapReduce
SparkSQL:1天 - Hive Shark = Hive on Spark
关键,企业中必用的,必须掌握
SparkStreaming:1天 - Storm
DStream
企业实时数据统计分析
Spark 2.0
StructureStreaming
第二部分:项目篇
基于Spark交互式用户行为分析系统
三天
额外扩展:
Spark MLlib学习 1天
Spark:
加州大学伯克利分校AMPLab
AMP
A:算法
M:机器
P:人类
=============================================================
1、为什么学习SCALA
-1,Spark框架SCALA编程、Kafka
源码
-2,Spark编程
SCALA、Python、JAVA、R
细心:
Spark官方文档、讲义,Spark编程代码都是Python语言
databrick
金砖
JAVA
C阵营(C、C#、C++)
Python - Spark
火的
函数
没有放在类中
方法
放在类中
隐式转换
"偷龙转凤"
大数据框架,”helloworld"程序就WordCount
hadoop -> (hadoop, 1) -> (hadoop, list(11,1,1)) -> (hadoop, 14)
rdd.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
-1,
line.toString().split(" ")
==========================================================
Spark 1.x
Scala 2.10.x 4
Spark 2.x
Scala 2.11.x 8
Scala 语言
交互式编程语言,Shell类似,交互式命令行
正是由于提供交互式命令行,所以使得Spark程序开发、测试,很方便
对于Scala语言来说,IDE工具
The Scala IDE (based on Eclipse),
支持不是很好,提示,编译语法
IntelliJ IDEA with the Scala plugin,
最多,支持很好
NetBeans IDE with the Scala plugin.
DELIMITED FIELDS TERMINATED BY '\t'
DELIMITED FIELDS TERMINATED BY char [ESCAPED BY char]]
T => U
表示函数
确定一个方法的两个标准
-1,参数
个数、类型
-2,返回值
(Int, Int) => Int
def map(f: T => U): RDD ={
}
在JAVA中,循环来说,通常有两个关键字
break
跳出整个循环
continue
跳出当前的循环
回顾一下:
JAVA中的FOR循环
for(int index = 1 ; index ++ ; index <= 10){
println(index)
}
for(index <- 1 to 10){
println(index)
}
apply()方法
《OD学spark》20160924scala基础的更多相关文章
- 《OD学spark》20161022
一.Spark Core 1. 什么是Spark Shuffle Wide Dependencies *ByKey: groupByKey,reduceByKey 关联操作:join,cogroup ...
- 《OD学spark》20160925 Spark Core
一.引言 Spark内存计算框架 中国Spark技术峰会 十二场演讲 大数据改变世界,Spark改变大数据 大数据: 以Hadoop 2.x为主的生态系统框架(MapReduce并行计算框架) 存储数 ...
- 【原创 Hadoop&Spark 动手实践 12】Spark MLLib 基础、应用与信用卡欺诈检测系统动手实践
[原创 Hadoop&Spark 动手实践 12]Spark MLLib 基础.应用与信用卡欺诈检测系统动手实践
- 小白学Docker之基础篇
系列文章: 小白学Docker之基础篇 小白学Docker之Compose 小白学Docker之Swarm PS: 以下是个人作为新手小白学习docker的笔记总结 1. docker是什么 百科上的 ...
- 7天学完Java基础之0/7
笔记-7天学完Java基础之0/7 1.常用命令提示符(cmd) 启动:Win+R,输入cmd
- Spark编程基础_RDD初级编程
摘要:Spark编程基础_RDD初级编程 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素 ...
- Spark编程基础_RDD编程
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合.RDD具有数据流模型的特 ...
- 简明易懂,将细节隐藏,面向新手树立web开发概念——学完Java基础语法,超快速上手springboot+mybatiJavaWeb开发
简明易懂,将细节隐藏,面向新手树立web开发概念 --学完Java基础语法,超快速上手JavaWeb开发 Web本质(先忽视各种协议) Web应用可以理解为浏览器和服务器之间的交互. 我们可以看一个简 ...
- 《OD学hadoop》Linux基础
一.Linux基本环境 1. Linux常见版本及VMware虚拟机安装Linux系统 2. 虚拟机网络配置(IP地址.主机名.防火墙) 3. 文件基本命令操作 4. 四大远程连接工具使用 二.Lin ...
随机推荐
- 分享知识-快乐自己:运行(wordcount)案例
运行 wordcount 案例: 一):大数据(hadoop)初始化环境搭建 二):大数据(hadoop)环境搭建 三):运行wordcount案例 四):揭秘HDFS 五):揭秘MapReduce ...
- PHP如何得到数组最后元素的key
1.array_keys(end($arr)) $array = array( 'one'=>1, 'two'=>2, 'three'=>3, 'four'=>4, ); $a ...
- Python 爬虫 —— 网页内容解析(lxml)
0. xpath 语法 找到所有 <img src=....> 图像的链接: xpath = './/img/@src' img_urls = html.xpath(xpath) @修饰节 ...
- bzoj 1398: 寻找主人 AC自动机+最小表示法
题目大意: 给定两个序列判断是否循环同构,若循环同构则输出最小表示 题解: 因为没有样例输入输出,一开始没看到要求输出最小表示 Wa一大页. 但不得不说bzoj还是挺高效的: 赞一个 XD.jpg 判 ...
- Oracle12c多租户如何连接到CDB或PDB、CDB与PDB容器切换
Oracle 数据库 12 c 多租户选项允许单个容器数据库 (CDB) 来承载多个单独的可插拔数据库 (PDB).那么我们如何连接到容器数据库 (CDB) 和可插拔数据库 (PDB). 1. V$S ...
- 第四章——Lock的使用
本章主要是讲解:使用Lock对象也能实现同步效果,而且使用起来更方便. 主要掌握两个方面: ReentrantLock类的使用 ReenTrantReadWriteLock类的使用
- linux shell查询
查看当前版本可用的shell cat /etc/shells 查看当前使用的shell echo $0 查看当前用户默认使用的shell echo $SHELL
- 研华 RISC超低功耗3.5”单板电脑
产品简介: 这是一款搭载TI Sitara AM3358 Cortex-A8 1GHz高性能处理器的RISC 3.5”单板电脑.RSB-4221是一款稳定可靠.性能强大的低功耗平台,专为各种需要丰富I ...
- JAVA 1.5 并发之 BlockingQueue
1.BlockingQueue 顾名思义就是阻塞队列 最经典的使用场合就是 生产者 - 消费者 模型啦,其优点是队列控制已经处理好,用户只需要存(满了会阻塞),取(空了会阻塞) 可以更多的关心核心逻辑 ...
- JSP介绍(4)--- JSP 过滤器
过滤器是可用于 Servlet 编程的 Java 类,可以实现以下目的: 在客户端的请求访问后端资源之前,拦截这些请求. 在服务器的响应发送回客户端之前,处理这些响应. 过滤器通过 Web 部署描述符 ...