spark 笔记 1: 如何着手

必读：从官方的开发者页面着手，包括如何构建spark以及编码规范（强烈建议读读编程规范）等；https://cwiki.apache.org/confluence/display/SPARK/Contributing+to+Spark
必读：官方文档简介：http://spark.apache.org/docs/latest/，以及这里的所有超链接都应该看一遍。应该有个印象；
必读： RDD的论文：http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf
必做：搭建spark的本地环境，编译、打包wordCount程序使其正常跑起来；不要仅仅使用spark-shell，要使用正常的提交；google一下，这个例子相关的资料太多了；强烈建议使用IDEA+MAVEN（不用sbt是因为国内使用sbt过程中一些依赖下载卡死。。）
可选：使用spark的API，编写一些简单的例子执行；主要是熟悉spark的API；
如果不熟悉scala，读：http://www.tutorialspoint.com/scala/scala_access_modifiers.htm ，然后https://twitter.github.io/scala_school/ 。强烈不建议中文的资料，因为当前的spark中文资料比较少，而且很多属于的翻译不规范。。
可选：如果使用CHD集群，强烈建议跟着官方的入门example走一遍：http://blog.cloudera.com/blog/2014/04/how-to-run-a-simple-apache-spark-app-in-cdh-5/

From WizNote

spark 笔记 1: 如何着手的更多相关文章

spark笔记环境配置
spark笔记 spark简介 saprk 有六个核心组件: SparkCore.SparkSQL.SparkStreaming.StructedStreaming.MLlib,Graphx Spar ...
大数据学习——spark笔记
变量的定义 val a: Int = 1 var b = 2 方法和函数区别:函数可以作为参数传递给方法方法: def test(arg: Int): Int=>Int ={ 方法体 } v ...
spark 笔记 16： BlockManager
先看一下原理性的文章:http://jerryshao.me/architecture/2013/10/08/spark-storage-module-analysis/ ,http://jerrys ...
spark 笔记 15: ShuffleManager，shuffle map两端的stage/task的桥梁
无论是Hadoop还是spark,shuffle操作都是决定其性能的重要因素.在不能减少shuffle的情况下,使用一个好的shuffle管理器也是优化性能的重要手段. ShuffleManager的 ...
spark 笔记 14: spark中的delay scheduling实现
延迟调度算法的实现是在TaskSetManager类中的,它通过将task存放在四个不同级别的hash表里,当有可用的资源时,resourceOffer函数的参数之一(maxLocality)就是这些 ...
spark 笔记 12: Executor，task最后的归宿
spark的Executor是执行task的容器.和java的executor概念类似. ===================start executor runs task============ ...
spark 笔记 11: SchedulingAlgorithm 两种调度算法的优先级比较
调度算法的最基本工作之一,就是比较两个可执行的task的优先级.spark提供的FIFO和FAIR的优先级比较在SchedulingAlgorithm这个接口体现.) { ) { ) { ) { fa ...
spark 笔记 10: TaskScheduler相关
任务调度器的接口类.应用程序可以定制自己的调度器来执行.当前spark只实现了一个任务调度器) )))))val createTime = System.currentTimeMillis()clas ...
spark 笔记 8: Stage
Stage 是一组独立的任务,他们在一个job中执行相同的功能(function),功能的划分是以shuffle为边界的.DAG调度器以拓扑顺序执行同一个Stage中的task. /** * A st ...

随机推荐

centos安装配置LAMP，https，fastcgi
Centos7 配置LAMP+fastcgi(Centos7.2+php7.0+mariadb+httpd) 环境:阿里云centos7.3 一.安装并配置数据库 1.安装数据库 #yum ins ...
移动端H5开发自适应技巧
移动端H5开发,必要要做到自适应各种分辨率的手机,下面由我为大家大致说一下,需要3步走第一:head标签中添加: <meta name="viewport" content ...
Centos7:mysql5.6安装,配置及使用(RPM方式)
1.首先安装好jdk环境,本机所用环境为jdk1.8 2.卸载MariaDB(Centos7自带)与Mysql 2.1卸载:MariaDB #rpm -qa | grep -i mariadb //查 ...
js判断变量是否为undefined
可能很多朋友认为undefined是在js中未定义变量时才会提示的错误,其实不然undefined 是js中的一特殊的变量,我们也可以提前定义哦,下面我来介绍js undefined 用法. Java ...
elasticsearch设置执行脚本并添加开机启动 (转）
elasticsearch设置执行脚本并添加开机启动在/etc/init.d目录下新建文件elasticsearch #!/bin/sh #chkconfig: 2345 80 05 #descri ...
2019.9.20使用kali中的metasploi获取windows 的权限
1 kali 基于debin的数字取证系统,上面集成了很多渗透测试工具,其前身是bt5r3(bractrack) 其中Metasploit是一个综合利用工具,极大提高攻击者渗透效率,使用ruby开发的 ...
11条sql技巧
1. 负向条件查询不能使用索引 select * from order where status!=0 and stauts!=1 not in/not exists都不是好习惯可以优化为in查询: ...
Linux编译阻塞型驱动遇到'TASK_NORMAL' undeclared (first use in this function)问题解决办法
http://blog.csdn.net/qq_16405157/article/details/49281793
POJ 1734 无向图最小环/有向图最小环
给定一张图,求图中一个至少包含三个点的环,环上的点不重复,并且环上的边的长度之和最小. 点数不超过100个输出方案无向图: /*Huyyt*/ #include<bits/stdc++.h& ...
MyEclipse 2016 反编译插件安装
下载插件,分享一下下载插件的地址,百度网盘:链接:http://pan.baidu.com/s/1nturiAH 密码:yk73 1.把net.sf.jadclipse_3.3.0.jar拷到D:\P ...

spark 笔记 1: 如何着手

spark 笔记 1: 如何着手的更多相关文章

随机推荐

热门专题