《OD大数据实战》Spark入门实例
一、环境搭建
1. 编译spark 1.3.0
1)安装apache-maven-3.0.5
2)下载并解压 spark-1.3.0.tgz
3)修改make-distribution.sh
VERSION=1.3.
SCALA_VERSION=2.10
SPARK_HADOOP_VERSION=2.5.-cdh5.3.6
SPARK_HIVE=
#VERSION=$("$MVN" help:evaluate -Dexpression=project.version >/dev/null | grep -v "INFO" | tail -n )
#SPARK_HADOOP_VERSION=$("$MVN" help:evaluate -Dexpression=hadoop.version $@ >/dev/null\
# | grep -v "INFO"\
# | tail -n )
#SPARK_HIVE=$("$MVN" help:evaluate -Dexpression=project.activeProfiles -pl sql/hive $@ >/dev/null\
# | grep -v "INFO"\
# | fgrep --count "<id>hive</id>";\
# # Reset exit status to , otherwise the script stops here if the last grep finds nothing\
# # because we use "set -o pipefail"
# echo -n)
4)替换maven仓库jar包
5)打包编译
(1)MAVEN编译
build/mvn clean package -DskipTests -Phadoop-2.4 -Dhadoop.version=2.5.-cdh5.3.6 -Pyarn -Phive-0.13. -Phive-thriftserver
(2)使用CDH5.3.6版本的hadoop
./make-distribution.sh --tgz -Phadoop-2.4 -Dhadoop.version=2.5.-cdh5.3.6 -Pyarn -Phive-0.13. -Phive-thriftserver
(3)使用Apache版本的hadoop
./make-distribution.sh --tgz -Phadoop-2.4 -Dhadoop.version=2.5. -Pyarn -Phive-0.13. -Phive-thriftserver
二、测试程序
1. 准备
bin/spark-shell
val textFile = sc.textFile("README.md")
textFile.count()
textFile.count 方法没有参数时,括号可以省略
textFile.first
textFile.take(10)
可以将函数A作为参数传递给函数B,此时这个函数B叫做高阶函数
textFile.filter((line: String) =>line.contains("Spark"))
textFile.filter(line =>line.contains("Spark"))
textFile.filter(_.contains("Spark"))
scala中_标示任意元素
匿名函数
(line: String) =>line.contains("Spark")
def func01(line : String){
line.contains("Spark")
}
def func01(line: String) => line.contains("Spark")
sc.parallelize(Array(1,2,3,4,5))
三、Scala集合操作
Method on Seq[T]
map(f: T => U): Seq[U] flatMap(f: T=> Req[U]): Seq[U] filter(f: T => Boolean): Seq[T] exists(f: T => Boolean): Boolean forall(f: T => Boolean): Boolean reduce(f: (T, T) => T): T groupBy(f: T => K): Map[K, List[T]] sortBy(f: T => K): Seq[T]
(line: String) =>line.contains("Spark")
T: (line: String)
Boolean: line.contains("Spark")
三、 wordcount
val linesRdd = sc.textFile("hdfs://beifeng-hadoop-02:9000/user/beifeng/mapreduce/input01/wc_input")
val wordsRdd = linesRdd.map(line => line.split(" "))
val wordsRdd = linesRdd.flatMap(line => line.split(" "))
val keyvalRdd = wordsRdd.map(word => (word, 1))
val countRdd = keyvalRdd.reduceByKey((a, b) =>(a + b))
countRdd.collect()
countRdd.cache
变成一行
sc.textFile("hdfs://beifeng-hadoop-02:9000/user/beifeng/mapreduce/input01/wc_input").flatMap(line => line.split(" ")).map( (_, 1)).reduceByKey(_ + _).collect
《OD大数据实战》Spark入门实例的更多相关文章
- 《OD大数据实战》HDFS入门实例
一.环境搭建 1. 下载安装配置 <OD大数据实战>Hadoop伪分布式环境搭建 2. Hadoop配置信息 1)${HADOOP_HOME}/libexec:存储hadoop的默认环境 ...
- 《OD大数据实战》驴妈妈旅游网大型离线数据电商分析平台
一.环境搭建 1. <OD大数据实战>Hadoop伪分布式环境搭建 2. <OD大数据实战>Hive环境搭建 3. <OD大数据实战>Sqoop入门实例 4. &l ...
- 《OD大数据实战》Hive环境搭建
一.搭建hadoop环境 <OD大数据实战>hadoop伪分布式环境搭建 二.Hive环境搭建 1. 准备安装文件 下载地址: http://archive.cloudera.com/cd ...
- 《OD大数据实战》环境整理
一.关机后服务重新启动 1. 启动hadoop服务 sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start datanode ...
- 大数据实战-Spark实战技巧
1.连接mysql --driver-class-path mysql-connector-java-5.1.21.jar 在数据库中,SET GLOBAL binlog_format=mixed; ...
- 《OD大数据实战》Hive入门实例
官方参考文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual 一.命令行和客户端 1. 命令窗口 1)进入命令窗口 hi ...
- 《OD大数据实战》Kafka入门实例
官网: 参考文档: Kafka入门经典教程 Kafka工作原理详解 一.安装zookeeper 1. 下载zookeeper-3.4.5-cdh5.3.6.tar.gz 下载地址为: http://a ...
- 《OD大数据实战》Sqoop入门实例
官网地址: http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.5-cdh5.3.6/SqoopUserGuide.html 一.环境搭建 1. 下载 s ...
- 《OD大数据实战》Flume入门实例
一.netcat source + memory channel + logger sink 1. 修改配置 1)修改$FLUME_HOME/conf下的flume-env.sh文件,修改内容如下 e ...
随机推荐
- PHP基于单例模式编写PDO类的方法
一.单例模式简介 简单的说,一个对象(在学习设计模式之前,需要比较了解面向对象思想)只负责一个特定的任务: 二.为什么要使用PHP单例模式? 1.php的应用主要在于数据库应用, 所以一个应用中会存在 ...
- linux系统配置之开机启动过程(centos)
1.开机流程如下: 2.BIOS BIOS是英文"Basic Input Output System"的缩略词,直译过来后中文名称就是"基本输入输出系统".其实 ...
- 问题杂烩(scrollTop/背景透明度动画)
今天给同学找我帮忙写js,是公司里的活..我是不是应该跟他要钱哈哈,不过一顿饭肯定是免不了的了. 言归正传,今天写了三个小东西,因为兼容性的问题,用jq写的(很是别扭的说,但是没办法啊,一边看api一 ...
- Javascript-- jQuery DOM篇(一)
DOM创建节点及节点属性 通过JavaScript可以很方便的获取DOM节点,从而进行一系列的DOM操作.但实际上一般开发者都习惯性的先定义好HTML结构,但这样就非常不灵活了. 浏览器提供的一些原生 ...
- KVM-快照管理
1.kvm克隆 kvm 虚拟机有两部分组成:img镜像文件和xml配置文件(/etc/libvirt/qemu 克隆命令:virt-clone -o rhel6- 71 -n xuegod63-kvm ...
- django学习笔记(三)模型
1.创建一个django app: python manage.py startapp books 2.validate 命令检查你的模型的语法和逻辑是否正确.一旦你觉得你的模型可能有问题,运行 py ...
- linux命令学习笔记(22):find 命令的参数详解
find一些常用参数的一些常用实例和一些具体用法和注意事项. .使用name选项: 文件名选项是find命令最常用的选项,要么单独使用该选项,要么和其他选项一起使用. 可以使用某种文件名 模式来匹配文 ...
- RenderingPath 渲染路径
http://blog.csdn.net/lichaoguan/article/details/42554821 RenderingPath 渲染路径 Deferred Lighting 延时光照 延 ...
- Linux 下使用 ssh 登录局域网其他电脑的方法
Linux 下使用 ssh 登录局域网其他电脑的方法 首先查看电脑是否安装 ssh 客户端,如果没有执行下面命令安装客户端. sudo apt-get install openssh-client s ...
- BZOJ5443:[CEOI2018]Lottery
我对状态空间的理解:https://www.cnblogs.com/AKMer/p/9622590.html 题目传送门:https://www.lydsy.com/JudgeOnline/probl ...