34、spark1.5.1

一、Spark 1.4.x的新特性

1、Spark Core

  1.1 提供REST API供外界开发者获取Spark内部的各种信息（jobs / stages / tasks / storage info），基于这些API，可以搭建自己的Spark监控系统。

  1.2 shuffle阶段，默认将map端写入磁盘的数据进行序列化，优化io性能。

  1.3 钨丝计划（Project Tungsten），提供了UnsafeShuffleManager，使用缓存友好的排序算法，降低了shuffle的内存使用，提高了排序性能。

2、Spark Streaming

  2.1 提供了新的Spark Streaming的UI，能够更好，更清晰的监控Spark Streaming应用程序的运行状况。

  2.2 支持Kafka 0.8.2版本

3、Spark SQL and DataFrame

  3.1 支持ORCFile

  3.2 提供了一些window function（窗口函数）

  3.3 优化了join的性能

二、Spark 1.5.x的新特性

1、DataFrame底层执行的性能优化（钨丝计划第一阶段）

  1.1 Spark自己来管理内存，而不再依靠JVM管理内容。这样就可以避免JVM GC的性能开销，并且能够控制OOM的问题。

  1.2 Java对象直接使用内部的二进制格式存储和计算，省去了序列化和反序列化的性能开销，而且更加节省内存开销。

  1.3 完善了Shuffle阶段的UnsafeShuffleManager，增加了不少新功能，优化shuffle性能。

  1.4 默认使用code-gen，使用cache-aware算法，加强了join、aggregation、shuffle、sorting的性能，增强了window function的性能，性能比1.4.x版本提高数倍

2、DataFrame

  2.1 实现了新的聚合函数接口，AggregateFunction2，并且提供了7个新的内置聚合函数。

  2.2 实现了100多个新的expression function，例如unix_timestamp等，增强了对NaN的处理

  2.3 支持连接不同版本的hive metastore

  2.4 支持Parquet 1.7

3、Spark Streaming：更完善的python支持、非实验的Kafka Direct API等等。

三、spark1.5.1源码编译

掌握了源码编译，就具备了对Spark进行二次开发的基本条件了！如果你要修改Spark源码，进行二次开发，那么首先就得从官网下载指定版本的源码，然后导入你的ide开发环境，

进行源码的修改；接着修改完了，你希望能够将修改后的源码部署到集群上面去，那么是不是得对源码进行编译，编译成可以在linux集群上进行部署的格式包吧！

1、http://d3kbcqa49mib13.cloudfront.net/spark-1.5.1.tgz      //下载源码包

2、准备好JDK、Scala、Maven环境

3、针对指定hadoop版本进行编译：./make-distribution.sh --tgz -Phadoop-2.6 -Pyarn -DskipTests -Dhadoop.version=2.6.0 -Phive

4、经长时间的编译之后，得到spark-1.4.0-bin-2.6.0.tgz

四、安装spark1.5.1

1、解压安装

之前测试集群用的spark1.3，现在将spark升级为spark1.5.1

1、停止Spark 1.3.0集群：SPARK_HOME/sbin/stop-all.sh

2、将spark-1.5.1-bin-hadoop2.4.tgz上传到/usr/local目录下。

3、解压缩spark包：tar zxvf spark-1.5.1-bin-hadoop2.4.tgz。

4、修改spark环境变量

vi /etc/profile

export JAVA_HOME=/usr/java/latest

export HADOOP_HOME=/usr/local/hadoop

export HIVE_HOME=/usr/local/hive

export ZOOKEEPER_HOME=/usr/local/zk

export SCALA_HOME=/usr/local/scala

export SPARK_HOME=/usr/local/spark-1.5.1-bin-hadoop2.4

export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin:$ZOOKEEPER_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin

2、修改spark-env.sh

1、cd /usr/local/spark/conf

2、cp spark-env.sh.template spark-env.sh

3、vi spark-env.sh        #写入下列几行

export JAVA_HOME=/usr/java/latest

export SCALA_HOME=/usr/local/scala

export SPARK_MASTER_IP=192.168.1.135

export SPARK_WORKER_MEMORY=1g

export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

3、修改slaves文件

cp  conf/slaves.template conf/slaves

vim conf/slaves

spark2

spark3

4、分发

scp -r spark-1.5.1-bin-hadoop2.4 root@spark2:/usr/local/

 scp -r spark-1.5.1-bin-hadoop2.4 root@spark3:/usr/local/

分发完以后，分别编辑spark2、spark3两台主机的/etc/profile文件，将spark1.5.1的环境变量写入，并source；

5、启动

1、在spark目录下的sbin目录

2、执行./start-all.sh

3、使用jsp和8080端口可以检查集群是否启动成功

4、进入spark-shell查看是否正常

6、进入spark-shell测试

scala> val lines = sc.textFile("hdfs://spark1:9000/spark.txt")

scala> val words = lines.flatMap(line => line.split(" "))

scala> val pairs = words.map(word => (word,1))

scala> val counts = pairs.reduceByKey(_ + _)

scala> counts.foreach(count => println(count._1 + ": " + count._2))

34、spark1.5.1的更多相关文章

34、[源码]-AOP原理-链式调用通知方法
34.[源码]-AOP原理-链式调用通知方法
34、mysql数据库（介绍）
34.1.什么是数据库: 数据库(database,DB)是指长期存储在计算机内的,有组织,可共享的数据的集合.数据库中的数据按一定的数学模型组织. 描述和存储,具有较小的冗余,较高的数据独立性和易扩 ...
34、在排序数组中查找元素的第一个和最后一个位置 | 算法（leetode，附思维导图 + 全部解法）300题
零标题:算法(leetode,附思维导图 + 全部解法)300题之(34)在排序数组中查找元素的第一个和最后一个位置一题目描述二解法总览(思维导图) 三全部解法 1 方案1 1)代码: / ...
34、JS/AJAX
1)回顾JS中核心内容 2)了解WEB1.0和WEB2.0时代的技术与特点 3)理解AJAX的产生背景.工作原理与特点 4)掌握AJAX常用API及应用声明:服务端使用Servlet技术一 ...
34、Shiro框架入门三，角色管理
//首先这里是java代码,就是根据shiro-role.ini配置文件中的信息来得到role与用户信息的对应关系//从而来管理rolepublic class TestShiroRoleTest e ...
(转) ASCII码对应表chr(9)、chr(10)、chr(13)、chr(32)、chr(34)、chr(39)、chr(
chr(9) tab空格 chr(10) 换行 chr(13) 回车 Chr(13)&chr(10) 回车换行 chr(32) 空格符 ...
ASCII码对应表chr(9)、chr(10)、chr(13)、chr(32)、chr(34)、chr(39)
chr(9) tab空格 chr(10) 换行 chr(13) 回车 Chr(13)&chr(10) 回车换行 chr(32) 空格符 ...
34、锁问题与线程queue
上一篇随笔我们学了全局解释器锁,前面也学了互斥锁,今天学习一些与锁相关的点,例如递归锁,信号量,Event,还会学习我们已经很熟悉的队列,不过这次的队列是作为一个模块出现的. 一.同步锁 1.join ...
Python自学:第三章动手试一试 3-4、3-5
# -*- coding: GBK -*- liebiao = ["zhang", "li", "wang", "zhou&quo ...

随机推荐

全栈项目|小书架|服务器开发-NodeJS 使用 JWT 实现登录认证
通过这篇全栈项目|小书架|服务器开发-JWT 详解文章我们对JWT有了深入的了解,那么接下来介绍JWT如何在项目中使用. 安装 $ npm install jsonwebtoken 生成 Toke ...
Linux用户组笔记整理
一.Linux用户组概念 Linux用户组(group)就是具有相同操作权限范围的Linux用户管理起来: 比如有时我们要让同一类用户具有相同的权限,比如查看.修改某一文件或执行某个命令, 这时我们需 ...
Linux定时清理日志脚本
在应用疯狂打日志的情况下,服务器很容易被塞满磁盘. 先要写一个shell脚本,脚本如下. #!/bin/bash #----------------使用规范---------------- #1.该文 ...
mysql 表关系与修改表结构
目录 mysql 表关系与修改表结构两张表关系分析步骤修改表结构 mysql 表关系与修改表结构两张表关系多对一以员工和部门举例多个员工对应一个部门 foreign key 永远 ...
mtd设备操作、jffs2
安装mtd相关命令手动安装mtd-utils,根据系统自行选择 mtd交叉编译:https://blog.csdn.net/zhangxuechao_/article/details/5212442 ...
You may need to add '192.168.55.10' to ALLOWED_HOSTS.
DisallowedHost at / Invalid HTTP_HOST header: '192.168.55.10:8000'. You may need to add '192.168.55. ...
CentOS 6.5本地yum源、局域网离线yum仓库（断网情况下轻松安装各种依赖包)
在工作中, 公司的服务器大部分都禁止连接外网的,初始化系统,测试某些产品时,往往缺一些软件或依赖包,一个个上传到机器,如此浪费时间,浪费金钱,en...yum能够自动查找并解决rpm包之间的依赖关系, ...
一文看懂Java Worker 设计模式
Worker模式想解决的问题异步执行一些任务,有返回或无返回结果使用动机有些时候想执行一些异步任务,如异步网络通信.daemon任务,但又不想去管理这任务的生命周.这个时候可以使用Worker ...
SQL EXPLAIN优化详解
使用EXPLAIN关键字可以模拟优化器执行SQL查询语句,从而知道MySQL是如何处理你的SQL语句的.分析你的查询语句或是表结构的性能瓶颈.使用方式:Explain+SQL语句执行计划包含的信息: ...
Java精通并发-wait与notify及线程同步系统总结
notifyAll(): 在上两次中对于Object的wait()和notify()方法的官方doc进行了通读,上一次https://www.cnblogs.com/webor2006/p/11407 ...

34、spark1.5.1

34、spark1.5.1的更多相关文章

随机推荐

热门专题