linux上配置spark集群

环境:

linux

spark1.6.0

hadoop2.2.0

一.安装scala(每台机器)

1.下载scala-2.11.0.tgz

放在目录: /opt下,tar -zxvf scala-2.11.0.tgz

2.在hadoop用户下

vim /etc/profile

3.在profile文件加入Scala路径

 export SCALA_JAVA=/opt/scala-2.11.

 export PATH=$PATH:$SCALA_JAVA/bin

4.使配置环境生效

source /etc/profile

5.检验scala是否安装成功

[hadoop@testhdp01 ~]$ scala -version
Scala code runner version 2.10.1 -- Copyright 2002-2013, LAMP/EPF

成功

二.安装spark

1.编译spark1.6.0（在linux下编译很多次都编译不成功，所以我放到mac下编译的。）

官网编译方法:http://spark.apache.org/docs/latest/building-spark.html

进入spark目录,然后执行以下命令:

build/mvn -Pyarn -Phadoop-2.2 -Dhadoop.version=2.2. -DskipTests clean package

./make-distribution.sh --name custom-spark --tgz -Psparkr -Phadoop-2.2 -Phive -Phive-thriftserver -Pyarn

mvn -Pyarn -Phadoop-2.2 -Dhadoop.version=2.2. -Phive -Phive-thriftserver -DskipTests clean package

用idea编译方法:

https://cwiki.apache.org/confluence/display/SPARK/Useful+Developer+Tools#UsefulDeveloperTools-IDESetup

2.配置spark

cd /opt/spark-1.6.-bin-hadoop2.2.0/conf

cp spark-env.sh.template spark-env.sh

cp slaves.template slaves

vim spark-env.sh

加入

export SCALA_HOME=/opt/scala-2.10.

export JAVA_HOME=/opt/jdk1..0_51

export SPARK_MASTER_IP=192.168.22.7

export HADOOP_HOME=/opt/hadoop-2.2.

export SPARK_HOME=/opt/spark-1.6.-bin-hadoop2.2.0

export SPARK_LIBRARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native

export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop/

export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native

export SPARK_JAR=$SPARK_HOME/lib/spark-assembly-1.6.-hadoop2.2.0.jar

mac 下配置如下，在文件头加入

#jdk

export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1..0_79.jdk/Contents/Home

export PATH=$PATH:$JAVA_HOME/bin

#scala

export SCALA_HOME=/usr/local/Cellar/scala-2.10.

export PATH=$PATH:$SCALA_HOME/bin

#hadoop

export HADOOP_HOME=/usr/local/Cellar/hadoop/2.7./libexec

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

#hive

export HIVE_HOME=/usr/local/Cellar/hive/2.0./libexec

export SPARK_CLASSPATH=$HIVE_HOME/lib/mysql-connector-java-5.1..jar:$SPARK_CLASSPATH

#spark

export SPARK_HOME=/usr/local/Cellar/spark-1.3.-bin-hadoop2.

export PATH=$PATH:$SPARK_HOME/bin

3.配置spark 支持hive

vim spark-env.sh

export HIVE_HOME=/opt/apache-hive-0.13.

export SPARK_CLASSPATH=$HIVE_HOME/lib/mysql-connector-java-5.1..jar:$SPARK_CLASSPATH

拷贝apache-hive-0.13.1-bin/conf/hive-site.xml到$SPARK_HOME/conf下

cp /opt/apache-hive-0.13./conf/hive-site.xml conf/

在/etc/profile.d目录下创建hive.sh文件

加入环境变量设置

#!/bin/bash

export HIVE_HOME=/opt/apache-hive-0.13.

export PATH=$HIVE_HOME/bin:$PATH

是环境变量生效

source /etc/profile.d/hive.sh

4.配置集群

进入spark的conf目录

vim slaves

删除localhost

加入子节点的名字

testhdp02

testhdp03

配置spark系统环境(三个子节点都要配置)

sudo su - root

sudo vim /etc/profile

export SPARK_HOME=/opt/spark-1.5.-bin-hadoop2.2.0

export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

3.把配置好的spark打包，发送到子节点

http://192.168.22.7:8080/

三:错误分析

bin/spark-shell

运行

val textFile = sc.textFile("README.md")

textFile.count()

出现如下错误:

Caused by: java.lang.reflect.InvocationTargetException

        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:)

        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:)

        at java.lang.reflect.Method.invoke(Method.java:)

        at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:)

        ...  more

Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo.LzoCodec not found.

        at org.apache.hadoop.io.compress.CompressionCodecFactory.getCodecClasses(CompressionCodecFactory.java:)

        at org.apache.hadoop.io.compress.CompressionCodecFactory.<init>(CompressionCodecFactory.java:)

        at org.apache.hadoop.mapred.TextInputFormat.configure(TextInputFormat.java:)

        ...  more

Caused by: java.lang.ClassNotFoundException: Class com.hadoop.compression.lzo.LzoCodec not found

        at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:)

        at org.apache.hadoop.io.compress.CompressionCodecFactory.getCodecClasses(CompressionCodecFactory.java:)

        ...  more

解决方案：

修改saprk-env.sh文件

export SCALA_HOME=/opt/scala-2.10.

export JAVA_HOME=/opt/jdk1..0_51

export SPARK_MASTER_IP=192.168.22.7

export HADOOP_HOME=/opt/hadoop-2.2.

export SPARK_HOME=/opt/spark-1.6.-bin-hadoop2.2.0

export SPARK_LIBRARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native

export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop/

export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native

export SPARK_JAR=$SPARK_HOME/lib/spark-assembly-1.6.-hadoop2.2.0.jar

export SPARK_CLASSPATH=$SPARK_CLASSPATH:$HADOOP_HOME/share/hadoop/yarn/*:$HADOOP_HOME/share/hadoop/yarn/lib/*:$HADOOP_HOME/share/hadoop/common/*:$HADOOP_HOME/share/hadoop/common/lib/*:$HADOOP_HOME/share/hadoop/hdfs/*:$HADOOP_HOME/share/hadoop/hdfs/lib/*:$HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*:$HADOOP_HOME/share/hadoop/tools/lib/*:$SPARK_HOME/lib/*

linux上配置spark集群的更多相关文章

linux下配置tomcat集群的负载均衡
linux下配置tomcat集群的负载均衡一.首先了解下与集群相关的几个概念集群:集群是一组协同工作的服务实体,用以提供比单一服务实体更具扩展性与可用性的服务平台.在客户端看来,一个集群就象是一个服 ...
配置spark集群
配置spark集群 1.配置spark-env.sh [/soft/spark/conf/spark-env.sh] ... export JAVA_HOME=/soft/jdk 2.配置slaves ...
Linux上安装Hadoop集群(CentOS7+hadoop-2.8.0)--------hadoop环境的搭建
Linux上安装Hadoop集群(CentOS7+hadoop-2.8.0)------https://blog.csdn.net/pucao_cug/article/details/71698903 ...
Linux中安装配置spark集群
一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所 ...
安装配置Spark集群
首先准备3台电脑或虚拟机,分别是Master,Worker1,Worker2,安装操作系统(本文中使用CentOS7). 1.配置集群,以下步骤在Master机器上执行 1.1.关闭防火墙:syste ...
Hadoop2.2集群安装配置-Spark集群安装部署
配置安装Hadoop2.2.0 部署spark 1.0的流程一.环境描写叙述本实验在一台Windows7-64下安装Vmware.在Vmware里安装两虚拟机分别例如以下主机名spark1(19 ...
本地开发spark代码上传spark集群服务并运行
打包 :右击.export.Java .jar File 把TestSpark.jar包上传到spark集群服务器的 spark_home下的myApp下: 提交spark任务: cd /usr/lo ...
win系统下的eclipse连接和使用linux上的hadoop集群
准备工作先在win系统的hosts文件中加入下面内容 10.61.6.164master //hadoop集群的master节点一.首先在eclipse上安装hadoop插件下载hado ...
Linux 下配置zookeeper集群
我们首先准备三台服务器,IP地址分别如下(前提是要先安装JDK) 192.168.100.101 192.168.100.102 192.168.100.103 1.配置主机名到IP地址的映射(此步骤 ...

随机推荐

P2142 高精度减法
题目描述高精度减法输入输出格式输入格式: 两个整数a,b(第二个可能比第一个大) 输出格式: 结果(是负数要输出负号) 输入输出样例输入样例#1: 2 1 输出样例#1: 1 说明 20%数据 ...
Arduino中数据类型转换 float/double转换为char 亲测好使,dtostrf()函数
如何轻松玩转Arduino单片机,当我在进行数据转换的时候,遇到了问题,尝试了C语言和C++中的好多函数,都没有达到将float型数据转换为char型的目的.苦苦查阅资料后,终于找到了一个大神级函数! ...
Math.net，.net上的科学计算利器
F#在科学计算领域的应用,包括部分语法介绍. Math.net,.net上的科学计算利器摘要: .net上科学计算个人觉得首选numpy和scipy for dotnet.因为这两个库用户数量已经非 ...
谈谈你对Application类的理解
其实说对什么的理解,就是考察你对这个东西会不会用,重点是有没有什么坑! 首先,Application在一个Dalvik虚拟机里面只会存在一个实例,所以你不要傻傻的去弄什么单例模式,来静态获取Appli ...
java 之插入排序
思想:将一个数组分成两组,左边那组始终有序,每次取右边那组插入到左边适当的位置,保证左边有序,当右边没有需要插入的数据的时候,整个数组是有序的.插入排序是稳定排序. 注:此图引用自https://ww ...
深入解析Web Services
SOA,面向服务器建构,是一款架构,这几年虽然没前几年那么流行,但是还是有很多企业在用,而Web Services是目前适合做SOA的主要技术之一,通过使用Web Services,应用程序可以对外发 ...
学习Python的一些Tips
0. Python安装官网提供多种方式,一般Windows下直接安装exe即可:Linux下基本上自带python:另外也提供源码,也可自行编译: 若安装后无法使用,则检查一下环境变量是否设置正确. ...
how to make a function from using global var to not using it
let say, we want to find the bottom left node in a tree.one way to do it is using global vars: /** * ...
DoveCLL and Resistance(湖北省赛)
题目构造一个由串联和并联构成的纯电阻电路,使得该电路的等效电阻为p/q,其中(p,q) = 1.要求输出n,表示节点数,m表示电阻个数,m行每行ui,vi,wi,表示ui和vi之间要连上一个电阻为w ...
Element UI tree 回显问题
Part.1 问题写项目时遇到一个棘手的问题,在做关于权限功能时,点击修改需要显示角色原本对应的权限.涉及到了 tree 组件回显,但是有一个很尴尬的问题:tree 组件只要父节点选中,那么子节点就 ...

linux上配置spark集群

linux上配置spark集群的更多相关文章

随机推荐

热门专题