centos7 hdfs yarn spark 搭建笔记

1.搭建3台虚拟机

2.建立账户及信任关系

3.安装java

wget jdk-xxx

rpm -i jdk-xxx

4.添加环境变量（全部）

export JAVA_HOME=/usr/java/jdk1..0_141

export JRE_HOME=$JAVA_HOME/jre

export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin

export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

export HADOOP_HOME=/data/spark/bin/hadoop

export PATH=$PATH:$HADOOP_HOME/bin/:$HADOOP_HOME/sbin

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export SPARK_HOME=/data/spark/bin/spark

export PATH=$PATH:$SPARK_HOME/bin

5.搭建hadoop

1>vi $HADOOP_HOME/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1..0_141

2>vi $HADOOP_HOME/etc/hadoop/core-site.xml

<configuration>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://10.0.0.5:9000</value>

    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/data/spark/bin/hadoop/tmp</value>
    </property>

</configuration>

3>vi $HADOOP_HOME/etc/hadoop/hdfs-site.xml

<configuration>

    <property>

        <name>dfs.namenode.name.dir</name>

        <value>file:///data/spark/hdfs/name</value>

    </property>

    <property>

        <name>dfs.datanode.data.dir</name>

        <value>file:///data1/hdfs-ext,file:///data2/hdfs-ext,file:///data3/hdfs-ext</value>

    </property>

    <property>

        <name>dfs.namenode.checkpoint.dir</name>

        <value>/data/spark/hdfs/namesecondary</value>

    </property>

    <property>

        <name>dfs.namenode.http-address</name>

        <value>0.0.0.0:</value>

    </property>

    <property>

        <name>dfs.namenode.secondary.http-address</name>

        <value>0.0.0.0:</value>

    </property>

    <property>

        <name>dfs.datanode.http.address</name>

        <value>0.0.0.0:</value>

    </property>

    <property>

      <name>dfs.namenode.datanode.registration.ip-hostname-check</name>

      <value>false</value>

    </property>

</configuration>

4>vi $HADOOP_HOME/etc/hadoop/yarn-site.xml

<configuration>

    <property>

        <name>yarn.resourcemanager.hostname</name>

        <value>10.0.0.5</value>

    </property>

    <property>

        <name>yarn.nodemanager.local-dirs</name>

        <value>/data/spark/hdfs/nm-local-dir</value>

    </property>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

    <property>

        <name>yarn.nodemanager.resource.memory-mb</name>

        <value></value>

    </property>

    <property>

        <name>yarn.nodemanager.resource.cpu-vcores</name>

        <value></value>

    </property>

    <property>

        <name>yarn.resourcemanager.webapp.address</name>

        <value>0.0.0.0:</value>

    </property>

    <property>

        <name>yarn.nodemanager.webapp.address</name>

        <value>0.0.0.0:</value>

    </property>

    <property>

        <name>yarn.nodemanager.pmem-check-enabled</name>

        <value>false</value>

    </property>

    <property>

        <name>yarn.nodemanager.vmem-check-enabled</name>

        <value>false</value>

    </property>
    <property>
        <name>yarn.nodemanager.vmem-pmem-ratio</name>
        <value>5</value>
    </property>

</configuration>

5>vi $HADOOP_HOME/etc/hadoop/slaves

10.0.0.5

10.0.0.6

10.0.0.7

6>拷贝hadoop文件到各个从机,并设置PATH

7>hdfs namenode格式化

hdfs namenode -format

8>启动hdfs并查看日志

start-dfs.sh

9>启动yarn并查看日志

start-yarn.sh

10>查看各节点进程情况,一定要看日志

jps

一定要看日志

11>测试并查看日志

cd /xxx

echo "this is a test for hdfs" > .txt

hadoop fs -mkdir /spark

hadoop fs -mkdir /spark/test

hadoop fs -appendToFile .txt hdfs://10.0.0.5:9000/spark/test/1.txt

hadoop fs -cat hdfs://10.0.0.5:9000/spark/test/1.txt

6.搭建spark

1>修改spark-env.sh

mv $SPARK_HOME/conf/spark-env.sh.template $SPARK_HOME/conf/spark-env.sh

vi $SPARK_HOME/conf/spark-env.sh

export SPARK_HOME=/data/spark/bin/spark

export JAVA_HOME=/usr/java/jdk1..0_141

export HADOOP_HOME=/data/spark/bin/hadoop

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

export SPARK_MASTER_IP=10.0.0.5

export SPARK_LOCAL_DIRS=/data/spark/bin/spark

export SPARK_LIBARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native

export SPARK_LOG_DIR=/data/spark/bin/spark/logs

2>修改spark-defaults.conf

mv $SPARK_HOME/conf/spark-defaults.conf.template $SPARK_HOME/conf/spark-defaults.conf

vi $SPARK_HOME/conf/spark-defaults.conf

spark.yarn.jars  hdfs://10.0.0.5:9000/spark/jars/*

3>上传jars

cd $SPARK_HOME/jars

hadoop fs -mkdir /spark/jars

hadoop fs -put * hdfs://10.0.0.5:9000/spark/jars/

4>修改slave（没什么用）

mv $SPARK_HOME/conf/slaves.template $SPARK_HOME/conf/slaves

vi $SPARK_HOME/conf/slaves

10.0.0.5

10.0.0.6

10.0.0.7

5>单点交互测试

pyspark --master local[]

6>集群交互测试

pyspark --master yarn --deploy-mode client

7>建立测试脚本 vi test.py

from __future__ import print_function

import sys

from random import random

from operator import add

from pyspark.sql import SparkSession

if __name__ == "__main__":

"""

Usage: pi [partitions]

"""

    spark = SparkSession\

.builder\

.appName("PythonPi")\

.getOrCreate()

lines = spark.sparkContext.textFile("hdfs://10.0.0.5:9000/spark/test/1.txt")

num = lines.count()

p_str = lines.first()

print("--------------------"+str(num)+"---------------------")

print("--------------------"+p_str+"---------------------")

spark.stop()

8>单点任务测试

spark-submit --master local[] test.py

9>集群任务测试

spark-submit --master yarn --deploy-mode cluster test.py

centos7 hdfs yarn spark 搭建笔记的更多相关文章

基于服务器版centos7的Hadoop/spark搭建
前提说明: 1.Hadoop与spark是两个独立的框架,只安装spark也可独立运行,spark有自己的调度器(standalone模式): 2.在Hadoop的基础上安装spark就是为了使用ya ...
29.Hadoop之HDFS集群搭建笔记
0.修改IP,主机名,hosts文件 setup 修改网卡IP service network restart 重启网络服务使IP生效 ...
centos7 hive + 远程mysql 搭建笔记
1.require:java环境,本地可用的hadoop,远程可访问的mysql 2.拷贝hive文件(hive-2.2.1) 3.设置环境变量 export HIVE_HOME=/data/spar ...
Spark环境搭建（三）-----------yarn环境搭建及测试作业提交
配置好HDFS之后,接下来配置单节点的yarn环境 1,修改配置文件文件 : /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop/yarn-site-xml 插入 ...
spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
Spark SQL笔记
HDFS HDFS架构 1.Master(NameNode/NN) 对应 N个Slaves(DataNode/NN)2.一个文件会被拆分成多个块(Block)默认:128M例: 130M ==> ...
伪分布式Spark + Hive on Spark搭建
Spark大数据平台有使用一段时间了,但大部分都是用于实验而搭建起来用的,搭建过Spark完全分布式,也搭建过用于测试的伪分布式.现在是写一遍随笔,记录一下曾经搭建过的环境,免得以后自己忘记了.也给和 ...
Spark学习笔记2（spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求不需要最新版的maven客户端. 解压完成之后 ...
Spark学习笔记3（IDEA编写scala代码并打包上传集群运行）
Spark学习笔记3 IDEA编写scala代码并打包上传集群运行我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包上传至集群,来检验一下我们的sp ...

随机推荐

解决libc.so.6: version `GLIBC_2.14' not found问题
1.命令检查系统glibc支持的版本: strings /lib64/libc.so.6 |grep GLIBC_ 如果没有2.14或者其他版本的,需要下载安装 2.下载地址:http://pan.b ...
slf4j + log4j 需要的依赖
正确的依赖  <dependency> <groupId>org.slf4j</groupId> <artif ...
e-olymp Problem8352 Taxi
作为我在这个OJ玩了一下午的终结吧. 水题一道,阅读理解OJ. 传送门:点我 Taxi At the peak hour, three taxi buses drove up at the same ...
SVN集成compare4比较软件
打开TortoiseSVN的Setting,选择左边的Diff Viewer 设置如下: "D:\Program Files\Beyond Compare 4\BComp.exe" ...
sourceforge
sourceforge SourceForge.net,又称SF.net,是开源软件开发者进行开发管理的集中式场所. SourceForge.net由VA Software提供主机,并运行Source ...
【mysql】字段支持JSON类型
mysql从5.7开始已经支持JSON类型的字段. 支持的操作:添加,修改,置空,子key添加,子key重置,子key删除,通过子key查找等. 但是这里和普通字段的修改和查找不同,涉及到一些JSON ...
让listView gridView全部扩展开
public class NoScrollListView extends ListView { public NoScrollListView(Context context, Attribu ...
（八） .launch文件 ---编写简单的启动脚本文件
下面我们将介绍,如何编写一个启动脚本程序:(.launch文件) 还记得我们在创建ROS软件包教程中创建的第一个程序包(beginner_tutorials)吗,现在我们要使用它. 在 begin ...
Ubuntu 16.04安装JDK并配置环境变量-【小白版】
系统版本:Ubuntu 16.04 JDK版本:jdk1.8.0_121 1.官网下载JDK文件jdk-8u121-linux-x64.tar.gz 我这里下的是最新版,其他版本也可以 2.创建一个目 ...
prototype.js的Ajax对IE8兼容问题解决方案
你是否遇到过这样的问题?在使用protype.js的Ajax应用时,会出现这样的问题:只要调用了Ajax.Request,然后点该页面右键,查看“属性”就弹出“IE停止工作”的对话框,然后强制重新加载 ...

centos7 hdfs yarn spark 搭建笔记

centos7 hdfs yarn spark 搭建笔记的更多相关文章

随机推荐

热门专题