python spark环境配置

在配置Hadoop之前，应该先做以下配置

1.更改主机名

首先更改主机名，目的是为了方便管理。

输入:hostname

　　查看本机的名称

　　使用 hostname 修改当前主机名。

　　 hostname test1

　　然后输入:vim /etc/sysconfig/network

　　修改主机名称

　　将HOSTNAME 的名称更改为你想要设置的名称

注:主机名称更改之后，要重启(reboot)才会生效。

输入:vim /etc/hosts

添加主机IP 和对应的主机名称，做映射。

注:在配置文件中使用主机名的话，这个映射必须做！

2.关闭防火墙

查看状态

firewall-cmd --state

　　关闭防火墙，方便外部访问。

　　CentOS 7版本以下输入:

　　#关闭防火墙

　　service iptables stop

　　CentOS 7 以上的版本输入：

　　systemctl stop firewalld.service

3.时间设置

　　输入:date

　　查看服务器时间是否一致，若不一致则更改

　　更改时间命令

　　date -s ‘MMDDhhmmYYYY.ss’

参考：https://blog.csdn.net/muyi_amen/article/details/62423649

1.tar -zxvf jdk-8u91...... -C ~/app

vi ~/.bash_profile

加上

source ~/.bash_profile

echo $JAVA_HOME #检查

2.tar -zxvf scala...... -C ~/app

vi ~/.bash_profile

加上

source ~/.bash_profile

echo $SCALA_HOME #检查

3.tar -zxvf hadoop-2.6.0...... -C ~/app

vi ~/.bash_profile

加上

source ~/.bash_profile

echo $HADOOP_HOME #检查

cd /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop

vim hadoop-env.sh

加上

vim core-site.xml

将<configurarion></configuration>补充

fs.default.name 这是配置HDFS中节点的URL，在文件系统中，每一个节点都有自己的URL，通过URL才能在整个分布式系统中管理和查询到此节点。集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册，这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互，以取得文件的块列表。

hadoop.tmp.dir 是hadoop文件系统依赖的基础配置，很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置，默认就放在这个路径中

kvm是主机名，9000是RPC通信端口

vim hdfs-site.xml

dfs.replication 它决定着系统里面的文件块的数据备份个数，此数值一般不大于从机的个数。

dfs.name.dir 是设置NameNode的数据存放的本地路径

dfs.data.dir 是设置DataNode的数据存放的本地路径

dfs.http.address是设置NameNode的tracker页面监听地址和端口

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

vi yarn-site.xml

node1为主机名

cd /root/app/hadoop-2.6.0-cdh5.7.0/bin

./hadoop namenode -format

检查下这里面里有没有多了东西了

cd /root/app/hadoop-2.6.0-cdh5.7.0/sbin

./sbin/start-all.sh 或者./sbin/start-dfs.sh # ./sbin/stop-all.sh(关闭集群)

(如果在~/.bash_profile加上HADOOP_HOME/sbin，就可以去掉sbin/)

如下图说明启动成功

免密登录

　　启动和停止 Hadoop 都会让你输入四次当前服务器的密码。因此我们需要配置免密码登录服务器。

　　1.ssh-keygen -t rsa　　

　　　　 ~/.ssh文件里会生成

　　2.cd ~/.ssh

　　　　 cat id_rsa.pub>>authorized_keys

　　　　就可以了，可以用ssh localhost测试下

4.tar -zxvf apache-maven-3.3.9-bin.tar.gz -C ~/app

vim ~/.bash_profile

source ~./bash_profile

mkdir ~/app/maven_repository

cd /root/app/apache-maven-3.3.9/conf

vim settings.xml

这一步是修改 The path to the local repository maven will use to store artifacts

mvn

就成功了

5.安装python3.6.5

下载pyton3.6.5 source release

配置python依赖环境

yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4_devel libpcap-devel xz-devel

tar -zxvf Python-3.6.5.tgz

cd Python-3.6.5

./configure --prefix=/root/app/python3

make && make install

配置路径

6.安装spark

https://archive.apache.org/dist/spark/spark-2.3.0/

　　#下载source code

　　#tar -zxvf spark-2.3.0.tgz

　　#cd /home/software/spark-2.3.0/dev

　　#./make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

　　解压：

　　tar -zxvf spark-2.3.0-bin-hadoop2.6.tgz -C app/

　　配置到环境变量： export SPARK_HOME=/root/app/spark-2.3.0-bin-hadoop2.6 　　　　　　　　　　　　　　　　　export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

　　测试：

　　运行一个简单的spark程序

　　 spark-shell

python spark环境配置的更多相关文章

Linux—CentOS7下python开发环境配置
CentOS7下python开发环境配置上一篇博客讲了如何在Centos7下安装python3(https://www.cnblogs.com/zivli/p/9937608.html),这一次配置 ...
python 开发环境配置
上篇文章配置了虚机基础环境,本篇文章介绍配置python开发环境配置YUM源使用国内yum源 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos ...
centos7.0 安装日志--图文具体解释-python开发环境配置
centos7.0公布之后,就下载了everthing的DVD镜像.今天有时间,所以决定在vbox底下体验一番--- 上图: watermark/2/text/aHR0cDovL2Jsb2cuY3Nk ...
最简单的VScode Python 开发环境配置以及中文化
前置条件 Python 3.X(2020年了,建议使用Python3.X版本) 一.下载VSCode VSCode官方下载链接由于安装过程是中文界面,此处略过. 二.VSCode中文化不需要配置什 ...
基于Pycharm的Python开发环境配置
基于Pycharm的Python开发环境配置编辑于2020-11-18 Python安装双击桌面的Python3.x安装包. 勾选Add to path. 方便起见,选择Install now.下 ...
PyCharm Django Python 开发环境配置详细教程
PyCharm Django Python 开发环境配置详细教程 1. Python 下载及安装 (1)根据需要的版本去 Python 官网(https://www.python.org/downl ...
Selenium+Python的环境配置
因为项目的原因,最近较多的使用了UFT来进行自动化测试工作,半年没有使用Selenium了,于是在自己的电脑上重新配置了基于python3.x的selenium环境,配置过程大致如下: 1. Sele ...
windows下python+flask环境配置详细图文教程
本帖是本人在安装配置python和flask环境时所用到的资源下载及相关的教程进行了整理罗列,来方便后面的人员,省去搜索的时间.如果你在安装配置是存在问题可留言给我. 首先罗列一下python+fla ...
1.python+appium环境配置
环境部署本博客以32位的Windows 7操作系统为例介绍Appium+Python的环境搭建步骤 1.安装Node.js 访问 https://nodejs.org/en/download/,下载 ...

随机推荐

Django中的HttpResponse和JsonResponse
Django中的HttpResponse和JsonResponse 我们在编写一些借口函数的时候,经常需要给调用者返回json格式的数据,那么如何返回可直接解析的数据呢? 首先第一种方式: from ...
hexo next主题深度优化(四)，自定义一个share功能，share.js。
文章目录背景: 开始: 引入资源: 代码关键的一步附:方便学习的小demo 一次成功后还出现上面的bug 结束 2018.12.23发现bug(读者可忽略) 个人博客:https://mmmmm ...
C语言进阶学习第三章
以下记录动态内存分配: 1.malloc和free malloc和free分别用于执行动态内存分配和释放.这些函数维护一个可用内存池,当一个程序需要一些内存时,调用malloc函数,malloc从内存 ...
剑指offer——01数组中重复的数字
题目描述在一个长度为n的数组里的所有数字都在0到n-1的范围内. 数组中某些数字是重复的,但不知道有几个数字是重复的.也不知道每个数字重复几次.请找出数组中任意一个重复的数字. 例如,如果输入长度为 ...
高并发神器 Nginx，到底该怎么学？
Java技术栈 www.javastack.cn 优秀的Java技术公众号无论开发还是运维,工作上都会遇到性能优化.高并发的问题,而Nginx是一个万能药,它可以在百万并发连接下实现高吞吐量的 We ...
Markdown文档常用字体及颜色设置
1.字体.字号.颜色设置 <font face="微软雅黑" >微软雅黑字体</font> <font face="黑体" > ...
Python3 多进程编程 - 学习笔记
Python3 多进程编程(Multiprocess programming) 为什么使用多进程具体用法 Python多线程的通信进程对列Queue 生产者消费者问题 JoinableQueue ...
【洛谷】P1009阶乘之和
题目链接:https://www.luogu.org/problemnew/show/P1009 题意:给一个整数n(n<50),求$ \sum^{n}_{i=1} i! $ 题解:我..拿py ...
sys_call_table HOOK
sys_call_table 这个东西,其实和 Windows 下的 SSDT 表,在功能上完全相同. 前一阵子学Linux驱动,遇到了这个系统调用表,然后我就想到Windows的SSDT表,既然SS ...
《人件》读后感 PB16110698 第十周（~5.15）
在同组马同学的推荐下,我阅读了<人件>一书.在我看来,本书与之前读过的几本软工书籍相比,最大的特色就是地地道道的“以人为本”:不同于<人月神话><构建之法>等结合软 ...

python spark环境配置

python spark环境配置的更多相关文章

随机推荐

热门专题