CentOS7 安装spark集群】的更多相关文章

Spark版本 1.6.0 Scala版本 2.11.7 Zookeeper版本 3.4.7 配置虚拟机 3台虚拟机,sm,sd1,sd2 1. 关闭防火墙 systemctl stop firewalld systemctl stop firewalld 如果不关闭防火墙,需要为防火墙添加进站出站规则,否则无法访问spark的管理页面 2. 修改机器名 hostnamectl set-hostname sm 其他2台机器同上 3. 修改host vim /etc/hosts 4. 配置ssh免…
本文主要讲解如何在Linux环境下安装Spark集群,安装之前我们需要Linux已经安装了JDK和Scala,因为Spark集群依赖这些.下面就如何安装Spark进行讲解说明. 一.安装环境 操作系统:Red Hat Enterprise Linux 6 64 位(版本号6.6) JDK版本:1.8 Scala版本:2.12.2 Spark版本:2.2.0 172.18.3.135 主节点 172.18.3.136 从节点 172.18.3.137 从节点 之后的操作如果是用普通用户操作的话也必…
环境:CentOS 6.4, Hadoop 1.1.2, JDK 1.7, Spark 0.7.2, Scala 2.9.3 1. 安装 JDK 1.7 yum search openjdk-devel sudo yum install java-1.7.0-openjdk-devel.x86_64 /usr/sbin/alternatives --config java /usr/sbin/alternatives --config javac sudo vim /etc/profile #…
一.安装依赖软件Scala(所有节点) 1.下载Scala:http://www.scala-lang.org/files/archive/scala-2.10.4.tgz 2.解压: [root@Hadoop-NN-01 ~]# tar -xzvf scala-2.10.4.tgz -C /usr/local/ 3.配置scala环境变量 [root@Hadoop-NN-01 ~]# vim /etc/profile export SCALA_HOME=/usr/local/scala exp…
版本号: RedHat6.5   RHEL 6.5系统安装配置图解教程(rhel-server-6.5) JDK1.8      http://blog.csdn.net/chongxin1/article/details/68957808 Hadoop2.7.3   RedHat6.5上安装Hadoop集群 scala-2.11.8 spark-2.1.1-bin-hadoop2.7 1 安装Spark依赖的Scala Hadoop的安装请参考上面提到的博文,因为Spark依赖scala,所以…
继续接上一章,已安装好Hadoop集群环境 http://www.cnblogs.com/dopeter/p/4612232.html 在此基础上继续安装Hbase集群 Hbase版本为1.0.1.1 一. 安装与配置Hbase 1. 解压 tar -zxvf hbase-1.0.1.1-bin.tar.gz-C /opt 2. 配置 cd /opt/hbase-1.0.1.1/conf vi hbase-env.sh export JAVA_HOME=/usr/java/jdk1.8.0_45…
之前安装大数据组件都是一个一个手动安装的,最多弄一个脚本自动安装.手动安装麻烦不说,还没有可以监控集群的可视化界面,而且组件的稳定性也是个问题. 所以我们应该试一试HDP和CDH这种企业级的hadoop技术栈. CDH用的人最多,我本来想安装一个社区版的CDH,可惜社区版的官网打开之后样式乱了,根本没法儿看.所以我选择了HDP.HDP是完全免费的,而且基本上跟apache的hadoop保持同步.HDP使用ambari来安装,ambari虽然功能相对弱了一些,不过我感觉基本够用了.可以安装各种服务…
一.RabbiMQ简介 RabbiMQ是用Erang开发的,集群非常方便,因为Erlang天生就是一门分布式语言,但其本身并不支持负载均衡. RabbiMQ模式 RabbitMQ模式大概分为以下三种:(1)单一模式.(2)普通模式(默认的集群模式).(3) 镜像模式(把需要的队列做成镜像队列,存在于多个节点,属于RabbiMQ的HA方案,在对业务可靠性要求较高的场合中比较适用).要实现镜像模式,需要先搭建一个普通集群模式,在这个模式的基础上再配置镜像模式以实现高可用. RabbiMQ特点 Rab…
实验环境 RabbitMQ 集群 server1.example.com    IP: 10.10.10.11    Node: diskserver2.example.com    IP: 10.10.10.12    Node: diskserver3.example.com    IP: 10.10.10.13    Node: disk RabbitMQ相关端口 (epmd), (Erlang distribution) , (AMQP -- without and with TLS)…
先按照上一篇安装与配置好CentOS以及zookeeper http://www.cnblogs.com/dopeter/p/4609276.html 本章介绍在CentOS搭建Hadoop集群环境 一. 安装Hadoop 1. 解压文件 tar -zxvf hadoop-2.7.0-x64.tar.gz -C /opt #解压Hadoop 2. 编辑全局变量 vi /etc/profile 增加以下全局变量 export HADOOP_HOME=/opt/hadoop-2.7.0export…
1. 环境准备 JDK1.8 ZooKeeper集群(参见本人博文) Scala2.12(如果需要做scala开发的话,安装方法参见本人博文) 本次安装的kafka和zookeeper集群在同一套物理机器上, 192.168.1.101 192.168.1.102 192.168.1.103 2. 下载kafka 到kafka官网下载kafka,目前最新的版本是kafka_2.12-2.1.0.tgz,前面是scala版本号,后面是kafka版本号. wget http://mirror.bit…
集群安装之后,hdfs 不能上传文件,也提示rute等错误,其实是防火墙问题,关闭防火墙即可. CentOS 7.0默认使用的是firewall作为防火墙,这里改为iptables防火墙.firewall:systemctl start firewalld.service#启动firewallsystemctl stop firewalld.service#停止firewallsystemctl disable firewalld.service#禁止firewall开机启动 其次是ssh 配置…
以前经常用weblogic集群,但是却没有仔细想过要实现它.这不,前两天成功安装了weblogic集群,现在将其思路整理下.防止日后自己忘掉了. 一.安装weblogic10.3.6 1. 在官网下载需要的weblogic版本: 2. 安装(按照引导程序提示操作): ---->中间件主目录: ---->注册安全更新: ---->选择安装类型-->1.典型: ---->产品安装目录-->主目录: ---->将安装下列产品和JDK: ---->正在安装文件--&…
1.准备4台服务器 linux1 192.168.56.101 linux2 192.168.56.102 linux3 192.168.56.103 linux4 192.168.56.104 2.下载并解压Consul文件,拷贝到/usr/local/bin目录下 [root@linux1 ~]# wget https://releases.hashicorp.com/consul/0.8.1/consul_0.8.1_linux_amd64.zip?_ga=2.37003621.45412…
1. 集群架构 1.1 四种内部元数据 队列元数据.交换器元数据.绑定元数据.vhost元数据. 单一节点中:会将数据存储到内存,同时将持久化元数据保存到硬盘. 集群中: 存储到磁盘上.内存中. 集群中的队列:不是每一个rabbitmq节点都有所有队列的拷贝,集群只会在单个节点上创建完整信息. 1.2 .内存节点和磁盘节点 内存节点: 元数据定义都存储在内存中.内存节点有出色的性能. 磁盘节点: 元数据定义都存储在磁盘中(单节点服务器都是磁盘节点).磁盘节点能持久化信息. rabbitmq集群中…
https://blog.csdn.net/lihongtai/article/details/82826809…
data 创建myid  设置1 zookeeper默认端口2181  同步端口 20881 和 30881 设置zoo.cfg文件…
主要包括以下三部分,本文为第三部分: 一. Scala环境准备 查看二. Hadoop集群(伪分布模式)安装 查看三. Spark集群(standalone模式)安装 Spark集群(standalone模式)安装 若使用spark对本地文件进行测试学习,可以不用安装上面的hadoop环境,若要结合hdfs使用spark,则可以参考上面的步骤搭建hadoop. 1. 下载安装包并解压(如:~/tools/spark-2.3.1-bin-hadoop2.7): 2. 启动服务 a.启动master…
一.Spark概述 官网:http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎. 为大数据处理而设计的快速通用的计算引擎. Spark加州大学伯克利分校AMP实验室.不同于mapreduce的是一个Spark任务的中间结果保存到内存中. 空间换时间. Spark启用的是内存分布式数据集. 用scala语言实现,与spark紧密继承.用scala可以轻松的处理分布式数据集. Spark并不是为了替代hadoop,而为了补充hadoop. S…
Spark集群之yarn提交作业优化案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.启动Hadoop集群 1>.自定义批量管理脚本 [yinzhengjie@s101 ~]$ more `which xzk.sh` #!/bin/bash #@author :yinzhengjie #blog:http://www.cnblogs.com/yinzhengjie #EMAIL:y1053419035@qq.com #判断用户是否传参 ];then echo "无…
一.spark启动有standalong.yarn.cluster,具体的他们之间的区别这里不在赘述,请参考官网.本文采用的是standalong模式进行搭建及将接使用. 1.首先去官网下载需要的spark版本: http://spark.apache.org/downloads.html 本例使用的是spark-2.2.0-bin-hadoop2.7,hadoop使用的是2.7版本,spark是需要scala环境的,可以下载编译好的spark,这样就不需要自己在安装了. 同时使用了hive仓库…
首先准备3台电脑或虚拟机,分别是Master,Worker1,Worker2,安装操作系统(本文中使用CentOS7). 1.配置集群,以下步骤在Master机器上执行 1.1.关闭防火墙:systemctl stop firewalld.service 1.2.设置机器ip为静态ip 1.2.1.修改配置 cd /etc/sysconfig/network-scripts/ vim ifcfg-eno16777736 更改内容如下: BOOTPROTO=static #配置静态IP,网关,子网…
接上一篇:https://www.cnblogs.com/yjm0330/p/10077076.html 一.下载安装scala 1.官网下载 2.spar01和02都建立/opt/scala目录,解压tar -zxvf scala-2.12.8.tgz 3.配置环境变量 vi /etc/profile 增加一行 export    SCALA_HOME=/opt/scala/scala-2.12.8 同时把hadoop的环境变量增加进去,完整版是: export JAVA_HOME=/opt/…
生产环境下redis基本上都是用的集群,毕竟单机版随时都可能挂掉,风险太大.这里我就来搭建一个基本的redis集群,功能够用但是还需要完善,当然如果有钱可以去阿里云买云数据库Redis版的,那个还是很不错的. 一.redis概述 1.1.目前redis支持的cluster特性: 1):节点自动发现. 2):slave->master 选举,集群容错. 3):Hot resharding:在线分片. 4):进群管理:cluster xxx. 5):基于配置(nodes-port.conf)的集群管…
在spark安装之前,应该已经安装了hadoop原生版或者cdh,因为spark基本要基于hdfs来进行计算. 1. 下载 spark:  http://mirrors.cnnic.cn/apache//spark/spark-1.4.1/spark-1.4.1-bin-hadoop2.3.tgz scala:   http://downloads.typesafe.com/scala/2.10.5/scala-2.10.5.tgz?_ga=1.171364775.609435662.14416…
前言: CDH4不带yarn和spark, 因此需要自己搭建spark集群. 这边简单描述spark集群的安装过程, 并讲述spark的standalone模式, 以及对相关的脚本进行简单的分析. spark官网: http://spark.apache.org/downloads.html *)安装和部署 环境: 172.16.1.109~172.16.1.111三台机器(对应域名为tw-node109~tw-node111), centos6.4, 已部署cdh4 目标是: 搭建一个spar…
一.概述 关于Spark是什么.为什么学习Spark等等,在这就不说了,直接看这个:http://spark.apache.org, 我就直接说一下Spark的一些优势: 1.快 与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上.Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流. 2.易用 Spark支持Java.Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用.而且Sp…
使用docker安装部署Spark集群来训练CNN(含Python实例) http://blog.csdn.net/cyh_24/article/details/49683221 实验室有4台神服务器,每台有8个tesla-GPU,然而平时做实验都只使用了其中的一个GPU,实在暴遣天物! 于是想用Spark来把这些GPU都利用起来.听闻Docker是部署环境的神器,于是决定使用docker安装部署Spark集群来训练CNN.配置环境虽然简单,纯苦力活,但配过的人都知道,里面有太多坑了. 本文是博…
spark集群安装配置 一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点:但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,性能比Hadoop更快. 所以,相对来说Hadoop更适合做批处理,而Spark更适合做需要反复迭代的机器学习.下面是我在ubuntu1…
2017-07-05:修正几处拼写错误,之前没发现,抱歉! 第一次在cnblogs上发表文章,效果肯定不会好,希望各位多包涵. 编写这个文档的背景是月中的时候,部门老大希望我们能够抽时间学习一下Hadoop大数据方面的技术:给我的学习内容是通过Ambari安装Hadoop集群.通过一周左右的学习和实践,整理出现在这篇安装心得.第一篇,重点放在Ambari-Server的搭建安装上. 安装默认使用Root用户,避免权限问题导致不成功. 使用4台虚拟机构建Ambari-Server.Hadoop集群…