一.安装说明 CM是由cloudera公司提供的大数据组件自动部署和监控管理工具,相应的和CDH是cloudera公司在开源的hadoop社区版的基础上做了商业化的封装的大数据平台. 采用离线安装模式,虽然在线安装比较简单,但是速度感人,原因大家都懂,这里我使用的各软件版本信息为: 操作系统:CentOS6.8 CDH版本:5.7.1:CDH-5.7.1-1.cdh5.7.1.p0.11-el5.parcel.sha CDH-5.7.1-1.cdh5.7.1.p0.11-el6.parcel m…
版本要求 java 版本:1.8.*(1.8.0_60) 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html scala 版本:2.11.*(2.11.8) 下载地址:http://www.scala-lang.org/download/2.11.8.html zookeeper 版本:3.4.*(zookeeper-3.4.8) 下载地址:http://mirrors.…
大数据平台搭建(hadoop+spark) 一.基本信息 1. 服务器基本信息 主机名 ip地址 安装服务 spark-master 172.16.200.81 jdk.hadoop.spark.scala spark-slave01 172.16.200.82 jdk.hadoop.spark spark-slave02 172.16.200.83 jdk.hadoop.spark spark-slave03 172.16.200.84 jdk.hadoop.spark 2. 软件基本信息 软…
一.概述 Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”),基于Web的用户界面,支持大多数Hadoop组件,包括HDFS.MapReduce.Hive.Pig. Hbase.Zookeeper.Sqoop,简化了大数据平台的安装.使用难度. 二.安装部署 | 序号 | IP地址 | 主机名 |系统版本| | -------- | -------- | -------- | | 1 | 172.20.2.222…
一.概述 Apache Ambari是一个基于Web的支持Apache Hadoop集群的供应.管理和监控的开源工具,Ambari已支持大多数Hadoop组件,包括HDFS.MapReduce.Hive.Pig. Hbase.Zookeeper.Sqoop和Hcatalog等.提供Web UI进行可视化的集群管理,简化了大数据平台的安装.使用难度. 二.安装部署 2.1 主机规划 | 序号 | IP地址 | 主机名 |系统版本| | -------- | -------- | --------…
本系列文章主要阐述大数据计算平台相关框架的搭建,包括如下内容: 基础环境安装 zookeeper集群的搭建 kafka集群的搭建 hadoop/hbase集群的搭建 spark集群的搭建 flink集群的搭建 elasticsearch集群的搭建 alluxio集群的搭建 1.zookeeper简介 Zookeeper是一个分布式的.开源的分布式应用协调服务,它暴露了一组简单的基础原件,分布式应用可以在这些原件之上实现更高级别的服务,主要使用场景和功能如下: Naming service Con…
本系列文章主要阐述大数据计算平台相关框架的搭建,包括如下内容: 基础环境安装 zookeeper集群的搭建 kafka集群的搭建 hadoop/hbase集群的搭建 spark集群的搭建 flink集群的搭建 elasticsearch集群的搭建 alluxio集群的搭建 1.kafak简介 Kafka是一个分布式.分区的.多副本的.多订阅者的消息队列,以高吞吐量著称,主要用于实时数据的传输和处理,总体架构如下 更多内容请阅读官网 http://kafka.apache.org/document…
To construct big data distributed platform based on Hadoop is a common method. Hadoop comes fron Google File System  and is its open source realization. Here list the references for studying big data technology, especially on Hadoop. 基于Hadoop进行大数据分布式…
一.前言 由于线下测试的需要,需要在公司线下(测试)环境搭建大数据集群. 那么CDH是什么? hadoop是一个开源项目,所以很多公司再这个基础上进行商业化,不收费的hadoop版本主要有三个,分别是: (1)Apache,最原始的版本,所有发行版均基于这个版本进行改进 缺点:版本部署混乱,部署过程繁杂,升级过程繁杂,兼容性差,安全性差 (2)CDH版本,在Apache基础上,进行了封装,处理了不同版本的兼容问题.有用户管理界面 (3)Hotnowork版本. 由于公司测试环境的内存有限(8G)…
环境:CentOS 7.4 (1708  DVD) 工具:VMware.MobaXterm 一. 克隆大数据集群 1. 选中已经进行了基本配置的虚拟机,进行克隆. 2. 此处改为"创建完整克隆". 3. 克隆三台完全相同的虚拟机,分别命名为master.slave1.slave2. 二. 网络配置 1. 修改三台虚拟机的网络配置,使IP地址位于同一网段且互不冲突(直接修改IPADDR的值即可).重启网络服务使配置生效. 2. 三台虚拟机互相ping以测试配置是否生效,均能ping通说明…