Hadoop记录-部署hadoop环境shell实现

#!/bin/bash menu() { echo "---欢迎使用hadoop部署管理程序---" echo "# 1.初始化Linux环境" echo "# 2.配置jdk" echo "# 3.配置ntpd时钟服务" echo "# 4.配置zookeeper环境" echo "# 5.配置hadoop环境" echo "# 6.退出程序" echo "…

一.环境准备 1.系统环境 CentOS 7 2.软件环境 OpenJDK # 查询可安装的OpenJDK软件包[root@server1] yum search java | grep jdk...# 选择1.8.0版本安装,包括运行环境(openjdk)和开发环境(openjdk-devel)[root@server1] -openjdk.x86_64 java--openjdk-devel.x86_64 SSH [root@server1] yum install -y ssh Hadoo…

Hadoop记录-Apache hadoop+spark集群部署

Hadoop+Spark集群部署指南 (多节点文件分发.集群操作建议salt/ansible) 1.集群规划节点名称主机名 IP地址操作系统Master centos1 192.168.0.1 CentOS 7.2Slave1 centos2 192.168.0.2 CentOS 7.2Slave2 centos2 192.168.0.3 Centos 7.22.基础环境配置2.1 hostname配置1)修改主机名在192.168.0.1 root用户下执行:hostnamectl set…

hadoop记录-浅析Hadoop中的DistCp和FastCopy（转载）

DistCp(Distributed Copy)是用于大规模集群内部或者集群之间的高性能拷贝工具. 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成. 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝. DistCp是Apache Hadoop自带的工具,目前存在两个版本,DistCp1和DistCp2,FastCopy是Facebook Hadoop中自带的,相比于Distcp,它能明显加快同节点数据拷贝速度,尤其是Hadoop 2.0稳定版(…

Hive记录-部署Hive环境

1.配置 hive1.2.0(前提要配置hadoop2.7.2,前面文档有介绍) #官网下载二进制包,解压到/usr/app 下,配置/etc/profile: export HIVE_HOME=/usr/app/hive export PATH=$PATH:$HIVE_HOME/bin #配置 hive/conf #hive-env.sh加入 export HADOOP_HEAPSIZE=1024 export HADOOP_HOME=/usr/app/hadoop export HIVE_C…

CentOS6.5 一键部署运行环境shell脚本

################################################## # CentOS6.5 # # initialize the Linux system to deploy lnmp # #…

Linux巩固记录（3） hadoop 2.7.4 环境搭建

由于要近期使用hadoop等进行相关任务执行,操作linux时候就多了以前只在linux上配置J2EE项目执行环境,无非配置下jdk,部署tomcat,再通过docker或者jenkins自动部署上去看下进程,复制粘贴删除等基本操作,很多东西久了不用就忘了,所有写个demo巩固下曾经的linux知识后续会有hadoop等主流的大数据相关环境的搭建及使用 ---------------------------------------------------------------------…

阿里云ECS服务器部署HADOOP集群（一）：Hadoop完全分布式集群环境搭建

准备: 两台配置CentOS 7.3的阿里云ECS服务器: hadoop-2.7.3.tar.gz安装包: jdk-8u77-linux-x64.tar.gz安装包: hostname及IP的配置: 更改主机名: 由于系统为CentOS 7,可以直接使用‘hostnamectl set-hostname 主机名’来修改,修改完毕后重新shell登录或者重启服务器即可. hostnamectl set-hostname master exit ssh root@master 1 hostnamec…

Hadoop环境搭建--Docker完全分布式部署Hadoop环境（菜鸟采坑吐血整理）

系统:Centos 7,内核版本3.10 本文介绍如何从0利用Docker搭建Hadoop环境,制作的镜像文件已经分享,也可以直接使用制作好的镜像文件. 一.宿主机准备工作 0.宿主机(Centos7)安装Java(非必须,这里是为了方便搭建用于调试的伪分布式环境) 1.宿主机安装Docker并启动Docker服务安装: yum install -y docker 启动: service docker start 二.制作Hadoop镜像 (本文制作的镜像文件已经上传,如果直接使用制作好的镜像…

通过Hadoop安全部署经验总结，开发出以下十大建议，以确保大型和复杂多样环境下的数据信息安全。

通过Hadoop安全部署经验总结,开发出以下十大建议,以确保大型和复杂多样环境下的数据信息安全. 1.先下手为强!在规划部署阶段就确定数据的隐私保护策略,最好是在将数据放入到Hadoop之前就确定好保护策略. 2.确定哪些数据属于企业的敏感数据.根据公司的隐私保护政策,以及相关的行业法规和政府规章来综合确定. 3.及时发现敏感数据是否暴露在外,或者是否导入到Hadoop中. 4.搜集信息并决定是否暴露出安全风险. 5.确定商业分析是否需要访问真实数据,或者确定是否可以使用这些敏感数据.然后,选择…

批量部署Hadoop集群环境（1）

批量部署Hadoop集群环境(1) 1. 项目简介: 前言:云火的一塌糊涂,加上自大二就跟随一位教授做大数据项目,所以很早就产生了兴趣,随着知识的积累,虚拟机已经不能满足了,这次在服务器上以生产环境来部署Hadoop.已经搭建完毕,分享出来供大家参考. 问题:看到Hadoop部署在一些资料上很是繁琐,一些简单的部署方法只是玩具,无法满足企业的部署条件,如果一台台服务器去部署,显然是不可行. 解决:在学习及其他资料后,准备以<Apache Hadoop Yarn: Moving Beyond Ma…

Windows 下部署 hadoop spark环境

一.先在本地安装jdk 我这里安装的jdk1.8,具体的安装过程这里不作赘述二.部署安装maven 下载maven安装包,并解压设置环境变量,MAVEN_HOME=D:\SoftWare\Maven\apache-maven-3.6.1 在path路径添加;%MAVEN_HOME%\bin 打开本地终端验证三.安装hadoop 先下载hadoop压缩包下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-2.6.0/ 下…

1.单机部署hadoop测试环境

之前看了很多理论上的知识,感觉云里雾里的,所以赶紧着手搭建个单机版的hadoop跑一跑,开启自学大数据技术的第一步~~ 1.在开源的世界里,我就是个土豪,要啥有啥,所以首先你得有个jdk,有钱所以用最新的java8,hadoop使用的是hadoop2.6.0. 2.配置好java后,可以在/etc/profile里配置好环境变量,方便之后使用,紧接着解压hadoop2.6.0.tar.gz. 3.接下来配置hadoop,所有的配置文件都在hadoop文件夹下的etc/hadoop中: (1)ha…

部署hadoop的开发环境

第一步:安装jdk 由于hadoop是java开发的,所以需要JDK来运行代码.这里安装的是jdk1.6. jdk的安装见http://www.cnblogs.com/tommyli/archive/2012/01/06/2314706.html 第二步:创建独立的用户 useradd hadoop passwd hadoop 有些机器不能设置空密码的时候 passwd -d hadoop 这里的用户名为hadoop,如果你要调试的时候要注意名字. 比如我用windows调试linux的集群,这…

Hadoop记录-hdfs转载

Hadoop 存档每个文件均按块存储,每个块的元数据存储在namenode的内存中,因此hadoop存储小文件会非常低效.因为大量的小文件会耗尽namenode中的大部分内存.但注意,存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多.例如,一个1MB的文件以大小为128MB的块存储,使用的是1MB的磁盘空间,而不是128MB. Hadoop存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少namenode内存使用的同时,允许对文件进行…

Hadoop记录-Hadoop NameNode 高可用 (High Availability) 实现解析

Hadoop NameNode 高可用 (High Availability) 实现解析 NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode 的单点问题尤为严重.因为 NameNode 保存了整个 HDFS 的元数据信息,一旦 NameNode 挂掉,整个 HDFS 就无法访问,同时 Hadoop 生态系统中依赖于 HDFS 的各个组件,包括 M…

Hadoop实战：Hadoop分布式集群部署（一）

一.系统参数优化配置 1.1 系统内核参数优化配置修改文件/etc/sysctl.conf,使用sysctl -p命令即时生效. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 kernel.shmmax = 500000000 kernel.shmmni = 4096 kernel.shmall = 4000000000 kernel.sem = 250 512000 100 2048 kernel.sysrq = 1 kernel.…

Zookeeper + Hadoop + Hbase部署备忘

网上类似的文章很多,本文只是记录下来备忘.本文分四大步骤: 准备工作.安装zookeeper.安装hadoop.安装hbase,下面分别详细介绍: 一准备工作 1. 下载 zookeeper.hadoop.hbase三个压缩包并放入/home/servers目录并解压 2. 安装JDK (略) 3. 统一集群计算机名本次用于测试一共5台,分别命名为release-master,slave1,slave2,slave3,slave4(可使用hostname slave1类似的命令临时修改) 4…

使用Ambari快速部署Hadoop大数据环境

使用Ambari快速部署Hadoop大数据环境发布于2013-5-24 前言做大数据相关的后端开发工作一年多来,随着Hadoop社区的不断发展,也在不断尝试新的东西,本文着重来讲解下Ambari,这个新的Apache的项目,旨在让大家能够方便快速的配置和部署Hadoop生态圈相关的组件的环境,并提供维护和监控的功能. 作为新手,我讲讲我自己的学习经历,刚刚开始学习的时候,当然最简单的 Google 下Hadoop ,然后下载相关的包,在自己的虚拟机(CentOS 6.3) 上安装一…

hadoop集群搭建--CentOS部署Hadoop服务

在了解了Hadoop的相关知识后,接下来就是Hadoop环境的搭建,搭建Hadoop环境是正式学习大数据的开始,接下来就开始搭建环境!我们用到环境为:VMware 12+CentOS6.4 hadoop安装步骤大纲: 1.准备硬件(一台虚拟主机) 2.虚拟机装linux系统(这里我们装的是CentOS) 3.准备网络连接 4.配置linux系统 5.安装jdk和hadoop 下面详细介绍环境的搭建: 1)准备linux环境运行 Vm ware安装目录的 vmnetcfg.exe 程序 ,…

Hadoop记录-Federation联邦机制

在Hadoop2.0之前,HDFS的单NameNode设计带来诸多问题: 单点故障.内存受限,制约集群扩展性和缺乏隔离机制(不同业务使用同一个NameNode导致业务相互影响)等为了解决这些问题,除了用基于共享存储的HA解决方案我们还可以用HDFS的Federation机制来解决这个问题. [单机namenode的瓶颈大约是在4000台集群,而后则需要使用联邦机制] 什么是Federation机制 Federation是指HDFS集群可使用多个独立的NameSpace(NameNode节点管…

Hadoop+HBase+Spark+Hive环境搭建

杨赟快跑简书作者 2018-09-24 10:24 打开App 摘要:大数据门槛较高,仅仅环境的搭建可能就要耗费我们大量的精力,本文总结了作者是如何搭建大数据环境的(单机版和集群版),希望能帮助学弟学妹们更快地走上大数据学习之路. 0. 准备安装包本文所需的系统镜像.大数据软件安装包.开发环境软件安装包等都可以在我的百度云盘中下载.链接:系统镜像和各种大数据软件密码:n2cn 1. Windows下安装Ubuntu双系统 Hadoop等大数据开源框架是不支持Windows系统的,所以需要先安…

Hadoop教程(五)Hadoop分布式集群部署安装

Hadoop教程(五)Hadoop分布式集群部署安装 1 Hadoop分布式集群部署安装在hadoop2.0中通常由两个NameNode组成,一个处于active状态,还有一个处于standby状态. Active NameNode对外提供服务,而Standby NameNode则不正确外提供服务,仅同步activenamenode的状态,以便可以在它失败时高速进行切换. hadoop2.0官方提供了两种HDFS HA的解决方式.一种是NFS,还有一种是QJM. 这里我们使用简单的QJM. 在…

【Hadoop】Hadoop HA 部署详细过程（架构、机器规划、配置文件、部署步骤）

1.概念.架构 2.配置文件示例.部署步骤 hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA.YARN等.最新的hadoop-2.4.1又增加了YARN HA 注意:apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库, 所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译 (建议第一次安装用32位的系统,我将编译好的64位的也上传到群共享里了,如果有兴趣的可以自己编译一下)…

Hadoop-01 搭建hadoop伪分布式运行环境

Linux中配置Hadoop运行环境程序清单 VMware Workstation 11.0.0 build-2305329 centos6.5 64bit jdk-7u80-linux-x64.rpm hadoop-2.6.0.tar.gz hbase-1.0.2-bin.tar.gz SSH(centos6.5 默认已安装) 创建Linux系统用户(伪分布式可直接使用root用户试验) root用户登录linux,密码同初始安装用户密码. 1.创建hadoop用户组 [root@local…

阿里云ECS服务器部署HADOOP集群（三）：ZooKeeper 完全分布式集群搭建

本篇将在阿里云ECS服务器部署HADOOP集群(一):Hadoop完全分布式集群环境搭建的基础上搭建,多添加了一个 datanode 节点 . 1 节点环境介绍: 1.1 环境介绍: 服务器:三台阿里云ECS服务器:master, slave1, slave2 操作系统:CentOS 7.3 Hadoop:hadoop-2.7.3.tar.gz Java: jdk-8u77-linux-x64.tar.gz ZooKeeper: zookeeper-3.4.14.tar.gz 1.2 各节点角色…

阿里云ECS服务器部署HADOOP集群（四）：Hive本地模式的安装

本篇将在阿里云ECS服务器部署HADOOP集群(一):Hadoop完全分布式集群环境搭建的基础上搭建. 本地模式需要采用MySQL数据库存储数据. 1 环境介绍一台阿里云ECS服务器:master 操作系统:CentOS 7.3 Hadoop:hadoop-2.7.3.tar.gz Java: jdk-8u77-linux-x64.tar.gz Hive:apache-hive-2.3.6-bin.tar.gz Mysql: Mysql 5.7 MySQL Connector-J:mysql-…

完全分布式部署Hadoop

完全分布式部署 Hadoop 分析: 1)准备 3 台客户机(关闭防火墙.静态 ip.主机名称) 2)安装 jdk 3)配置环境变量 4)安装 hadoop 5)配置环境变量 6)安装 ssh 7)配置集群 8)启动测试集群 scp 1)scp 可以实现服务器与服务器之间的数据拷贝. 2)案例实操 (1)将 hadoop101 中/opt/module 和/opt/software 文件拷贝到 hadoop102.hadoop103 和hadoop104 上. [root@hadoop101 /…

使用docker部署hadoop集群

最近要在公司里搭建一个hadoop测试集群,于是采用docker来快速部署hadoop集群. 0. 写在前面网上也已经有很多教程了,但是其中都有不少坑,在此记录一下自己安装的过程. 目标:使用docker搭建一个一主两从三台机器的hadoop2.7.7版本的集群准备: 首先要有一台内存8G以上的centos7机器,我用的是阿里云主机. 其次将jdk和hadoop包上传到服务器中. 我安装的是hadoop2.7.7.包给大家准备好了,链接:https://pan.baidu.com/s/15n…

Windows10系统下Hadoop和Hive开发环境搭建填坑指南

前提笔者目前需要搭建数据平台,发现了Windows系统下,Hadoop和Hive等组件的安装和运行存在大量的坑,而本着有坑必填的目标,笔者还是花了几个晚上的下班时候在多个互联网参考资料的帮助下完成了Windows10系统下Hadoop和Hive开发环境的搭建.这篇文章记录了整个搭建过程中的具体步骤.遇到的问题和对应的解决方案. 环境准备基于笔者的软件版本洁癖,所有选用的组件都会使用当前(2020-10-30)最高的版本. 软件版本备注 Windows 10 操作系统 JDK 8 暂时不要…