要想发挥Hadoop分布式.并行处理的优势,还须以分布式模式来部署运行Hadoop.单机模式是指Hadoop在单个节点上以单个进程的方式运行,伪分布模式是指在单个节点上运行NameNode.DataNode.JobTracker.TaskTracker.SeconderyNameNode5个进程,而分布式模式是指在不同节点上分别运行上述5个进程中的某几个,比如在某个节点上运行DataNode和TaskTracker. 前面几步和单机部署一样,可以参照Hadoop学习------Hadoop安装方…
Hadoop 默认模式为单机(非分布式模式),无需进行其他配置即可运行.非分布式即单 Java 进程,方便进行调试. 1.创建用户 1.1创建hadoop用户组和用户 一般我们不会经常使用root用户运行hadoop,所以需要创建一个平常运行和管理hadoop的用户; 有2种方式,选择任意一种即可 方法1:先创建hadoop用户组 (不同Linux系统命令不同) sudo groupadd(或者addgroup) hadoop 再创建hadoop用户 sudo useradd(或者 adduse…
这里为了方便直接将单机部署过的虚拟机直接克隆,当然也可以不这样做,一个个手工部署. 创建完整克隆——>下一步——>安装位置.等待一段时间即可. 我这边用了三台虚拟机,分别起名master,slave1.slave2 1.修改主机名.ip 1.1关闭防火墙 CentOS系统默认开启了防火墙,在开启 Hadoop 集群之前,需要关闭集群中每个节点的防火墙.有防火墙会导致 ping 得通但 telnet 端口不通,从而导致 DataNode 启动了,但 Live datanodes 为 0 的情况.…
sudo mv /home/common/下载/hadoop-2.7.2.tar.gz /usr/local sudo tar -xzvf hadoop-2.7.2.tar.gz sudo mv hadoop-2.7.2 hadoop #改个名 在etc/profile文件中添加 export HADOOP_HOME=/usr/local/hadoop export PATH=.:$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin  1.修改/usr/local/hado…
Hadoop生态圈 存储数据HDFS(Hadoop Distributed File System),运行在通用硬件上的分布式文件系统.具有高度容错性.高吞吐量的的特点. 处理数据MapReduce,它是一种编程模型,Map(映射)和Reduce(归约),它极大地方便了分布式并行编程,与hdfs的高度融合,它是基于java来进行编程的. 数据仓库工具Hive,处理结构化SQL查询功能,将sql语句解释为MapReduce编程进行数据的处理,只能进行结构化的查询. Pig MapReduce之上的…
JDK 在Ubuntu下的安装 与 环境变量的配置 前期准备工作: 找到  JDK 和 配置TXT文件  并拷贝到桌面下  不是目录 而是文件拷贝到桌面下 以下的命令部分就直接复制粘贴就能够了 1.配置root用户 使用快捷键 Ctrl + Alt + T  打开终端 输入命令:sudo passwd root 在须要输入password的地方 输入 123456  (注意 须要输入3次 每次输入的时候在屏幕上是不显示出来的) 2.启用root用户 在终端输入命令:su root 输入passw…
hdfs:分布式文件系统 有目录结构,顶层目录是:  /,存的是文件,把文件存入hdfs后,会把这个文件进行切块并且进行备份,切块大小和备份的数量有客户决定. 存文件的叫datanode,记录文件的切块信息的叫namenode Hdfs的安装 准备四台linux服务器 先在hdp-01上进行下面操作 配置域名映射 vim /etc/hosts 主机名:hdp-01  对应的ip地址:192.168.33.61 主机名:hdp-02  对应的ip地址:192.168.33.62 主机名:hdp-0…
Hbase Hbase的特点: Hbase是bigtable的开源的仿制版本 建立在HDFS之上 可靠性,靠性能 大:一个表可以有上亿行,上百万列 面向列:面向列(族)的存储和权限控制,列(族)独立检索. 稀疏:对于为空(null)的列,并不占用空间,因此,表可以设计的非常稀疏. 列存储 可伸缩 时间戳 不可修改数据 Hbase的检索: Row Key访问: 通过单个row key访问 通过row key的range 全表扫描 Row key行健(Row key)可以是任意字符串(最大长度是63…
MapReduce的原理 MapReduce的原理 NameNode:存放文件的元数据信息 DataNode:存放文件的具体内容 ResourceManager:资源管理,管理内存.CPU等 NodeManager:被ResourceManager管理,管理各个节点的资源 ApplicationMaster:管理要运行的程序 Container:运行第三方程序 MapReduce处理过程:…
一.Hadoop原理介绍 1.请参考原理篇:Hadoop1-认识Hadoop大数据处理架构 二.centos7单机部署hadoop 前期准备 1.创建用户 [root@web3 ~]# useradd -m hadoop -s /bin/bash #---创建hadoop用户 [root@web3 ~]# passwd hadoop #---创建密码 Changing password for user hadoop. New password: BAD PASSWORD: The passwo…