准备工作:

  1.安装VMware Workstation Pro

  2.新建三个虚拟机,安装centOS7.0 版本不限

配置工作:

1.准备三台服务器(nameNode10、dataNode20、dataNode30)
2.配置三台机器网络ip分别为(192.168.18.10、192.168.18.20、192.168.18.30)
  2.1 进入/etc/sysconfig/network-scripts 修改 ifcfg-ens33 文件,定义网卡 信息如下,三台机器都要配置
    ONBOOT=yes
    IPADDR=192.168.18.30
    GATEWAY=192.168.18.2
    DNS1=114.114.114.114
  2.2网卡验证

     执行命令:ping 192.168.18.30

  2.3配置hosts域名 文件位置:/etc/hosts

    nameNode10.com、dataNode20.com、dataNode30.com
3.安装jdk (三台机器都要配置)
  3.1下载jdk安装包
  3.2安装并配置环境变量
  3.3生效 source profile
  3.4验证:java -version
4.安装Hadoop(三台机器都要配置)
  4.1下载hadoop安装包
  4.2安装并配置环境变量
  4.3生效 source profile
  4.3验证:hadoop version
5.配置免密登录(三台机器都要配置)
  5.1 配置免密
    方法一:
    1)分别在四台机器上执行 ssh-keygen 一直按回车

    2)。分别在四台机器上执行 ssh-coyp-id "目标机器" 命令
    比如:
    在nameNode10机器上分别执行
    ssh-copy-id dataNode20.com
    ssh-copy-id dataNode30.com
    在nameNode20机器上分别执行------
    ssh-copy-id nameNode10.com
    ssh-copy-id dateNode30.com
    依次类推
    方法二(推荐):
    1)检查是否安装了ssh相关软件包(openssh-server + openssh-clients + openssh)
    $yum list installed | grep ssh

    2)检查是否启动了sshd进程
    $>ps -Af | grep sshd

    3)在client侧生成公私秘钥对。
     $>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

    4)生成~/.ssh文件夹,里面有id_rsa(私钥) + id_rsa.pub(公钥)

    5)追加公钥到~/.ssh/authorized_keys文件中(文件名、位置固定)
    $>cd ~/.ssh
    $>cat id_rsa.pub >> authorized_keys

    6)修改authorized_keys的权限为644.
    $>chmod 644 authorized_keys
    7)在每台机器上发送至目标机器并执行 
    dataNode20.com===> root@nameNode10.com
    dataNode20.com===>ssh-copy-id -i ~/.ssh/id_rsa.pub root@nameNode30.com
    依次类推
  5.2验证方法
    在当前服务器下(nameNode10.com),执行ssh nameNode10.com 会自动进入dataNode20.com 服务器

6.配置core-site.xml 指明nameNode节点
   <configuration>
    <property>
    <name>fs.defaultFS</name>
    <value>hdfs://nameNode10.com:8020</value>
    </property>
    <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/data/tmp</value>
    </property>
  </configuration>
7.配置hdfs-site.xml 指明复制个数
  <configuration>
    <property>
    <name>dfs.replication</name>
    <value>1</value>
    </property>
  </configuration>
8.修改hadoop/etc/hadoop/hadoop-env.sh 指定jdk地址
  exoprt JAVA_HOME=/opt/jdk
9.配置dataNode节点  vim /hadoop/etc/hadoop/slaves 文件 (高版本需要路径hadoop/etc/hadoop/workers)
  dataNode20.com
  dataNode30.com
10.格式化nameNode
  hadoop namenode -format
11. 在start-dfs.sh stop-dfs.sh配置权限
  HDFS_DATANODE_USER=root
  HADOOP_SECURE_DN_USER=hdfs
  HDFS_NAMENODE_USER=root
  HDFS_SECONDARYNAMENODE_USER=root
  HDFS_JOURNALNODE_USER=root
  HDFS_ZKFC_USER=root
12.关闭防火墙
  systemctl stop firewalld.service
  systemctl disable firewalld.service
   firewall-cmd --state
13.启动 ./start-dfs.sh 并上传文件测试:hdfs dfs -put /local/txt /test

查看各控制台
namenode控制台
http://nameNode10.com:9870

hdfs dfs -ls /
hdfs dfs -mkdir /test
hdfs dfs -put /local/txt /test
hdfs dfs -cat /test/txt
....
提交hadoop任务
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar wordcount /input/wc.input /output

Hadoop入门学习笔记-第一天 (HDFS:分布式存储系统简单集群)的更多相关文章

  1. Hadoop入门学习笔记---part3

    2015年元旦,好好学习,天天向上.良好的开端是成功的一半,任何学习都不能中断,只有坚持才会出结果.继续学习Hadoop.冰冻三尺,非一日之寒! 经过Hadoop的伪分布集群环境的搭建,基本对Hado ...

  2. Hadoop入门学习笔记---part1

    随着毕业设计的进行,大学四年正式进入尾声.任你玩四年的大学的最后一次作业最后在激烈的选题中尘埃落定.无论选择了怎样的选题,无论最后的结果是怎样的,对于大学里面的这最后一份作业,也希望自己能够尽心尽力, ...

  3. Hadoop入门学习笔记---part4

    紧接着<Hadoop入门学习笔记---part3>中的继续了解如何用java在程序中操作HDFS. 众所周知,对文件的操作无非是创建,查看,下载,删除.下面我们就开始应用java程序进行操 ...

  4. Hadoop入门学习笔记---part2

    在<Hadoop入门学习笔记---part1>中感觉自己虽然总结的比较详细,但是始终感觉有点凌乱.不够系统化,不够简洁.经过自己的推敲和总结,现在在此处概括性的总结一下,认为在准备搭建ha ...

  5. Hadoop入门学习笔记-第二天 (HDFS:NodeName高可用集群配置)

    说明:hdfs:nn单点故障,压力过大,内存受限,扩展受阻.hdfs ha :主备切换方式解决单点故障hdfs Federation联邦:解决鸭梨过大.支持水平扩展,每个nn分管一部分目录,所有nn共 ...

  6. Hadoop入门学习笔记总结系列文章导航

    一.为何要学习Hadoop? 这是一个信息爆炸的时代.经过数十年的积累,很多企业都聚集了大量的数据.这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急.但数据增长 ...

  7. Hadoop入门学习笔记(一)

    Week2 学习笔记 Hadoop核心组件 Hadoop HDFS(分布式文件存储系统):解决海量数据存储 Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度 Hadoop Map ...

  8. Hadoop入门学习笔记之一

    http://hadoop.apache.org/docs/r1.2.1/api/index.html 适当的利用 null 在map中可以实现对文件的简单处理,如排序,和分集合输出等. 需要关心的内 ...

  9. Hadoop入门学习笔记-第三天(Yarn高可用集群配置及计算案例)

    什么是mapreduce 首先让我们来重温一下 hadoop 的四大组件:HDFS:分布式存储系统MapReduce:分布式计算系统YARN: hadoop 的资源调度系统Common: 以上三大组件 ...

随机推荐

  1. 聊聊Disruptor 和 Aeron 这两个开源库

    Disruptor The best way to understand what the Disruptor is, is to compare it to something well under ...

  2. 【Java】Junit单元测试

    什么是单元测试? 单元测试(unit testing),是指对软件中的最小可测试单元进行检查和验证. 对于单元测试中单元的含义,一般来说,要根据实际情况去判定其具体含义,如C语言中单元指一个函数,Ja ...

  3. XFS文件系统的备份与恢复

    永久修改主机名:hostnamectl set-hostname oldboy临时修改主机名:hostname xfsdump备份xfsdump -f 备份的文件位置 要备份的分区或者磁盘 免交互备份 ...

  4. Hadoop权威指南(中文版-带目录索引)pdf电子书

      Hadoop权威指南(中文版-带目录索引)pdf电子书下载地址:百度网盘点击下载:链接:https://pan.baidu.com/s/1E-8eLaaqTCkKESNPDqq0jw 提取码:g6 ...

  5. stand up meeting 11/16/2015

    第一周,熟悉任务中~ 大致写下一天的工作: 冯晓云:熟悉bing接口,本意是调在线的必应词典API,参阅了大量C#调用API开发.net的工作,[约莫是因为有个窗口互动性更强,所以这样的工作更有趣,也 ...

  6. 引用传参与reference_wrapper

    本文是<functional>系列的第3篇. 引用传参 我有一个函数: void modify(int& i) { ++i; } 因为参数类型是int&,所以函数能够修改传 ...

  7. CVE-2019-0193 Apache solr velocity模块漏洞

    Solr简单介绍 Solr是建立在Apache Lucene ™之上的一个流行.快速.开放源代码的企业搜索平台. Solr具有高度的可靠性,可伸缩性和容错能力,可提供分布式索引,复制和负载平衡查询,自 ...

  8. [数据库]Mysql蠕虫复制增加数据

    将查询出来的数据插入到指定表中,例: 将查询user表数据添加到user表中,数据会成倍增加 insert into user(uname,pwd) select uname,pwd from use ...

  9. redis: Set集合类型(五)

    Set里面的值是不能重复的 Set设置值(头部):sadd myset hello Set获取值:smembers myset 检查Set是否包含某个元素:sismember myset hello ...

  10. 白话理解https

    为什么需要加密? 因为http的内容是明文传输的,传输过程有可能被劫持或被篡改(中间人攻击),如何解决? 当然是加密.最简单的方式就是对称加密(快). 对称机密 就是一个密钥,可以理解为一把钥匙,我们 ...