1 下载准备

  • 下载hadoop,官网用一个快一点的镜像,使用迅雷加速下载,二进制格式,解压目录:E:\hadoop\hadoop-2.9.2
  • 下载winutils,这个是别人编译好的hadoop的windows版本二进制文件,选择对应版本覆盖安装目录下对应目录
  • 下载jdk

2 配置环境变量

  • 添加环境变量HADOOP_HOME,E:\hadoop\hadoop-2.9.2;JAVA_HOME,E:\Java\jdk1.8.0_231
  • 在系统Path环境变量中添加,%HADOOP_HOME%\bin,%HADOOP_HOME%\sbin,%JAVA_HOME%\bin,%HADOOP_HOME%\jre\bin

注意:hadoop必须要和Java JDK在同一个盘下,否则找不到JAVA_HOME。可以将JDK拷贝到hadoop所在盘并修改JAVA_HOME

3 cmd下测试

  • hadoop versioin
  • java -version

4 hadoop 基本文件配置

在安装目录\etc\hadoop下的四个xml文件 core-site.xml / hdfs-site.xml / mapred-site.xml / yarn-site.xml

注意:(没有mapred xml将mapred-site.xml.template去掉.template后缀变成xml)

注意使用utf-8编码保存,notepad++

  • core-site.xml
<configuration>
<!-- 指定namenode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property> <!-- 指定使用hadoop时产生文件的存放目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/E:/hadoop/hadoop-2.10.0/tmp</value>
</property> <!-- 设置检查点备份日志的最长时间 -->
<property>
<name>fs.checkpoint.period</name>
<value>3600</value>
</property>
</configuration>
  • hdfs-site.xml
<configuration>
<!-- 指定hdfs保存数据的副本数量 -->
<property>
<name>dfs.replication</name>
<value>2</value>
</property> <!-- 指定hdfs中namenode的存储位置 -->
<property>
<name>dfs.namenode.name.dir</name>
<value>/E:/hadoop/hadoop-2.9.2/tmp/dfs/namenode</value>
</property> <!-- 指定hdfs中datanode的存储位置 -->
<property>
<name>dfs.datanode.data.dir</name>
<value>/E:/hadoop/hadoop-2.9.2/tmp/dfs/datanode</value>
</property>
</configuration>
  • mapred-site.xml
<configuration>
<!-- 告诉hadoop以后MR运行在yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
  • yarn-site.xml
<configuration>

<!-- Site specific YARN configuration properties -->
<!-- namenodeManager获取数据的方式是shuffle -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property> <property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<!-- yarn打印工作日志 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
</configuration>

注意: 设置一下参数后resourcemanager无法启动,待解决

<!-- 指定yarn的老大(ResourceManager)的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>

5 测试是否搭建成功

  • 格式化系统文件,cmd下,hdfs namenode -format(如果没有添加bin到path,也可以cd到安装目录下的bin)
  • 启动hadoop(如果没有添加sbin到path,也可以cd到安装目录下的sbin)

6 测试hadoop自带的demo,计算单词数量

  • 创建一个txt文件test.txt
  • 在dfs创建一个文件夹,hadoop fs -mkdir /test
  • 将文本文件上传到dfs,hadoop fs -put 文件目录\test.txt /test/input
  • 查看:hadoop fs -ls 目录
  • hadoop jar jar包路径 /test/input /test/output

https://blog.csdn.net/Ryan_92/article/details/81319134

  • jps,显示所有当前java进程pid的命令

win7下安装Hadoop的更多相关文章

  1. CentOS下安装hadoop

    CentOS下安装hadoop 用户配置 添加用户 adduser hadoop passwd hadoop 权限配置 chmod u+w /etc/sudoers vi /etc/sudoers 在 ...

  2. WIN7下安装visualC++2008 redistributable 出现1935错误的解决办法(转自)

    转自:http://zhidao.baidu.com/link?url=jylNh_JeANi4wrOMmd4d2i06e_N3QCw7z6BLGiNNNTu1Hc6ADTkUq2PORExKmjtk ...

  3. Win7下安装Centos7

    win7下安装Centos同一块硬盘时:win启动项没有,使用pe进行修复,之后用easybcd进行centos启动项修复,grub2,自动搜索两块硬盘时:不要动启动项,bios选启动的硬盘即可 li ...

  4. 64位Win7下安装与配置PHP环境【Apache+PHP+MySQL】

    [软件下载] 本安装实例所使用安装文件如图所示: 其中,64位版本的MySQL安装文件mysql-5.5.33-winx64.msi,可直接从官网下载,下载地址:http://dev.mysql.co ...

  5. Win7下安装依赖lxml的python插件

    博主python菜鸟,本想在win7下安装一个pyquery玩玩爬虫,折腾了好几天终于搞好了,发现python这坑不是一般的深啊. 有一部分没有截图,请谅解 python版本3.4 1.下载easy_ ...

  6. win7下安装MYSQL报错:"MYSQL 服务无法启动"的3534问题

    上午在win7下安装MYSQL,只到“net start mysql”这一步报错:3534的错误: 于是在百度中搜索关键字“mysql服务无法启动3534”. 参考以下两个链接中的方法,解决了3534 ...

  7. win7下安装 WINDRIVER.TORNADO.V2.2.FOR.ARM

    [风河VxWorks].WINDRIVER.TORNADO.V2.2.FOR.ARM下载 http://115.com/file/dlfo8zpy http://115.com/file/c4r01l ...

  8. win7 下安装oracle 10g

    oracle 10g 在win7下安装,提示程序异常终止,发生未知错误 在网上搜结果: 修改Oracle 10G\database\stage\prereq\db\refhost.xml 在 < ...

  9. (转)NoSQL——Redis在win7下安装配置的学习一

    NoSQL——Redis在win7下安装配置的学习一   有些也是从网上看来的 1.下载安装 Redis它没有windows的官方版本,但是又非官方的版本,到官网上去下载相应的版本,我的电脑是win7 ...

随机推荐

  1. 多线程-停止线程方式-Interrupt

    1 package multithread4; 2 /* 3 * 停止线程: 4 * 1,stop方法. 5 * 6 * 2,run方法结束. 7 * 8 * 怎么控制线程的任务结束呢? 9 * 任务 ...

  2. 3 Ways to Learn Whether a Windows Program is 64-bit or 32-bit

    More than 90% of Windows 8.1 installations are 64-bit and, as a result, more and more people use 64- ...

  3. SAP下载报表速度慢?为啥你不试试python多线程

    由于SAP系统自身原因,或者公司内部ABAP代码的算法效率不高,我们经常遇到,手工执行某个事务代码下载某个报表会非常耗时,小爬曾见过公司某个自开发的报表,单家公司的数据下载超过半小时.如果我们刚好接到 ...

  4. 回顾 Flutter 2021 重要时刻,奉上虎年红包封面喜迎新年!

    2021 年,Flutter 正式进入 2.x 系列的正式版发布,年初的 Flutter 2 的发布 打开了一个新的"格局",为 Flutter 的加入了第五大特色--「可移植性」 ...

  5. 理解java线程的中断(interrupt)

    一个线程在未正常结束之前, 被强制终止是很危险的事情. 因为它可能带来完全预料不到的严重后果比如会带着自己所持有的锁而永远的休眠,迟迟不归还锁等. 所以你看到Thread.suspend, Threa ...

  6. Redis实现延迟对列

    一.应用场景: 订单超过 30 分钟未支付,则自动取消. 外卖商家超时未接单,则自动取消. 医生抢单电话点诊,超过 30 分钟未打电话,则自动退款.等等场景都可以用定时任务去轮询实现,但是当数据量过大 ...

  7. Mysql 返回JSON值属性的函数 (五)

    本节中的函数返回JSON值的属性. JSON_DEPTH(json_doc) 返回JSON文档的最大深度.NULL如果参数为,则 返回 NULL.如果参数不是有效的JSON文档,则会发生错误. 一个空 ...

  8. ListIterator特有的方法

    import java.util.ArrayList; import java.util.List; import java.util.ListIterator; /* 迭代 listIterator ...

  9. Python编程知识

    继承->重写 class A(object): def __init__(self): print("super(B,self).__init__():运行A:init") ...

  10. 【CF792E】Colored Balls(数论分块)

    题目链接 大意 有\(N\)种颜色的球,第\(i\)种球有\(Ai\)个,要求把球分成几个集合,使得: 一个集合里的球只能有一种颜色. 任意两个集合的球的数量相差不能超过1. 求这些球至少需要分几个集 ...