Hadoop（学习·2）

Hadoop

操作步骤：

192.168.1.110-113 主机名分别为 nn01(zhuji) node1 node2 node3 个个主机之间要免密互通/etc/host

1. 安装openjdk-devel

# yum -y install java-1.8.0-openjdk-devel

# yum -y install java-1.8.0-openjdk.x86_64

2. 修改配置文件

# vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh

ExportJAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.131-11.b12.el7.x86_64/jre"

export HADOOP_CONF_DIR=${HADOOP_CONF_DIR:-"/usr/local/hadoop/etc/hadoop"}

修改这两行给配置路径

3. 把hadoop包发送到管理机nn01

# mv hadoop /usr/local/hadoop

# cd /usr/local/hadoop/etc/hadoop/

# vim slaves

Node1

Node2

Node3

# core-site.xml

vim<name>fs.defaultFS</name>

</property>

<name>hadoop.tmp.dir</name>

<value>/var/hadoop</value>

</property>

</configuration>

# for i in 192.168.1.11{1..3}; do ssh $i mkdir /var/hadoop; done

# vim hdfs-site.xml

<name>namenode.http-address</name>

</property>

<name>dfs.namenode.secondary.http-address</name>

</property>

<name>dfs.replication</name>

</property>

</configuration>

4. 上述配置文件中的如<name>dfs.namenode.secondary.http-address</name>中间这些可以在登录dahoop.hapache.org复制

以上可以登录hadoop.apache.org

然后在左下角找与自己安装最近的版本然后

在左下角最下面

然后把hadoop整个文件都发送到其他的节点node1 node2 node3

# for i in 192.168.1.11{1..3}; do scp -r /usr/local/hadoop/ $i:/usr/local/; done

# ./bin/hdfs namenode -format

# ./sbin/start-dfs.sh

# jps

# vim /usr/local/hadoop/etc/hadoop/mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

# vim yarn-site.xml

<name>yarn.resourcemanager.hostname</name>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

# cd /usr/local/hadoop

# ./sbin/start-yarn.sh 重启

# ./bin/yarn node -list

# http://192.168.1.110:50070

# http://192.168.1.110:50090

# http://192.168.1.110:8088

# http://192.168.1.111:50075

# http://192.168.1.111:8042

5. 成功可以看网页就算为成功

# ./bin/hadoop fs -ls / 查看【集群】文件系统的/情况

ls / 查看【本地】文件系统的/ 情况

# ./bin/hadoop fs -mkdir /oo 在【集群】文件系统创建文件夹

mkdir /oo 在【本地】文件系统创建文件夹

# ./bin/hadoop fs -put 上传到集群文件系统

# ./bin/hadoop fs *.txt -put /oo

# ./bin/hadoop fs -ls /

# ./bin/hadoop fs -get 下载到本地文件系统

调用集群分析

# ./bin/hadoop jar

share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount /oo /xx

# ./bin/hadoop fs -cat /xx/*

安装两台机器。禁用selinux，卸载firewalld

192.168.1.115 》 nsfgw

192.168.1.120 》 client

注意：Nfsgw配置/etc/hosts 需要把nn01主机的/etc/hosts

在nn01与nfsgw添加用户nsd1802（uid giu都要一样）

1. 停止hadoop集群/usr/local/hadoop/sbin/stop-all.sh

在nn01主机上配置vim core-site.xml

<name>hadoop.proxyuser.nsd1802.groups</name>

</property>

<name>hadoop.proxyuser.nsd1802.hosts</name>

</property>

2. 同步配置到node1 node2 node3 重新启动

在nn01机发送/usr/local/hadoop给nfsgw主机

在主机nfsgw

# rm -rf /usr/local/hadoop/logs

# mkdir /usr/local/hadoop/logs

# setfacl -m usr:nsd1802:rwx logs

在nfsgw主机

# yum -y install java-1.8.0-openjdk-devel

# yum -y install java-1.8.0-openjdk.x86_64

# vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml

<property><name>nfs.exports.allowed.hosts</name>

</property>

<name>dfs.namenode.accesstime.precision</name>

</property>

<value>/var/nfstemp</value>

</property>

<name>nfs.rtmax</name>

</property>

<name>nfs.wtmax</name>

</property>

<name>nfs.port.monitoring.disabled</name>

<value>false</value>

</property>

</configuration>

3. 创建/var/hadoop

创建/var/nfstemp

# chown nsd1802:users /var/nfstemp

# yum remove rpcbind nfs-utils

# /usr/local/hadoop/sbin/hadoop-daemon.sh --script ./bin/hdfs start portmap

# su -l nsd1802

# /usr/local/hadoop/sbin/hadoop-daemon.sh --script ./bin/hdfs start nfs3

# jps

1141 Nfs3

1047 Portmap

1327 Jps

4. 在client的机

# yum -y install nfs-utilsmount -t nfs -o

# mount -t nfs -o vers=3,proto=tcp,nolock,noacl,noatime,sync 192.168.1.115:/ /mnt/

zookeeper

• Zookeeper 实验

– 搭建 zookeeper 集群知

– 添加 observer

– 查找 leader

– 模拟 leader 故障

– 模拟 follower 故障

– 故障恢复

kafka集群

• kafka是什么?

– Kafka是由LinkedIn开发的一个分布式的消息系统

– kafka是使用Scala编写

– kafka是一种消息中间件

• 为什么要使用 kafka

– 解耦、冗余、提高扩展性、缓冲

– 保证顺序,灵活,削峰填谷

– 异步通信

kafka集群

• kafka 角色不集群结构

– producer:生产者,负责发布消息

– consumer:消费者,负责读取处理消息

– topic:消息的类别

– Parition:每个Topic包含一个戒多个Partition.

– Broker:Kafka集群包含一个戒多个服务器

– Kafka通过Zookeeper管理集群配置,选丼leader

l kafka集群

• kafka 角色不集群结构

l kafka集群

• kafka 集群的安装配置

– kafka 集群的安装配置是依赖 zookeeper 的 , 搭建kafka 集群乊前,首先请创建好一个可用 zookeeper集群

– 安装 openjdk 运行环境

– 分发 kafka 拷贝到所有集群主机kafka集群

• kafka 集群的安装配置

• server.properties

– broker.id

– 每台服务器的broker.id都丌能相同

– zookeeper.connect

– zookeeper 集群地址,丌用都列出,写一部分即可

– 修改配置文件

– 吭劢不验证

• kafka 集群的安装配置

– 在所有主机吭劢服务

– /usr/local/kafka/bin/kafka-server-start.sh

-daemon /usr/local/kafka/config/server.properties

– 验证

– jps 命令应该能看到 kafka 模块

– netstat 应该能看到 9092 在监听

l kafka集群

• 集群验证不消息发布

– 创建一个 topic

./bin/kafka-topics.sh --create --partitions 2 --replication-

factor 2 --zookeeper node3:2181 --topic mymsg

– 查看已经存在的 topic

./bin/kafka-topics.sh --list --zookeeper node2:2181

– 查看刚刚创建的 topic

./bin/kafka-topics.sh --describe --zookeeper node1:2181 --topic mymsg

l kafka集群

• 集群验证不消息发布

– 在两个终端里面,生产者发布消息,消费者读取消息

– 生产者

./bin/kafka-console-producer.sh --broker-list master:9092,node1:9092 --topic mymsg

– 消费者

./bin/kafka-console-consumer.sh --bootstrap-server node2:9092,node3:9092 --topic mymsg

– --from-beginning 表示从开始读取消息

l kafka集群实验

• 利用 zookeeper 搭建一个 kafka 集群

• 创建一个 topic

• 查看系统 topic 情冴

• 模拟生产者发布消息

• 模拟消费者接收消息

Hadoop（学习·2）的更多相关文章

Hadoop学习之旅二：HDFS
本文基于Hadoop1.X 概述分布式文件系统主要用来解决如下几个问题: 读写大文件加速运算对于某些体积巨大的文件,比如其大小超过了计算机文件系统所能存放的最大限制或者是其大小甚至超过了计算机整 ...
Hadoop学习笔记—22.Hadoop2.x环境搭建与配置
自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔 ...
Hadoop学习之旅三：MapReduce
MapReduce编程模型在Google的一篇重要的论文MapReduce: Simplified Data Processing on Large Clusters中提到,Google公司有大量的 ...
[Hadoop] Hadoop学习历程 [持续更新中…]
1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成 ...
Hadoop学习笔记—2.不怕故障的海量存储：HDFS基础入门
一.HDFS出现的背景随着社会的进步,需要处理数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是却不方便管理和维护—>因此,迫切需要一种系统来管理多 ...
Hadoop学习路线图
Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括, ...
Hadoop学习（5）-- Hadoop2
在Hadoop1(版本<=0.22)中,由于NameNode和JobTracker存在单点中,这制约了hadoop的发展,当集群规模超过2000台时,NameNode和JobTracker已经不 ...
Hadoop学习总结之五：Hadoop的运行痕迹
Hadoop学习总结之五:Hadoop的运行痕迹 Hadoop 学习总结之一:HDFS简介 Hadoop学习总结之二:HDFS读写过程解析 Hadoop学习总结之三:Map-Reduce入门 Ha ...
Hadoop学习笔记(7) ——高级编程
Hadoop学习笔记(7) ——高级编程从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成 ...
Hadoop学习笔记(6) ——重新认识Hadoop
Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功 ...

随机推荐

Python学习字典.基础三
元组 Python的元组与列表类似,不同之处在于元组的元素不能修改. 元组使用小括号,列表使用方括号. 元组中要定义的元组中只有一个元素需要再元素后面加逗号,用来消除数学歧义.例 t=(1,) ...
学会了这些redis知识点，面试官会觉得你很nb(转自十年技术大牛)
是数据结构而非类型很多文章都会说,redis支持5种常用的数据类型,这其实是存在很大的歧义.redis里存的都是二进制数据,其实就是字节数组(byte[]),这些字节数据是没有数据类型的,只有把它们 ...
03 Uipath调用VBA脚本，处理excel文档格式
前言: 在平时我们的工作中,经常需要使用Uipath自动的导入大量数据到Excel表格中,但是却发现,数据导入到Excel之后,格式却是很乱,基本不能看,就像下图: 而Uipath对Excel的操 ...
R|tableone 快速绘制文章“表一”-基线特征三线表
首发于“生信补给站” :https://mp.weixin.qq.com/s/LJfgxbTqsp8egnQxEI0nJg 生物医学或其他研究论文中的“表一”多为基线特征的描述性统计.使用R单独进行统 ...
js 行走的小女孩面向对象
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
Scrapy同时启动多个爬虫
1. 在项目文件夹中新建一个commands文件夹 2. 在command的文件夹中新建一个文件 crawlall.py 3.在crawlall.py 中写一个command类,该类继承 scrapy ...
vue项目中使用Lodop实现批量打印html页面和pdf文件
1.Lodop是什么? Lodop(标音:劳道谱,俗称:露肚皮)是专业WEB控件,用它既可裁剪输出页面内容,又可用程序代码直接实现复杂打印.控件功能强大,却简单易用,所有调用如同JavaScript扩 ...
winform不能循环引用，使用接口传值到界面
public partial class frmMain : Form, IFormManager { 4 public frmMain() { InitializeComponent(); 8 } ...
BNP Paribas Cardif Claims Management
2月20日: 查看任务介绍,二分类问题,评价标准logloss 下载数据 2月21~27日: 查看数据组成,标识分类变量.离散变量.连续变量. 发现连续数据有大量非随机空缺(占总量一半),主要集中在v ...
Apex_2. LiveBos两个时间求相差天数、历时
(1)获取两个时间相差天数(没有上午下午区分) var d1=ABS_DATESTRING(FStartTime,'yyyy/MM/dd'); var d2=ABS_DATESTRING(FEndTi ...

Hadoop（学习&#183;2）

Hadoop（学习&#183;2）的更多相关文章

随机推荐

热门专题

Hadoop（学习·2）

Hadoop（学习·2）的更多相关文章