Cloudera Certified Associate Administrator案例之Configure篇

                                      作者:尹正杰

版权声明:原创作品,谢绝转载!否则将追究法律责任。

一.下载CDH集群中最新的配置文件

问题描述:
  某个集群的使用者需要通过客户端登陆集群,请使用CM下载HDFS和YARN的配置文件,保存到客户端机器的"/home/yinzhengjie/hadoop/etc/hadoop"目录下,并保持文件名不变。 解决方案:
  可以通过登陆CM WebUI界面下载,也可以直接登陆服务器进行下载。

1>.使用正确的用户名密码登录CM界面,点击hdfs服务

2>. 下载HDFS的配置文件

3>.使用正确的用户名密码登录CM界面,点击yarn服务

4>.下载YARN服务的配置文件

5>.查看集群后端存储配置文件的路径

[root@node101.yinzhengjie.org.cn ~]# ll /etc/hadoop/conf.cloudera.hdfs/        #HDFS集群存储路径
total
-rw-r--r-- root root Jun : __cloudera_generation__
-rw-r--r-- root root Jun : __cloudera_metadata__
-rw-r--r-- root root Jun : core-site.xml
-rw-r--r-- root root Jun : hadoop-env.sh
-rw-r--r-- root root Jun : hdfs-site.xml
-rw-r--r-- root root Jun : log4j.properties
-rw-r--r-- root root Jun : ssl-client.xml
-rw-r--r-- root root Jun : topology.map
-rwxr-xr-x root root Jun : topology.py
[root@node101.yinzhengjie.org.cn ~]#
[root@node101.yinzhengjie.org.cn ~]#
[root@node101.yinzhengjie.org.cn ~]#
[root@node101.yinzhengjie.org.cn ~]# ll /etc/hadoop/conf.cloudera.yarn/      #YARN集群存储路径
total
-rw-r--r-- root root Jun : __cloudera_generation__
-rw-r--r-- root root Jun : __cloudera_metadata__
-rw-r--r-- root root Jun : core-site.xml
-rw-r--r-- root root Jun : hadoop-env.sh
-rw-r--r-- root root Jun : hdfs-site.xml
-rw-r--r-- root root Jun : log4j.properties
-rw-r--r-- root root Jun : mapred-site.xml
-rw-r--r-- root root Jun : ssl-client.xml
-rw-r--r-- root hadoop Jun : topology.map
-rwxr-xr-x root hadoop Jun : topology.py
-rw-r--r-- root root Jun : yarn-site.xml
[root@node101.yinzhengjie.org.cn ~]#
[root@node101.yinzhengjie.org.cn ~]#

二.限制HDFS服务的日志大小

问题描述:
  根据管理要求,需要限制HDFS服务的日志大小。其限制为:NameNode服务保留4个日志文件,总量不超过8GB;Secondary NameNode 服务也保留4个日志文件,总量不超过8GB;两个服务总占用的磁盘空间 量不超过16GB。 解决方案:
  单个服务的单个日志只要不超 过2GB,并将日志数设为4个,即可以满足要求。 

1>.使用正确的用户名密码登录CM界面,点击hdfs服务

2>.搜索关键字“NameNode Max Log Size”

3>.修改默认值200MB为2GB并点击保存按钮

4>.搜索关键字“SecondaryNameNode Max Log Size”(中文对应:"SecondaryNameNode 最大日志文件备份")

5>.修改日志文件的备份数为4

6>.重启HDFS服务 

三.修改Namenode的堆内存

问题描述:
集群承接了日志分析需求,将保存百万、千万数量级的文件,因 此需要扩大NameNode使用的堆内存,使其可以管理尽可能多的文件。物理内存的分配要求为:节点总物理内存为31GB,为系统服务保留的内存为6.2GB;NameNode和Secondary NameNode需设置相等大小的堆内存; 所有服务的堆内存均需要乘以1.3后计入总使用量中。需要为NameNode和相关服务配置尽可能大且满足要求的内存量,且不能触发任何警告。 解决方案:
  根据计算(31 - 6.2) / 1.3 = 19,因此 NameNode和Secondary NameNode各可设置9.5GB的堆内存。 

1>.使用正确的用户名密码登录CM界面,点击hdfs服务

2>.点击配置,搜索关键字“Java Heap Size of NameNode in Bytes”(对应中文为:"NameNode 的 Java 堆栈大小(字节)")

3>.设置NameNode和SencondName的堆内存为9.5GB

4>.重启HDFS集群(需要注意的是,如果我们设置的NameNode或者SecondNamenode的堆内存大小总和大于当前服务器内存时,我们在重启集群时会启动失败!)

 

四.开启回收站功能

问题描述:
  在描述公司的运维策略时,有人提出如果误删了HDFS的文件系统,可能几天都不会出现,尤其时当周末前发生这样的情况时。为了提供足够的保护级别,你决定将HDFS数据删除后永久清除的时间改为7天。 解决方案:
  我们直接在Cloudera Manager WebUI界面进行配置即可。除了配置回收站,还可以配置权限,副本书,块大小,balancer等。

1>.点击HDFS服务

2>.点击配置,并搜索关键字"fs.trash.interval",修改其只为7天,即删除的文件在回收站中被保留的时间周期

3>.搜索关键词"fs.trash.checkpoint.interval",即定义周期性检查回收站的文件是否过期的时间间隔,改值应该小于上面我们定义"fs.trash.interval"的值

 

 

五.

Cloudera Certified Associate Administrator案例之Configure篇的更多相关文章

  1. Cloudera Certified Associate Administrator案例之Troubleshoot篇

    Cloudera Certified Associate Administrator案例之Troubleshoot篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.调整日志的进 ...

  2. Cloudera Certified Associate Administrator案例之Test篇

    Cloudera Certified Associate Administrator案例之Test篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.准备工作(将CM升级到&qu ...

  3. Cloudera Certified Associate Administrator案例之Manage篇

    Cloudera Certified Associate Administrator案例之Manage篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.下载Namenode镜像 ...

  4. Cloudera Certified Associate Administrator案例之Install篇

    Cloudera Certified Associate Administrator案例之Install篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.创建主机模板(为了给主 ...

  5. Flume实战案例运维篇

    Flume实战案例运维篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Flume概述 1>.什么是Flume Flume是一个分布式.可靠.高可用的海量日志聚合系统,支 ...

  6. CNCF基金会的Certified Kubernetes Administrator认证考试计划

    关于CKA考试 CKA(Certified Kubernetes Administrator)是CNCF基金会(Cloud Native Computing Foundation)官方推出的Kuber ...

  7. 分享数百个 HT 工业互联网 2D 3D 可视化应用案例之 2019 篇

    继<分享数百个 HT 工业互联网 2D 3D 可视化应用案例>2018 篇,图扑软件定义 2018 为国内工业互联网可视化的元年后,2019 年里我们与各行业客户进行了更深度合作,拓展了H ...

  8. 数百个 HT 工业互联网 2D 3D 可视化应用案例分享 - 2019 篇

    继<分享数百个 HT 工业互联网 2D 3D 可视化应用案例>2018 篇,图扑软件定义 2018 为国内工业互联网可视化的元年后,2019 年里我们与各行业客户进行了更深度合作,拓展了H ...

  9. robotframework+selenium搭配chrome浏览器,web测试案例(搭建篇)

    这两天发布版本 做的事情有点多,都没有时间努力学习了,先给自己个差评,今天折腾了一天, 把robotframework 和 selenium 还有appnium 都研究了一下 ,大概有个谱,先说说we ...

随机推荐

  1. javafx这些学会后,开发就不难了,往tablecloumn列中添加按钮,修改javafx中tableview中tablecell中的值,修改完回车表示保存到内存中

    javafx开发过程中遇见难题,往tablecloumn列中添加按钮 想了很久的方法,也配有办法判断每行中有数据的地方添加按钮set bank_caozuo.setCellFactory((col)- ...

  2. 转:webpack代码压缩优化

    压缩代码 18 天前30前端开发 压缩 JavaScript 修改 JavaScript 压缩处理器 其他压缩 JavaScript 的方法 加快 JavaScript 执行速度 作用域提升 预执行 ...

  3. JMETER - 连接MySQL数据库_函数助手_随机登录

    1. 导入mysql-connect.jar包 2. 添加配置原件-jdbc connection config 3. 添加jdbc请求 填写信息 4. 连接数据库 OK 5. 增加语句:jdbc r ...

  4. 你该怎么学习C++——思想层面

    Javascript是世界上最受误解的语言,其实C++何尝不是.坊间流传的错误的C++学习方法一抓就是一大把.我自己在学习C++的过程中也走了许多弯路,浪费了不少时间. 为什么会存在这么多错误认识?原 ...

  5. 关于docker的scratch镜像与helloworld

    关于docker的scratch镜像与helloworld 参考:https://hub.docker.com/_/scratch?tab=description 参考:https://segment ...

  6. IDEA更改JavaScript版本

    最好改两个地方 File -> File -> -- --

  7. 在有nginx做反向代理时候,如何获取用户真实Ip信息

    在获取用户的Ip地址时,不一定可以获取到用户真实的地址信息,这要看代理服务器的类型,代理服务器有普通匿名代理服务器,高匿代理服务器,像这种情况很难获取到用户真实的Ip地址 假如用户没有使用匿名代理服务 ...

  8. Spark学习(3) SparkSQL

    什么事sparkSQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用, 它是将Spark SQL转换成RDD ...

  9. C++中const限定符

    const基础 C++中的const,用于定义一个常量,这个常量的值不能被修改.因为const对象一旦创建就不能修改,所以const对象必须初始化.const常量特征仅仅在执行改变其本身的操作时才会发 ...

  10. js中常见的字符串方法(3)

    match() match()方法只接受一个参数,要么是一个正则表达式,要么是一个 RegExp 对象. 调用这个方法本质上与调用RegExp的exec()方法相同, var text = " ...