设置yarn.scheduler.fair.user-as-default-queue =fasle, 就会阻止每一个用户使用自己默认的队列。

设置yarn.scheduler.fair.allow-underclared-pools =true 就允许用户在执行任务的时候创建指定的不存在的队列。

存储在sequencefile中的key value不一定需要是实现writable接口的类,所有的类似均可以序列化和反序列化。

Hive 尝试使用基于列的存储,可以提高hive的存储与执行效率?

HIve使用spark或tez这样的计算框架,可以提高查询返回的效率?

Crunch 是一个高级次的mapreduce pipe line的封装api,可以提高代码的利用率,使用java scala来写代码和udf,

可以称为是java版本的pig.

Which yarn daemon or service monitors a controller's per-application resource using (e.g. memory Cpu)?

Nodemanager or ApplicationMaster?

查看集群中可用的hdfs资源空间方法命令

Hdfs dfs -df / 就会显示当前可用的空间与已用空间

Hdfs dfsadmin -report 也会显示空间使用情况与每一个数据节点的健康与使用情况

HDFS应该可以寄生在任何可以的linux文件系统上,Ext3和4只是推荐的文件系统

CDH packing do what in KERBOS installation?

Create users or keytab files?

在小集群上,可以把nn和rm配置在一个节点上,在大的集群上,有足够的理由建议他们分开到不同的节点上。

原因1,主服务都对资源有一定的要求,避免在同一个节点上对资源进行争用。

原因2也是主要原因,考虑到集群的高可用,分部到不同的节点,减少了因同一个节点故障造成的问题。

网络机架感知hadoop框架默认的实现是使用基于脚本的映射,大部分情况下,我们不需要自己去实现那个接口,直接

使用这个基于脚本映射的接口即可。

Net.topology.script.file.name 这个脚本接口一个或多个主机名或ip列表,返回它们的机架信息。

机架感知技术对hadoop的影响

1 HDFS

hdfs在选择块副本的时候选择的策略与机架配置有关,先在某一节点(若在本节点上传,则是本节点存一份)存一

份,然后在这一节点的同机架存一份,第三份是存到此机架外,为了提高可用性。(以三个副本为例)

2。MR

MR在进行作业分配的时候也会考虑到尽可能使用机架内的网络资源,减少使用机架外的资源,来选择执行MR的任务

hadoop的控制脚本依赖ssh来执行集群范围的操作,例如登录到某节点启动相关进程。

所以ssh并不是必须的,你可以使用其他并行ssh的工具,如pdsh等

在使用hdfs的时候,fs.defaultFS有两个用途,一个是指定了hdfs集群的namenode的地址和端口。

另一个用途是指定了hdfs访问的默认路径。

由于第二个用途,客户端或或个用户可以为自己方便起见,使用自己的配置,不必要和其他节点保存一致。

给dfs.namenode.name.dir 配置多个目录,会自动生成多份的元数据作为备份,有机会做个测试。

同样的原理适用于dfs.namenode.checkpoint.dir属性,(不适用 于datanode.dir)

Yarn.nodemanager.aux-services = mapreduce_shuffle

yarn调度器根据配置来分配容器,yarn.scheduler.minimum-allocation-mb(默认1024M)和

Yarn.scheduler.maximum-allocation-mb (默认8192mb)。

对于yar.nodemanager.resource.cpu-vcores属性的设置,使用机器上总的核数,减去该节点上长服进程的数量。

如(datanode,nodemanager 和其他长服进程)

cpu的使用问题,nodemanager并不限制运行的container使用的cpu的核数,可能会出现滥用的情况。

一种解决方案是使用linux cgroups,需要配置 yarn.nodemanager.contain-executor.class 为LinuxContainerExecutor类。

对于IO操作,hadoop使用的默认4k的缓存,对于现在的机器来说,这个配置有一点低,可以调整 core-site.xml

中配置io.file.buffer.size属性,调整为128k是一个通用的选择。

Hadoop的安全机制中kerbos到底起到了哪些作用?

Hadooop.security.authentication=kerberos (core-site.xml)

Hadoop.security.authrozation=true

配置acls在hadoop-policy.xml指定哪些用户和组可以访问hadoop的服务。

为了减少集群的rpc调用,hadoop使用代理token的方式来减少对kdc的压力。同时保持安全性。

这种代理是由服务端来做的,如namenode和resourcemanager.

如果作业需要访问多个hdfs 集群,在kerberos的情况下,需要设置mapreduce.job.hdfs-servers 给一个逗号分开的列表。

HDFS Encrypted Transport

1。启用kerberos安全机制

2。Hadoop.rpc.protection=privacy in core-site.xml 在客户端和服务器端的配置。

  1. Set dfs.encrypt.data.transfer=true in hdfs-site.xml 在的有服务器端的配置。
  2. 重启所有进程
  1. 如果要配置shuffle的加密,配置mapreduce.shuffle.ssl.enabled 在mapred-site.xml

Hadoop op 1)的更多相关文章

  1. 使用Nginx+Lua代理Hadoop HA

    一.Hadoop HA的Web页面访问 Hadoop开启HA后,会同时存在两个Master组件提供服务,其中正在使用的组件称为Active,另一个作为备份称为Standby,例如HDFS的NameNo ...

  2. Hadoop Pipeline详解[摘抄]

    最近使用公司内部的一个框架写map  reduce发现没有封装hadoop streaming这些东西,查了下pipeline相关的东西 Hadoop Pipeline详解 20. Aug / had ...

  3. Hadoop日记Day17---计数器、map规约、分区学习

    一.Hadoop计数器 1.1 什么是Hadoop计数器 Haoop是处理大数据的,不适合处理小数据,有些大数据问题是小数据程序是处理不了的,他是一个高延迟的任务,有时处理一个大数据需要花费好几个小时 ...

  4. Hadoop伪分布式搭建(一)

     下面内容主要说明在Windows虚拟机上面,怎么搭建一个Hadoop伪分布式,并如何运行wordcount程序和网页查看HDFS文件系统. 1 相关软件下载和安装 APACH官网提供hadoop版本 ...

  5. hadoop之 mr输出到hbase

    1.注意问题: 1.在开发过程中一定要导入hbase源码中的lib库否则出现如下错误 TableMapReducUtil 找不到什么-- 2.编码: import java.io.IOExceptio ...

  6. Hadoop之Hive 安装_(hadoop 集群)

    Hive mysql的metastore安装准备(***掌握***) 在nameNode1机子上实践: 把hive-0.12.0.tar.gz解压到/itcast/ # tar -zxvf hive- ...

  7. Hadoop的Map侧join

    写了关于Hadoop下载地址的Map侧join 和Reduce的join,今天我们就来在看另外一种比较中立的Join. SemiJoin,一般称为半链接,其原理是在Map侧过滤掉了一些不需要join的 ...

  8. ubuntu下hadoop环境配置

    软件环境: 虚拟机:VMware Workstation 10 操作系统:ubuntu-12.04-desktop-amd64 JAVA版本:jdk-7u55-linux-x64 Hadoop版本:h ...

  9. 基于OGG的Oracle与Hadoop集群准实时同步介绍

    版权声明:本文由王亮原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/220 来源:腾云阁 https://www.qclou ...

随机推荐

  1. python处理空格脚本

    博客园上传代码时拷贝vs里面的代码不能直接粘贴,否则空格会不符合要求 去掉空格代码 # -*- coding: utf-8 -*- '''打开delSpace.txt文本并删除每行开头的八个空格''' ...

  2. 爱上MVC~图表的使用Chart

    回到目录 图表在一个系统中是必须的,MVC架构把它当然是一个扩展集成了进来,通过简单的几句话就可以生成一个风格多样的图表,这给报表的开发带来了很大的方便,大叔的项目中也做了一个测试,把主要的代码贴出来 ...

  3. 背水一战 Windows 10 (36) - 控件(弹出类): ToolTip, Popup, PopupMenu

    [源码下载] 背水一战 Windows 10 (36) - 控件(弹出类): ToolTip, Popup, PopupMenu 作者:webabcd 介绍背水一战 Windows 10 之 控件(弹 ...

  4. Xamarin 免费了,你能做什么?

    3月底,微软正式宣布:Xamarin免费了!那么,你能做什么? 抢先一步,用Xuni助力你的Xamarin开发! Xamarin是什么 Xamarin含Xamarin.Andoid,Xamarin.i ...

  5. java中抽象、分装、继承和多态的理解

    1.抽象.封装装.继承和多态是java面向对象编程的几大特点. 抽象:所谓抽象就是对某件事务,我们忽略我们不关心不需要的部分,提取我们想要的属性和行为,并且以代码的形式提现出来:例如我们需要对一个学生 ...

  6. codis集群安装

    在网上找了很多codis的集群安装方法,看起来都是大同小异,本人结合了大多种方法完成了一套自己使用的codis的集群安装,可以供大家学习使用,如果有什么问题或者不懂的地方欢迎指正 1.集群规划: 三台 ...

  7. div+css背景渐变色代码示例

    用CSS使DIV背景颜色渐变,适用于IE和Chrome等浏览器. 从黄到红示例:http://keleyi.com/keleyi/phtml/divcss/2.htm 代码: <style ty ...

  8. jquery右下角自动弹出关闭层

    效果体验:http://keleyi.com/keleyi/phtml/jqtexiao/36.htm 右下角弹出层后,会在一定时间后自动隐藏.第一版本:http://www.cnblogs.com/ ...

  9. sharepoint2013用场管理员进行文档库的爬网提示"没有权限,拒绝"的解决方法

    爬网提示被拒绝,场管理员明明可以打开那个站点的,我初步怀疑是:环回请求(LoopbackRequest)导致的 解决方法就是修改环回问题.修改注册表 具体操作方法: http://www.c-shar ...

  10. CentOS桌面安装

    1.显示系统已经安装的组件,和可以安装的组件: #yum grouplist 2.如果系统安装之初采用最小化安装,没有安装xwindow,那么先安装: #yum groupinstall " ...