以下列举出来的是capacity关于queue和user资源使用量相关的参数说明: mapred.capacity-scheduler.queue.xxx.capacity: 队列的资源容量百分比,所有队列的容量之和应小于100mapred.capacity-scheduler.queue.xxx.maximum-capacity: 队列资源的使用上限百分比,最高限制为100%mapred.capacity-scheduler.queue.xxx.minimum-user-limit-perce…
Capacity Scheduler调度策略当一个新的job是否允许添加到队列中进行初始化,判断当前队列和用户是否已经达到了初始化数目的上限,下面就从代码层面详细介绍整个的判断逻辑.Capaycity添加一个job,会通过注册的监听器org.apache.hadoop.mapred.JobQueuesManager向队列中添加JOB,添加JOB过程中会检查当前队列和用户是否已经达到资源上限了. 下面详细的从源码角度介绍判断的条件: 队列的相关的上限判断条件:(queueWaitingJobs +…
Fair Scheduler调度器同步心跳分配任务的过程简单来讲会经历以下环节: 1. 对map/reduce是否已经达到资源上限的循环判断 2. 对pool队列根据Fair算法排序 3.然后循环pool队列,在pool中的job队列根据Fair算法排序,循环job,选择task 4.如果选择到一个task,跳出pool的循环,然后重新对pool排序,重复步骤2 Fair Scheduler调度策略对于pool和job的调度算法都是一致的,先解释在调度算法中的几个重要变量: minshare :…
理论知识: http://www.tuicool.com/articles/jameeqm 这篇文章讲的非常详细了: http://www.tuicool.com/articles/jameeqm 以下是进阶,讲QJM工作原理: http://www.tuicool.com/articles/eIBB3a 首次启动ha集群过程: hdfs zkfc -formatZK(这个之前落下了,很重要,如果不注册到zookeeper,那么等于hdfs和zookeeper没产生任何关系) 1.启动journ…
sqoop即SQL-to-Hadoop,是一个把数据从关系型数据库导入到Hadoop系统中的工具(HDFS,HIVE和HBase),也可以将数据从Hadoop导入到关系型数据库.本文以sqoop 1.99.6版本为例演示如何配置和使用sqoop. 一. 安装配置sqoop 1. 从Apache网上下载sqoop http://apache.fayea.com/sqoop/1.99.6/ 2. 将压缩包放置到指定目录后,运行tar -zxvf sqoop-1.99.6-bin-hadoop200.…
安装前的一些环境配置: 1. 给用户添加sudo权限,输入su - 进入root账号,然后输入visudo,进入编辑模式,找到这一行:"root ALL=(ALL) ALL"在下面添加"xxx ALL=(ALL) ALL"(这里的xxx是你的用户名),然后保存退出 2. 将JDK压缩包解压到某一目录下tar -zxvf jdk-8u71-linux-x64.gz,并且配置JAVA_HOME以及HADOOP_HOME参数.用文本编辑器打开/etc/profile, 在…
1. 在官网http://hive.apache.org/下载所需要版本的Hive,以下我们就以hive 2.1.0版为例. 2. 将下载好的压缩包放到指定文件夹解压,tar -zxvf apache-hive-2.1.0-bin.tar.gz. 3. 将Hive安装路径添加到/etc/profile中,之后用source命令使其生效. 4. 执行初始化命令:schematool -dbType derby -initSchema 查看初始化后的信息: schematool -dbType de…
学习scala的原因主要是因为以后要学习spark. scala是运行在java虚拟机上的,它是一种面向对象和函数式编程结合的语言,并兼容java程序 相对于java更简单 安装scala前提你要保证你已经安装好了jdk 然后 下载这个msi版本的,下载完直接下一步下一步傻瓜安装 然后下载个IDEA 第一次新的IDEA没法创建scala 然后创建一个scala程序 然后选择你的sdk位置和jdk版本 然后finsh 在src下创建一个scala class文件 在这里可以为你的工程添加依赖外部包…
自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔记系列>.其实,早在2014年Hadoop2.x版本就已经开始流行了起来,并且已经成为了现在的主流.当然,还有一些非离线计算的框架如实时计算框架Storm,近实时计算框架Spark等等.相信了解Hadoop2.x的童鞋都应该知道2.x相较于1.x版本的更新应该不是一丁半点,最显著的体现在两点: (1)H…
一.虚拟机环境搭建 我们用的虚拟机为vmware,Linux镜像为centOS6.5. vmware安装 安装没什么多说的,一路下一步,但是在新建虚拟机的时候有两个地方需要注意: 1.分配处理器1个就好了,毕竟现在搭的是伪分布式 2.内存分配多一些,这个就看自己机器的情况了 3.网络设置为NAT,不然会有连不上网的问题 centOS6.5安装 将镜像文件添加至虚拟机中,这个CentOS6.5安装比较傻瓜式,不用自己操作,不像之前在CentOS7的安装,还需要自己进行分区,各种设置. CentOS…