Cloudera】的更多相关文章

cloudera 的 QuickStart VM,為一種免安裝.免設定 Linux 及 Hadoop,已幫你建好 CDH 5.x.Hadoop.Eclipse 的一個虛擬機環境.下載後解壓縮,可直接以 VirtualBox.VMWare.Docker.KVM 任一虛擬機,開啟 Hadoop 2.x 執行環境,並可用內建本地模式的 Eclipse 開發工具,開發.執行 Hadoop 程式碼. 下載點 :http://www.cloudera.com/downloads.html?productID…
Linux Control Groups(cgroups):在操作系统级别进行资源分配,可通过Cloudera Static Service Pools配置. YARN调度器配置:对运行在YARN上的应用进行资源配置,比如M/R,implala.可通过Cloudera 动态资源池进行配置. 以下资源可以通过cgroups配置进行限制: Memory Hard Limit – If a process exceeds this limit, the kernel swaps out some of…
涉及到一些关于硬件的东西,我也不是很懂,记录下来有待以后学习. Hadoop集群一般都是由小到大,刚开始可能只有4到6个节点,随着存储数据的增加,计算量的增大,内存需求的增加,集群慢慢变大. 比如按照数据存储量增大集群,每个星期数据存储3TB数据,HDFS的block备份数为3,则集群就需要9TB的磁盘,一般还要再预估25%buffer.如果一台机器的存储量为16*3T,则大概每个月往集群中增加1台机器. 如何进行硬件选择?一般Hadoop节点分成管理节点(master node)和工作节点(w…
Services:Haddoop cluster上可以部署的组件,比如HDFS,YARN,HBase等. Roles:在service配置时,由Cloudera Manager创建.比如NameNode是HDFS service的一个role. Role Group:对Role的管理,可以将相同类别的Role(如DataNode)划分到不同的角色组.每个Role Group可以有属于自己的一系列配置. Role Instance:组成服务最基本的单一实例(可以认为是进程).一个HDFS服务有Na…
cloudera分为两个部分:CDH和CM.CDH是Cloudera Distribution Hadoop的简称,顾名思义,就是cloudera公司发布的Hadoop版本,封装了Apache Hadoop,提供Hadoop所有的服务,包括HDFS,YARN,MapReduce以及各种相关的components:HBase, Hive, ZooKeeper,Kafka等.CM是cloudera manager的简称,是CDH的管理平台,主要包括CM server, CM agent.通过CM可以…
写在张文章时,差点辣死我了.把sentry数据库密码搞掉了,导致hive,impala,hue都挂了.此事要引以为戒,以后要小心操作了. 安装Sentry服务 a)                在cloudera上添加Sentry服务 b)               选中Sentry服务并继续 c)                使用集群主机Master节点作为Sentry Sever服务器(Gateway选中集群内的所有服务器) d)               根据需要进行的数据库选项配…
如果通过命令行的方式安装cloudera 版本的hadoop,下载它的cdh版本. 解压后执行,你会发现报warning,没有native的库,lib/native是空的. 如何获取native的文件呢? 1.cdh里面有src文件,可以编译生成native的包,不过这种方式非常难搞,需要网络环境,而且编译过程复杂,耗时较长. 2.去官网下载相应版本的hadoop rpm包,然后解压即可. 我都采用过,现在记录第两种方式的过程. http://archive.cloudera.com/cdh5/…
要配置生产环境前,最好严格按照官方文档/说明配置环境.比如,官方说这个安装包用于RETHAT6, CENTOS6,那就要装到6的版本下,不然很容易出现各种各样的错. 配置这个CDH5我入了很多坑,最重要的有2点 1. HP GEN9 DL60服务器装CentOS系统, 开始想装7的版本, 官方只说支持到6. 经过各种折腾确实装好了(后面会单开一章写服务器装CentOS7) 2. CDH暂不官方支持CentOS 7, 查到国外有人是安装成功了,但是会有各种小问题需要息解决. 如7带的是python…
CDH (Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境. Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机.Hadoop.Hive.Spark等服务的安装配置管理做了极大简化. 相关包的下载地址: Cloudera Manager…
关于CDH和Cloudera Manager CDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境. Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机.Hadoop.Hive.Spark等服务的安装配置管理做了极大简化. 系统环…