Hadoop建立起HDFS和YARN两个字系统,前者是文件系统,管数据存储:后者是计算框架,管数据处理. 如果只有HDFS而没有YARN,那么Hadoop集群可以被用作容错哦的文件服务器,别的就没有什么应用可言了.虽然HDFS是个分布式的文件系统,但是对服务器的用户来说那只是他的内部实现,从外部看与一般的Raid结构的文件服务器并无多大的区别. 从功能和层次上看,YARN是HDFS的用户,是HDFS的上一层,YARN的功能是建立在HDFS基础上的,HDFS提供数据供YARN字系统处理和计算. Y…
HDFS是Hadoop集群的文件系统,这是一种分布(distributed).容错(fault tolerant)的文件系统 所谓分布,是说整个文件系统的内容并非集中存储在一台或几台“文件服务器上”,而是分散在集群的不同节点上 对于大数据文件系统,文件之所以应该是分布式的,不再仅仅是容量和容错的问题,还有计算的问题. 大数据处理有个原则,就是数据在哪里,计算就在哪里. 分布的计算必然要求分布的数据存储,最好就是每个机诶但都存储数据,每个节点也都承担计算. 按什么方式把整个文件系统的内容分布存储在…
DataTransferThrottler类别Datanode读取和写入数据时控制传输数据速率.这个类是线程安全的,它可以由多个线程共享. 用途是构建DataTransferThrottler对象,并设置期限period和带宽bandwidthPerSec,际读写前调用DataTransferThrottler.throttle()方法.假设I/O的速率相对给定的带宽太快,则该方法会将当前线程wait. 两个构造函数 双參构造函数,能够设置周期period和带宽bandwidthPerSec.…
大数据特征:volume(数量).variety(多样性).velocity(产生的速度) 大数据特征:多.乱.快.杂 数据的来源:业务数据.日志.管理文档(OCR).互联网.物联网.外购…
数学里的 e 为什么叫做自然底数?是不是自然界里什么东西恰好是 e? https://www.zhihu.com/question/20296247…
假如我们只有3台linux虚拟机,主机名分别为hadoop01.hadoop02和hadoop03,在这3台机器上,hadoop集群的部署情况如下: hadoop01:1个namenode,1个datanode,1个journalnode,1个zkfc,1个resourcemanager,1个nodemanager: hadoop02:1个namenode,1个datanode,1个journalnode,1个zkfc,1个resourcemanager,1个nodemanager: hadoo…
HDFS 系统架构图 NameNode 是主节点,存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等.NameNode将这些信息加载到内存并进行拼装,就成为了一个完整的元数据信息 NameNode的启动过程: 第一次启动: NameNode存储的元数据放置在: * 内存 *本地磁盘 *fsimage(镜像文件) *edits(编辑日志文件)         1, 格式化hfds 文件系统,就是为了生成fsimage …
转载自文章 http://www.cnblogs.com/davidwang456/p/5074108.html 安装完hadoop后,在hadoop的bin目录下有一系列命令: container-executor hadoop hadoop.cmd hdfs hdfs.cmd mapred mapred.cmd rcc test-container-executor yarn yarn.cmd 知道这些命令有助于理解hadoop的概念,命令如下: 1. hadoop 命令帮助 bin/had…
搭建Hadoop的HDFS HA及YARN HA集群,基于2.7.1版本安装. 安装规划 角色规划 IP/机器名 安装软件 运行进程 namenode1 zdh-240 hadoop NameNode.DFSZKFailoverController.ResourceManager namenode2 zdh-245 hadoop NameNode.DFSZKFailoverController.ResourceManager datanode1 zdh-237 hadoop,zookeeper…
须要进一步学习hadoop.须要看看内部源代码实现.因此须要将hadoop源代码导入都eclipse中,简单总结一下,详细过程例如以下: 首先确保已经安装了git.maven3.protobuf2.5.假设没有安装须要提前安装一下 1.下载hadoop源代码 git clone git://git.apache.org/hadoop-common.git 2.进入hadoop-common文件夹,用maven生成eclipseproject mvn install -DskipTests mvn…
1.Ambari安装 Ambari & HDP(Hortonworks Data Platform) ***************************************************************************************************** Base: 0.操作系统原则与对应的HDP对应的版本.rhel6 or rhel7 1.操作系统原则完全安装(Desktop),所有的包都安装. 2.关闭防火墙,IPV6等服务(海涛Python…
个人谈谈阅读hadoop源代码的经验. 首先,不得不说,hadoop发展到现在这个阶段,代码已经变得非常庞大臃肿,如果你直接阅读最新版本的源代码,难度比较大,需要足够的耐心和时间,所以,如果你觉得认真一次,认真阅读一次hadoop源代码,一定要有足够的心理准备和时间预期. 其次,需要注意,阅读Hadoop源代码的效率,因人而异,如果你有足够的分布式系统知识储备,看过类似的系统,则能够很快地读它的源代码进行通读,并快速切入你最关注的局部细节,比如你之前看过某个分布式数据库的源代码,对分布式系统的网…
环境是 64bit Ubuntu 14.04 系统, jdk 1.7 以及 Eclipse Mars (4.5) 这里介绍两种调试 Hadoop 源代码的方法: 利用 Eclipse 远程调试工具和打印调试日志. 这两种方法均可以调试伪分布式工作模式和完全分布式工作模式下的 Hadoop. 最后介绍我自己的方法, 可以打印你想查看的信息( 针对单个文件内部 ). (1) 利用 Eclipse 进行远程调试 参考 http://andilyliao.iteye.com/blog/2151688 …
Hadoop 2.X 包括 编译好的可以直接部署的文件hadoop-{VERSION}.tar.gz; 还有源代码文件hadoop-{VERSION}-src.tar.gz , 需要 Maven 编译后才能进行部署安装.  我以 hadoop 2.7.3 为例. 1. 在Hadoop 的JAR 压缩包解压后的目录 hadoop-{VERSION} 中包含了 Hadoop全部的管理脚本和 JAR 包, ( 如hadoop-2.7.3.tar.gz, 解压后得到hadoop-2.7.3 ,如下图所示…
http://wenku.baidu.com/link?url=R-QoZXhc918qoO0BX6eXI9_uPU75whF62vFFUBIR-7c5XAYUVxDRX5Rs6QZR9hrBnUdMdVHNSHdjYtv7i28lCSng1iuWO620ML_wqJZYFge Hadoop源代码分析(一) 关键字: 分布式云计算 Google的核心竞争技术是它的计算平台.Google的大牛们用了下面5篇文章,介绍了它们的计算设施. GoogleCluster:http://research.g…
前提条件 先搭建 http://www.cnblogs.com/raphael5200/p/5152004.html 的环境,然后在其基础上进行修改 一.安装Zookeeper 由于环境有限,所以在仅有的4台虚拟机上完成多个操作: a.在4台虚拟中选3台安装Zookeeper,我选 node5 node6 node7 b.在4台虚拟中选3台作为JournalNode的节点,我选node6  node7  node8 c..在4台虚拟中选2台作为NameNode ,我选node5(Active)…
点击browserFilesystem,和命令查看结果一样 当我们查看hadoop源代码时,我们看到hdfs下的hdfs-default.xml文件信息 我们查找${hadoop.tmp.dir}这是引用变量,肯定在其它文件有定义,在core-default.xml中查看到,这两个配置文件有个共同点: 就是不要改动此文件.但能够复制信息到core-site.xml和hdfs-site.xml中改动 usr/local/hadoop 是我存放hadoop目录的地方 几个关于namenode的关键文…
转载请在页首明显处注明作者与出处 一:说明 此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6.4 上一篇:hadoop系列一:hadoop集群安装 二:HDFS的shell命令 上一章说完了安装HADOOP集群部分,这一张讲HDFS. 其实基本上操作都是通过JAVA API来操作,所以这里的shell命令只是简单介绍一下,实际操作中自然是JAVA API更加方便,功能也更加强大,JAVA…
1. 确保安装好JDK和eclipse 详细教程见: http://blog.csdn.net/kangdakangdaa/article/details/11364985 2. 安装 Subclipse(Eclipse 的 SVN 插件) 用于从 Hadoop 获得源代码.我们使用 eclipse 自带的软件安装功能,通过 Subclipse 提供的地址自动下载安装该插件. 首先访问http://subclipse.tigris.org,在Download and Install页面找到与Ec…
Apache Hadoop 2.9.2 的YARN High Available 模式部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.环境准备 1>.官方文档(http://hadoop.apache.org/docs/r2.9.2/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html) 2>.实验环境 环境在上一篇博客基础之上,参考链接:https://www.cnblogs.com/yinzhengjie/p/1…
实验环境 主机名称 IP地址 角色 统一安装目录 统一安装用户 sht-sgmhadoopnn-01 172.16.101.55 namenode,resourcemanager /usr/local/hadoop(软连接) /usr/local/hadoop-2.7.4 /usr/local/zookeeper(软连接) /usr/local/zookeeper-3.4.9 root sht-sgmhadoopnn-02 172.16.101.56 namenode,resourcemanag…
接着上一篇文章,继续我们 hadoop 的入门案例. 1. 修改 core-site.xml 文件 [bamboo@hadoop-senior hadoop-2.5.0]$ vim etc/hadoop/core-site.xml 添加如下的配置: <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop-senior.bamboo.com:8020<…
1.搭建3台虚拟机 2.建立账户及信任关系 3.安装java wget jdk-xxx rpm -i jdk-xxx 4.添加环境变量(全部) export JAVA_HOME=/usr/java/jdk1..0_141 export JRE_HOME=$JAVA_HOME/jre export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/…
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动 马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作 马士兵hadoop第三课:java开发hdfs 马士兵hadoop第四课:Yarn和Map/Reduce配置启动和原理讲解 马士兵hadoop第五课:java开发Map/Reduce (1)观察集群配置情况 [root@master ~]# hdfs dfsadmin -report (2)web界面观察集群运行情况 使用netstat命令查看端口监听 [root@…
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动 马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作 马士兵hadoop第三课:java开发hdfs 马士兵hadoop第四课:Yarn和Map/Reduce配置启动和原理讲解 马士兵hadoop第五课:java开发Map/Reduce 前三节课主要讲了hdfs,hdfs就是一个分鱼展的大硬盘 分:分块 鱼:冗余 展:动态扩展 接下来讲云计算,也可以理解为分布式计算,其设计原则: 移动计算,而不是移动数据 前面说过,h…
本文将介绍在 Eclipse 下阅读 Hadoop 源代码的一些技巧, 比如如何查看一个基类有哪些派生类. 一个方法被其他哪些方法调用等. 本文地址:http://www.cnblogs.com/archimedes/p/study-hadoop-sourcecode.html,转载请注明源地址. 欢迎关注我的个人博客:www.wuyudong.com, 更多云计算与大数据的精彩文章 1 . 查看一个基类或接口的派生类或实现类 在 Eclipse 中, 选中 某个基类或接口名称,右击,在弹出 的…
下载hadoop压缩包设置hadoop环境变量设置hdfs环境变量设置yarn环境变量设置mapreduce环境变量修改hadoop配置设置core-site.xml设置hdfs-site.xml设置yarn-site.xml设置mapred-site.xml设置slave文件分发配置启动hdfs格式化namenode启动hdfs检查hdfs启动情况启动yarn测试mr任务hadoop本地库hdfs yarn和mapreduce参数 下载hadoop压缩包 去hadoop官网下载hadoop-2…
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动 马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作 马士兵hadoop第三课:java开发hdfs 马士兵hadoop第四课:Yarn和Map/Reduce配置启动和原理讲解 马士兵hadoop第五课:java开发Map/Reduce (1)观察集群配置情况 [root@master ~]# hdfs dfsadmin -report (2)web界面观察集群运行情况 使用netstat命令查看端口监听 [root@…
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动 马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作 马士兵hadoop第三课:java开发hdfs 马士兵hadoop第四课:Yarn和Map/Reduce配置启动和原理讲解 马士兵hadoop第五课:java开发Map/Reduce 前三节课主要讲了hdfs,hdfs就是一个分鱼展的大硬盘 分:分块 鱼:冗余 展:动态扩展 接下来讲云计算,也可以理解为分布式计算,其设计原则: 移动计算,而不是移动数据 前面说过,h…
以hadoop 2.7.3为例, jdk1.7.0_80 , Eclipse Mars(4.5), Apache Maven 3.0.5   mvn时需要使用root权限,即县切换到root用户,用命令su root. 本节将介绍如何创建一个Hadoop源代码工程以方便阅读源代码.    Hadoop源代码hadoop-2.7.3-src不能直接导入Eclipse,会报很多错,因为该源代码工程没有包含它所需的所有JAR包等, 需要Maven编译引入. 首先,介绍一下我自己成功的办法.  ( 后面…