Hadoop认知--在不同的阶段】的更多相关文章

入门阶段 出于兴趣,及工作中的简单有用,大约经过1个月的时间,完毕了对Hadoop的基本认知. 在这个月中我干了例如以下几件事 1.大体看了<Hadoop权威指南>.把里面的代码手工码了一遍,并写了8篇学习笔记 2.配置了Hadoop1和Hadoop2集群.都是用4台虚拟机 3.听了一些Hadoop视频 基本认知例如以下 Hadoop是一种大数据处理框架,这样的大数据框架所能处理的场景实际是很很有限的,仅仅能是键值对数据,仅仅能是一行一行的固定格式化的数据,这样的特性决定了它很适合用来处理日志…
部分内容参考:http://www.linuxqq.net/archives/964.html  http://slaytanic.blog.51cto.com/2057708/1100974/ http://blog.csdn.net/jediael_lu/article/details/38680013 hadoop的重要配置文件有以下几个: 在1.2.1版本中,core-default.xml有73个属性,hdfs-default.xml有76个属性,mapred-default.xml有…
转自:http://pieux.github.io/blog/2013-05-08-learn-hadoop-the-definitive-guide.html 1 前言 Hadoop的内部工作机制: 分布式系统理论, 实际工程和常识于一体的系统. 但是,Hadoop提供的用于构建分布式系统的工具–数据存储, 数据分析,和协调处理–都非常简单. 本书的结构: 1章介绍历史, 2章介绍MapReduce,3章剖析Hadoop文件系统, 特别是HDFS,4章包含Hadoop的基本I/O操作:数据完整…
linux配置ssh无密码登录 配置ssh无密码登录,先要安装openssh,如下: yum install openssh-clients 准备两台linux服务器或虚拟机,设置两台linux的hosts为: 1 [root@hadoop1 ~]# vim /etc/hosts 2 192.168.1.110 hadoop1 3 192.168.1.111 hadoop2 再按照如下步骤: 01 [root@hadoop1 ~]# ssh-keygen -t rsa 02 Generating…
一:系统安装与配置 Hadoop选择下载2.4.0 http://hadoop.apache.org / http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.4.0/ JDK我用的是1.7u64  http://www.oracle.com/technetwork/java/javase/downloads/index.html 在安装系统时,每个虚拟机的用户名都应尽量设置为一样的.因为,ssh默认以当前用户名去登录另外的主机,如果“另外…
core-site.xml  name value  Description   fs.default.name hdfs://hadoopmaster:9000 定义HadoopMaster的URI和端口  fs.checkpoint.dir /opt/data/hadoop1/hdfs/namesecondary1 定义hadoop的name备份的路径,官方文档说是读取这个,写入dfs.name.dir  fs.checkpoint.period 1800 定义name备份的备份间隔时间,秒…
本文转自:http://slaytanic.blog.51cto.com/2057708/1101360 name value Description hadoop.job.history.location   job历史文件保存路径,无可配置参数,也不用写在配置文件里,默认在logs的history文件夹下. hadoop.job.history.user.location   用户历史文件存放位置 io.sort.factor 30 这里处理流合并时的文件排序数,我理解为排序时打开的文件数…
name value Description hadoop.job.history.location   job历史文件保存路径,无可配置参数,也不用写在配置文件里,默认在logs的history文件夹下. hadoop.job.history.user.location   用户历史文件存放位置 io.sort.factor 30 这里处理流合并时的文件排序数,我理解为排序时打开的文件数 io.sort.mb 600 排序所使用的内存数量,单位兆,默认1,我记得是不能超过mapred.chil…
hadoop 常用配置项[转] core-site.xml  name value  Description   fs.default.name hdfs://hadoopmaster:9000 定义HadoopMaster的URI和端口  fs.checkpoint.dir /opt/data/hadoop1/hdfs/namesecondary1 定义hadoop的name备份的路径,官方文档说是读取这个,写入dfs.name.dir  fs.checkpoint.period 1800 定…
From:http://m.csdn.net/article_pt.html?arcid=2823943 Apache HBase是一个面向线上服务的数据库,其原生支持Hadoop的特性,使其成为那些基于Hadoop的扩展性和灵活性进行数据处理的应用显而易见的选择. 在Hortonworks数据平台(HDP  http://zh.hortonworks.com/hdp/) 2.2中,HBase的高可用性得到了长足的发展,能够保证其上运行应用的正常运行时间达到99.99%. 本文将回顾过去12个月…