Hadoop学习笔记3---安装并运行Hadoop】的更多相关文章

本文环境是在Ubuntu10.04环境下运行的. 在Linux上安装Hadoop之前,首先安装两个程序: 1.JDK1.6(或更高版本).Hadoop是用Java编写的程序,Hadoop编译及MapReduce的运行都需要使用JDK.因此在安装Hadoop之前,必须安装JDK1.6或更高版本. 2.SSH( Secure Shell 安全外壳协议).SSH 为建立在应用层和传输层基础上的安全协议.SSH 是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议.利用 SSH 协议可以有效防止…
安装前的一些环境配置: 1. 给用户添加sudo权限,输入su - 进入root账号,然后输入visudo,进入编辑模式,找到这一行:"root ALL=(ALL) ALL"在下面添加"xxx ALL=(ALL) ALL"(这里的xxx是你的用户名),然后保存退出 2. 将JDK压缩包解压到某一目录下tar -zxvf jdk-8u71-linux-x64.gz,并且配置JAVA_HOME以及HADOOP_HOME参数.用文本编辑器打开/etc/profile, 在…
1. 在官网http://hive.apache.org/下载所需要版本的Hive,以下我们就以hive 2.1.0版为例. 2. 将下载好的压缩包放到指定文件夹解压,tar -zxvf apache-hive-2.1.0-bin.tar.gz. 3. 将Hive安装路径添加到/etc/profile中,之后用source命令使其生效. 4. 执行初始化命令:schematool -dbType derby -initSchema 查看初始化后的信息: schematool -dbType de…
内嵌模式,存储于本地的Derby数据库中,只支持单用户 本地模式,支持多用户多会话,例如存入mysql 下载解压hive后,进到conf路径,将模板拷贝 出现该错误表示权限不够 该目录未找到 新建一个/tmp/hive目录,可建在集群同级目录,然后修改hive-site.xml文件 再次执行hive: 发现路径前多了个$符,删除即可 内嵌模式安装完毕 安装数据库后,在数据库中创建hive账户: 之后退出,然后用hive账号进入mysql验证,然后下载mysqljdbc驱动,放到hive的lib目…
hadoop完整安装目录结构: 比较重要的包有以下4个: src hadoop源码包.最核心的代码所在目录为core.hdfs和mapred,他们分别实现了hadoop最重要的3个模块:基础公共库.HDFS实现和MapReduce实现 conf 配置文件所在目录.hadoop的配置文件较多,其设计原则可概括为以下两点: 1 尽可能模块化,即每个重要模块拥有自己的配置文件,这样使得维护及管理变得简单. 2 动静分离,即将可动态加载的配置选项剥离出来,组成独立配置文件.比如 hadoop1.0.0版…
本文原创,如需转载,请注明作者以及原文链接! 一.前期准备: 1.jdk安装        不要用centos7自带的openJDK2.hostname    配置       配置位置:/etc/sysconfig/network文件3.hosts           配置        配置位置 : /etc/hosts4.date            配置       date -s "....."设置日期一致5.   关闭安全机制 /etc/sysconfig/selinux…
map->shuffle->reduce map(k1,v1)--->(k2,v2) reduce(k2,List<v2>)--->(k2,v3) 传输类型:org.apache.hadoop.io 访问HDFS文件系统 1.java.net.URL 的setURLStreamHandlerFactory() 方法.每个java虚拟机只能调用一次,因此通常在静态方法中调用.如果引用的第三方组件调用过,再次调用会报错. public class App { static{…
一.hadoop1.x的生态系统 HBase:实时分布式数据库 相当于关系型数据库,数据放在文件中,文件就放在HDFS中.因此HBase是基于HDFS的关系型数据库.实时性:延迟非常低,实时性高. 举栗:在近18亿条数据的表中查询1万条数据仅需1.58s,这是普通数据库(Oracle集群,Mysql集群)无法办到的. HDFS:分布式文件系统 MapReduce:分布式计算框架 Zookeeper:分布式协作服务 协作HBase存储.管理.查询数据,Zookeeper是一个很好的分布式协作服务框…
自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔记系列>.其实,早在2014年Hadoop2.x版本就已经开始流行了起来,并且已经成为了现在的主流.当然,还有一些非离线计算的框架如实时计算框架Storm,近实时计算框架Spark等等.相信了解Hadoop2.x的童鞋都应该知道2.x相较于1.x版本的更新应该不是一丁半点,最显著的体现在两点: (1)H…
Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello Word. OK,我们先来看一下当时在命令行里输入的内容: $mkdir input $cd input $echo "hello world">test1.txt $echo "hello hadoop">test2.txt $cd .. $bin/ha…