《OD大数据实战》HBase整合MapReduce和Hive

一、HBase整合MapReduce环境搭建

1. 搭建步骤
1）在etc/hadoop目录中创建hbase-site.xml的软连接。在真正的集群环境中的时候，hadoop运行mapreduce会通过该文件查找具体的hbase环境信息。

ln -s /opt/modules/cdh/hbase-0.98.-cdh5.3.6/conf/hbase-site.xml /opt/modules/cdh/hadoop-2.5.-cdh5.3.6/etc/hadoop/hbase-site.xml

2）将hbase需要的jar包添加到hadoop运行环境中，其中hbase需要的jar就是lib文件夹下面的所有*.jar文件。

在hadoop中添加其他第三方的jar有多种方式，比如添加hbase的jar到hadoop环境中。这里介绍三种：
（1）第一种：在hadoop-env.sh中添加HADOOP_CLASSPATH环境变量，value为hbase的lib文件夹下的所有jar文件。
（2）第二种：在系统级或者用户级修改*profile文件内容，在文件中添加HADOOP_CLASSPATH。
（3）第三种：直接将hbase的lib文件夹中所有jar文件复制到hadoop的share/hadoop/common/lib 或者share/hadoop/mapreduce等文件夹中。

3）使用hbase自带的server jar测试是否安装成功。

直接使用hbase自带的命名进行环境的测试，命令为：

hadoop jar $HBASE_HOME/lib/hbase-server-0.98.6-cdh5.3.6.jar rowcounter hbasetablename

运行该命名可以查看到我们指定table的行数。

二、案例：统计产品信息

编写自定义的MR程序读取hbase的数据或者往hbase中写数据注意点：
1. 如果是从hbase中读取数据，那么要求mapper实现TableMapper抽象类。如果是往hbase中写数据，而且是有reducer的情况下，要求reducer实现TableReducer抽象类。
2. 使用TableMapperReducerUtil类来进行job创建初始化操作。如果是往hbase中写数据，而且reducer是可以省略的话，那么我们也可以不指定reducer的具体类，直接使用指定null，比设置job的reducer的task个数为0.
3. 如果是在window环境中运行job(任务代码的执行时在window上)，那么需要将参数addDependency设置为false，或者将fs.defaultFS设置为file:///。如果是在集群中运行job，那么必须将addDependency设置为true，并且fs.defaultFS设置为hdfs://xxx
4. 代码参考：

三、HBase整合Hive环境搭建

《OD大数据实战》HBase整合MapReduce和Hive的更多相关文章

《OD大数据实战》驴妈妈旅游网大型离线数据电商分析平台
一.环境搭建 1. <OD大数据实战>Hadoop伪分布式环境搭建 2. <OD大数据实战>Hive环境搭建 3. <OD大数据实战>Sqoop入门实例 4. &l ...
《OD大数据实战》HDFS入门实例
一.环境搭建 1. 下载安装配置 <OD大数据实战>Hadoop伪分布式环境搭建 2. Hadoop配置信息 1)${HADOOP_HOME}/libexec:存储hadoop的默认环境 ...
《OD大数据实战》Hive环境搭建
一.搭建hadoop环境 <OD大数据实战>hadoop伪分布式环境搭建二.Hive环境搭建 1. 准备安装文件下载地址: http://archive.cloudera.com/cd ...
《OD大数据实战》MapReduce实战
一.github使用手册 1. 我也用github(2)——关联本地工程到github 2. Git错误non-fast-forward后的冲突解决 3. Git中从远程的分支获取最新的版本到本地 4 ...
《OD大数据实战》Hive入门实例
官方参考文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual 一.命令行和客户端 1. 命令窗口 1)进入命令窗口 hi ...
《OD大数据实战》环境整理
一.关机后服务重新启动 1. 启动hadoop服务 sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start datanode ...
《OD大数据实战》HBase入门实战
官方参考文档:http://abloz.com/hbase/book.html#shell_tricks 1.2.3. Shell 练习用shell连接你的HBase $ ./bin/hbase s ...
《OD大数据实战》HBase环境搭建
一.环境搭建 1. 下载 hbase-0.98.6-cdh5.3.6.tar.gz 2. 解压 tar -zxvf hbase-0.98.6-cdh5.3.6.tar.gz -C /opt/modul ...
《OD大数据实战》Sqoop入门实例
官网地址: http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.5-cdh5.3.6/SqoopUserGuide.html 一.环境搭建 1. 下载 s ...

随机推荐

opencv中的Bayes分类器应用实例
转载:http://blog.csdn.net/yang_xian521/article/details/6967515 PS:很多时候,我们并不需要特别精通某个理论,而且有的时候即便你非常精通,但是 ...
Springmvc jar包介绍
spring.jar是包含有完整发布的单个jar 包,spring.jar中包含除了spring-mock.jar里所包含的内容外其它所有jar包的内容,因为只有在开发环境下才会用到 spring-m ...
sublime text3 插件安装
安装Package control 先打开安装代码的命令行按 ctrl+~或者 view -> show console 将下面的代码粘贴到输入框里按回车 import urllib.re ...
从浏览器的console获取angularjs的scope
http://ionicframework.com/blog/angularjs-console/ 1: Access Scopes We can access any scope (even iso ...
一张思维导图说明jQuery的AJAX请求机制
比文字描述清晰多了吧?而且越是复杂的逻辑,思维导图的作用就越大,同时对阅读源码也是一种快捷的方法. 看不清楚的话可以右键,在新标签页中打开图片,或者保存本地.
slot的含义
1) slot就是槽的意思,是一个资源单位,只有给task分配了一个slot之后,这个task才可以运行.slot分两种,map slot沪蓉reduce slot.另外,slot是一个逻辑概念,一个 ...
JAVA 异常对于性能的影响
陶炳哲 - MAY 12, 2015 在对OneAPM的客户做技术支持时,我们常常会看到很多客户根本没意识到的异常.在消除了这些异常之后,代码运行速度与以前相比大幅提升.这让我们产生一种猜测,就是在代 ...
ios下最简单的正则，RegexKitLite
ios下最简单的正则,RegexKitLite 1.去RegexKitLite下载类库,解压出来会有一个例子包及2个文件,其实用到的就这2个文件,添加到工程中.备用地址:http://www.coco ...
poj 1085 Triangle War 博弈论+记忆化搜索
思路:总共有18条边,9个三角形. 极大极小化搜索+剪枝比较慢,所以用记忆化搜索!! 用state存放当前的加边后的状态,并判断是否构成三角形,找出最优解. 代码如下: #include<ios ...
C语言一些常用内存分配函数
首先看个问题程序(这里用的是TC编译器): #include "stdlib.h" #include "stdio.h" void main() { in ...

《OD大数据实战》HBase整合MapReduce和Hive

《OD大数据实战》HBase整合MapReduce和Hive的更多相关文章

随机推荐

热门专题