hbase首次导入大批次的数据成功！

本次主要是采用hbase自带的importtsv工具来导入。首先要把数据文件上传到hdfs上，然后导入hbase表格。该导入方式只支持.tsv数据文件的导入。

导入流程：

1.下载数据。我们在本文中将使用 “美国国家海洋和大气管理局气候平均值”的公共数据集合。访问http://www1.ncdc.noaa.gov/pub/data/normals/1981-2010/下载。我们使用在目录 products | hourly 下的小时温度数据（可以在上述链接页面中找到）。下载hly-temp-10pctl.txt文件。

2.用Python脚本将其处理，添加rowkey，并且处理成.tsv文件。Python脚本见：https://github.com/uprush/hac-book/blob/master/2-data-migration/script/to_tsv_hly.py，脚本内容有待进一步学习研究。

3.第三部就是创建用户hac,用于运行job；建议在生产环境如此实施。为了能够从客户端运行MapReduce Job，你需要将${hadoop.tmp.dir}目录的写权限开放给客户端的hac用户,我这里是/tmp下面的，具体的话还是见配置文件，最好是把目录建立在/usr/hadoop/tmp下面。

1 2	`root@client1# usermod -a -G hadoop hac` `root@client1# chmod -R 775 /tmp`

这里如果还不行的话，就直接chmod a+w /tmp

在HDFS中为hac用户建立主文件夹：

1 2	`hadoop@client1$ $HADOOP_HOME/bin/hadoop` `fs -mkdir` `/user/hac` `hadoop@client1$ $HADOOP_HOME/bin/hadoop` `fs -chown` `hac` `/user/hac`

并且同时也确认hac用户在HDFS中的MapReduce的临时目录中也有写权限：$HADOOP_HOME/bin/hadoop fs -chmod -R 775 /usr/local/hadoop/var/mapred我这里这个目录是不存在的，我是建好了以后又修改的权限。

4.接下来就是将.tsv文件上传到hdfs了，hadoop fs -mkdir /usr/hac/input 建立hdfs上文件的存放位置，hadoop fs -copyFromLocal /usr/hadoop/hly-temp-10pctl.tsv /usr/hac/input 完了以后可以查看一下hadoop fs -ls /usr/hac/input，有的话上传成功。

5.接下来建表create 'hly_temp', {NAME => 't', VERSIONS => 1}

6.使用hac用户运行importtsv工具，执行如下脚本：hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.columns=HBASE_ROW_KEY,t:v01,t:v02,t:v03,t:v04,t:v05,t:v06,t:v07,t:v08,t:v09,t:v10,t:v11,t:v12,t:v13,t:v14,t:v15,t:v16,t:v17,t:v18,t:v19,t:v20,t:v21,t:v22,t:v23,t:v24 hly_temp /usr/hac/input

过程中显示map **%,reduce 0%等等

7.验证：count 'hly_temp'

95630 row(s) in 12.2020 seconds

scan 'hly_temp', {COLUMNS => 't', LIMIT => 10}

AQW000617050110 column=t:v23,

timestamp=1322959962261, value=781S

AQW000617050110 column=t:v24,

timestamp=1322959962261, value=774C

10 row(s) in 0.1850 seconds

至此，导入成功！！！！

本文详细过程见：http://www.importnew.com/3645.html

还有一本伟大的书：HBase Administration Cookbook

hbase首次导入大批次的数据成功！的更多相关文章

Mysql导入大SQL文件数据问题
如果sql文件过大,会出现mysql out of memory (Needed XXX bytes) ,或者 "MySQL server has gone away"问题; 另 ...
java 跨数据库导入大数据
java 跨数据库导入大数据 /** * java程序跨服务器跨数据库批量导入导出百万级数据 * @param args * @throws Exception */ public static vo ...
[原创]HBase学习笔记（4）- 数据导入
需要分别从Oracle和文本文件往HBase中导入数据,这里介绍几种数据导入方案. 1.使用importTSV导入HBase importTSV支持增量导入.新数据插入,已存在数据则修改. 1.1.首 ...
Hbase 学习（十一）使用hive往hbase当中导入数据
我们可以有很多方式可以把数据导入到hbase当中,比如说用map-reduce,使用TableOutputFormat这个类,但是这种方式不是最优的方式. Bulk的方式直接生成HFiles,写入到文 ...
sqlcmd导入大数据文件
sqlcmd导入大数据文件 SQLCMD 允许在Windows命令窗中通过命令行提示符运行脚本. 语法如下: sqlcmd [ { { -U <login id> [ -P <p ...
HBase 写优化之 BulkLoad 实现数据快速入库
在第一次建立Hbase表的时候,我们可能需要往里面一次性导入大量的初始化数据.我们很自然地想到将数据一条条插入到Hbase中,或者通过MR方式等.但是这些方式不是慢就是在导入的过程的占用Region资 ...
选择阿里云数据库HBase版十大理由
根据Gartner的预计,全球非关系型数据库(NoSQL)在2020~2022预计保持在30%左右高速增长,远高于数据库整体市场. 阿里云数据库HBase版也是踏着技术发展的节奏,伴随着NoSQL和大 ...
HBase Shell 十大花式玩儿法
前言:工欲善其事必先利其器,今天给大家介绍一下HBase Shell十大花式利器,在日常运维工作中,可以试着用起来. 1. 交互模式也就是我们最常用到的Shell命令行的方式. $ hbase sh ...
导入CSV格式的数据
导入CSV格式的数据 (参见http://dev.mysql.com/doc/refman/5.6/en/load-data.html) 1.数据库表(st_pptn_r) CREATE TABLE ...

随机推荐

Go语言之讲解GOROOT、GOPATH、GOBIN
Go是一门全新的静态类型开发语言,具有自动垃圾回收,丰富的内置类型,函数多返回值,错误处理,匿名函数,并发编程,反射等特性． go命令依赖一个重要的环境变量:$GOPATH GOPATH允许多个目录, ...
Expressions入门示例
学习表达式的入门例子,前提是要对委托有一定的了解,泛型明白一些.using System; using System.Linq; using System.Linq.Expressions; usin ...
201621123008 《Java程序设计》第13周学习总结
1. 本周学习总结以你喜欢的方式(思维导图.OneNote或其他)归纳总结多网络相关内容. 2. 为你的系统增加网络功能(购物车.图书馆管理.斗地主等)-分组完成为了让你的系统可以被多个用户通过网 ...
fetch获取json的正确姿势
fetch要求参数传递,遇到请求无法正常获取数据,网上其他很多版本类似这样: fetch(url ,{ method: 'POST', headers:{ 'Accept': 'application ...
IOS初级：UIAlertController
- (IBAction)signOutAction:(id)sender { //初始化,StyleActionSheet是对话框的样式 UIAlertController *alert = [UIA ...
弹出DIV锁定代码
<html> <head> <meta http-equiv="Content-Type" content="text/html; ch ...
几张图片帮助记忆docker基本原理(转)
写的非常好的一篇文章,不知道为什么被删除了. 利用Google快照,做个存档. 快照地址:地址作者地址:青牛什么是dockerDocker 是一个开源项目,诞生于 2013 年初,最初是 dotC ...
2018.12.17 bzoj3667: Rabin-Miller算法（Pollard-rho）
传送门 Pollard−rhoPollard-rhoPollard−rho板题. 题意简述:给出几个数,让你判断是不是质数,如果不是质数就求出其最大质因子,数的大小为1e181e181e18以内. 先 ...
2018.11.06 bzoj1093: [ZJOI2007]最大半连通子图（缩点+拓扑排序）
传送门先将原图缩点,缩掉之后的点权就是连通块大小. 然后用拓扑排序统计最长链数就行了. 自己yyyyyy了一下一个好一点的统计方法. 把所有缩了之后的点都连向一个虚点. 然后再跑拓扑,这样最后虚点的 ...
牛客训练三：处女座的比赛（hash打表）
题目链接:传送门思路:由于MOD只有9983大小,所以四位小写字母的字符串组合有26+26^2+26^3+26^4=475254种组合. 所以只要每次枚举出从1到475254中的hash值对应的字符 ...

hbase首次导入大批次的数据成功！

hbase首次导入大批次的数据成功！的更多相关文章

随机推荐

热门专题