往hbase插入数据，你会选择哪种？

好久，好久没有写个博客了，自从上次封闭开始，到“自闭”，有了一段时间了，哈哈^_^ 、

多亏了云桌面的歇菜，一下午啥都干不了，突然想到，好久没有写点啥了，就写的，让时间流走有点痕迹吧 _(:з」∠)_

之前，做过一个小工具，就是将一个文件中的数据，插入的hbase中，将其简单阐述一番，多少记一点吧，要不在过一段时间都忘了。

插入到hbase中，有很多中选择，java的方式是可以的，但是做一个脚本，没有必要，操作起来不方便，还得编译，.... ,

选择shell或python的方式，是个方便的选择，反正是个小工具，有可能会随时调整，而且linux是自带的Python环境

要用Python脚步的方式插入到hbase,参考hbase的官方文档。

查看hbase Reference Guide, 里面介绍内容很多，包括很多入门操作说明等。
本次，主要是查看了如何更好的利用Python脚步插入到hbase中。
由于hbase是java写的，要用Python去执行查询插入数据到hbase中，是有两种方式走，

一种是利用thrift的方式，作为python和java中间翻译层，进行操作hbase的方式；
还有个方法，就是用Python包装一层linux shell方式，用hbase shell的方式操作hbae。

由于要用thrift方式，是需要开启服务，需要往Python安装其他第三方类库，增加运维人员负担，最后尝试后采用第二中方法。

用hbase shell 的方式，

使用Hbase Put API
使用Hbase批量加载工具
自定义的MapReduce job

这几种HBase数据导入方式(不推荐使用)
理由：

这三种方式都涉及到Put内置,大多数数据迁移到hbase场景,目前只是简单直接获取表结构和插入数据,使用单线程，这种效果非常慢，还得自己去写多线程完成，这样还是增加工作量和复杂度。

最后，查询官方文档后，得知ImportTsv是HBase官方提供的基于Mapreduce的批量数据导入工具。
同时ImportTsv是Hbase提供的一个命令行工具，可以将存储在HDFS上的自定义分隔符（默认\t）的数据文件，通过一条命令方便的导入到HBase表中，对于大数据量导入非常实用。
这种方式，是将要插入数据写放到HDFS上，这样保证数据不丢失，多份数据,然后开启MapReduce的方式，插入到hbase。当执行10w条数据插入没有问题，但100w的数据插入就会出现丢失情况。
解决方案是先用ImportTsv生成HFile,然后在用bulkload 的方式将HFIle导入到hbase的里面。

总结：
多看hbase的官方文档，但也要多搜索一下国内大牛写的博客，毕竟有人实际过，少尝试一些方法。

若您看到后，会用什么方式，可以留言讨论。

O(∩_∩)O哈哈~ 刚看了一下，云桌面好了，干活了!

往hbase插入数据，你会选择哪种？的更多相关文章

Mysql 插入数据，随机事件选择
在拼写sql的时候,mysql字段如果需要添加当前时间可以用NOW() 函数 // String sql = ("insert into tablename(content, create ...
通过时间戳批量删除hbase的数据
如何通过时间戳批量删除hbase的数据我们使用hive关联hbase插入数据时,有时会写错数据,此时hbase中的数据量已经很大很大了(上亿).此时,我们要修改错误的数据,只需要删除写错的那部分数据 ...
C#批量插入数据到Sqlserver中的四种方式
我的新书ASP.NET MVC企业级实战预计明年2月份出版,感谢大家关注! 本篇,我将来讲解一下在Sqlserver中批量插入数据. 先创建一个用来测试的数据库和表,为了让插入数据更快,表中主键采用的 ...
C#批量插入数据到Sqlserver中的三种方式
本篇,我将来讲解一下在Sqlserver中批量插入数据. 先创建一个用来测试的数据库和表,为了让插入数据更快,表中主键采用的是GUID,表中没有创建任何索引.GUID必然是比自增长要快的,因为你生成 ...
C#_批量插入数据到Sqlserver中的四种方式
先创建一个用来测试的数据库和表,为了让插入数据更快,表中主键采用的是GUID,表中没有创建任何索引.GUID必然是比自增长要快的,因为你生成一个GUID算法所花的时间肯定比你从数据表中重新查询上一条记 ...
C# 之批量插入数据到 SQLServer 中
创建一个用来测试的数据库和表,为了让插入数据更快,表中主键采用的是GUID,表中没有创建任何索引.GUID必然是比自增长要快.而如果存在索引的情况下,每次插入记录都会进行索引重建,这是非常耗性能的.如 ...
C#批量插入数据到Sqlserver中的四种方式 - 转
先创建一个用来测试的数据库和表,为了让插入数据更快,表中主键采用的是GUID,表中没有创建任何索引.GUID必然是比自增长要快的,因为你生成一个GUID算法所花的时间肯定比你从数据表中重新查询上一条记 ...
浅谈c++中map插入数据的用法
map:数据的插入在构造map容器后,我们就可以往里面插入数据了.这里讲三种插入数据的方法:第一种:用insert函数插入pair数据 map<int, string> mapStude ...
【转载】C#批量插入数据到Sqlserver中的三种方式
引用:https://m.jb51.net/show/99543 这篇文章主要为大家详细介绍了C#批量插入数据到Sqlserver中的三种方式,具有一定的参考价值,感兴趣的小伙伴们可以参考一下本篇, ...

随机推荐

[linux]查找最大的文件
查找最大的日志文件,命令: find ./ -type f | xargs -I{} du -m {}|sort -rnk1|head -10 offline一台机器保留限产,其他机器删除日志,命令: ...
mysql 5.7.25中ibtmp1文件过大
问题描述生产环境linux suse11.4, 根目录/ 下大小:50G, ibtmp1大小:31G, 磁盘空间爆满100%告警. ibtmp1文件说明 ibtmp1是非压缩的innodb临时表的独 ...
mysqldump 备份
1. 直接备份某个库或表 ,或多个库多个表mysqldump -uroot -pPassword [database name] > [dump file]mysqldump -uroot - ...
Linux安装在虚拟机上
虚拟机上安装centos7 minimal 详细操作链接:https://blog.csdn.net/babyxue/article/details/80970526 镜像文件 xxx.iso 本质就 ...
Springboot 2.1.1.RELEASE 版本 session保存到MySQL里面
1,pom.xml添加依赖:  <dependency> <groupId>org.springframework.ses ...
springboot 打包太大,打包瘦身,打包thin
pom文件修改: <build> <resources> <resource> <directory>src/main/resources</di ...
Python3如何上传自己的PyPI项目
有过一定的 Python 经验的开发者都知道,当引入第三方包时,我们常常会使用 pip install 命令来下载并导入包. 那么,如何写一个自己的包,上传到 PyPI 呢,其他开发者也可以通过 pi ...
Opencv python图像处理-图像相似度计算
一.相关概念一般我们人区分谁是谁,给物品分类,都是通过各种特征去辨别的,比如黑长直.大白腿.樱桃唇.瓜子脸.王麻子脸上有麻子,隔壁老王和儿子很像,但是儿子下巴涨了一颗痣和他妈一模一样,让你确定这是你 ...
Type Encodings
https://developer.apple.com/library/content/documentation/Cocoa/Conceptual/ObjCRuntimeGuide/Articles ...
Servlet／Tomcat/ Spring 之间的关系
0.基础知识在idea中打开servlet的源码: 可以看见servlet就是一个接口:接口就是规定了一些规范,使得一些具有某些共性的类都能实现这个接口,从而都遵循某些规范. 有的人往往以为就是se ...

往hbase插入数据，你会选择哪种？

往hbase插入数据，你会选择哪种？的更多相关文章

随机推荐

热门专题