spark运算结果写入hbase及优化

在Spark中利用map-reduce或者spark
sql分析了数据之后，我们需要将结果写入外部文件系统。

本文，以向Hbase中写数据，为例，说一下，Spark怎么向Hbase中写数据。

首先，需要说一下，下面的这个方法。

foreach (func)

最通用的输出操作，把func作用于从map-reduce生成的每一个RDD(spark  sql生成的DataFrame可转成RDD)。

注意：这个函数是在运行spark程序的driver进程中执行的。

下面跟着思路，看一下，怎么优雅的向Hbase中写入数据

向外部数据库写数据，通常会建立连接，使用连接发送数据(也就是保存数据)。

<pre name="code" class="java"><span style="font-size:18px;color:#003300;">DataFrame dataFrame = Contexts.hiveContext.sql("select * from tableName");

dataFrame.javaRDD().foreach(new VoidFunction<Row> () {

    public void call(Row row) {

        HConnection conn = ...

        HTableInterface htable = conn.getTable("");

        //save to hbase

    }

});</span>

很遗憾！这种写法是有极大风险的，这会导致，对于每条数据，都创建一个connection(创建connection是消耗资源的)。

事实上，由于数据是分区的，基于这个特性，还可以有更高效的方式

下面的方法会好一些：

<span style="font-size:18px;color:#003300;">DataFrame dataFrame = Contexts.hiveContext.sql("select * from tableName");

dataFrame.javaRDD().foreachPartition(new VoidFunction<Iterator<Row>> () {

    public void call(Iterator<Row> rows) {

        HConnection conn = ...

        HTableInterface htable = conn.getTable("");

        while(rows.hasNext()){

            //save to hbase

        }

    }

});</span>

上面的方法，使用 rdd.foreachPartition创建一个connection对象，一个RDD分区中的所有数据，都使用这一个connection。

在多个RDD之间，connection对象是可以重用的，所以可以创建一个连接池。如下：

<span style="font-size:18px;color:#003300;">dataFrame.javaRDD().foreachPartition(new VoidFunction<Iterator<Row>> () {

    public void call(Iterator<Row> rows) {

        HTableInterface htable = TablePool.getHTable("");

        while(rows.hasNext()){

            //save to hbase

        }

    }

});</span>

注意：连接池中的连接应该是，应需求而延迟创建，并且，如果一段时间没用，就超时了(也就是关闭该连接)。

spark运算结果写入hbase及优化的更多相关文章

Spark RDD批量写入Hbase
MapReduce和Spark写入Hbase多表总结
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处大家都知道用mapreduce或者spark写入已知的hbase中的表时,直接在mapreduc ...
Spark Streaming实时写入数据到HBase
一.概述在实时应用之中,难免会遇到往NoSql数据如HBase中写入数据的情景.题主在工作中遇到如下情景,需要实时查询某个设备ID对应的账号ID数量.踩过的坑也挺多,举其中之一,如一开始选择使用NE ...
Spark DataFrame写入HBase的常用方式
Spark是目前最流行的分布式计算框架,而HBase则是在HDFS之上的列式分布式存储引擎,基于Spark做离线或者实时计算,数据结果保存在HBase中是目前很流行的做法.例如用户画像.单品画像.推荐 ...
kerberos环境下spark消费kafka写入到Hbase
一.准备环境: 创建Kafka Topic和HBase表 1. 在kerberos环境下创建Kafka Topic 1.1 因为kafka默认使用的协议为PLAINTEXT,在kerberos环境下需 ...
大数据学习day34---spark14------1 redis的事务(pipeline)测试，2. 利用redis的pipeline实现数据统计的exactlyonce ，3 SparkStreaming中数据写入Hbase实现ExactlyOnce， 4.Spark StandAlone的执行模式，5 spark on yarn
1 redis的事务(pipeline)测试 Redis本身对数据进行操作,单条命令是原子性的,但事务不保证原子性,且没有回滚.事务中任何命令执行失败,其余的命令仍会被执行,将Redis的多个操作放到 ...
HBase性能优化方法总结(转)
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法.有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客. 1. 表的设计 1.1 Pr ...
HBase性能优化方法总结（一）：表的设计
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法.有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客. 下面是本文总结的第一部分内容:表的设计相关的优化方法 ...
hbase性能优化总结
hbase性能优化总结 1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都 ...

随机推荐

thinkphp3.2v
1.thinphp环境搭建一.将thinkphp文件拿出来,对我们有用的是cof和library,其他对开发都没有作用. 在thinkphp/library/think文件夹中几个重要的文件 1.A ...
MySQL · 引擎特性 · InnoDB 同步机制
前言现代操作系统以及硬件基本都支持并发程序,而在并发程序设计中,各个进程或者线程需要对公共变量的访问加以制约,此外,不同的进程或者线程需要协同工作以完成特征的任务,这就需要一套完善的同步机制,在Li ...
MySql 使用规范推荐
前言废话不多说-- 一.基础规范 1.使用InnoDB存储引擎支持事务.行级锁.并发性能更好.CPU及内存缓存页优化使得资源利用率更高 2.推荐使用utf8mb4字符集无需转码,无乱码风险, 支 ...
mysql-5.7.18-winx64 免安装版配置
如题,最新的都是只有免安装版的,可以官网下载zip的压缩包. 下载后解压,如下下面就开始配置 1.在path中添加环境变量 ;D:\coding\mysql-5.7.18-winx64\bin; ← ...
Divide by Zero 2017 and Codeforces Round #399 (Div. 1 + Div. 2, combined)
C题卡了好久,A掉C题之后看到自己已经排在好后面说实话有点绝望,最后又过了两题,总算稳住了. AC:ABCDE Rank:191 Rating:2156+37->2193 A.Oath of t ...
bzoj1043[HAOI2008]下落的圆盘计算几何
1043: [HAOI2008]下落的圆盘 Time Limit: 10 Sec Memory Limit: 162 MBSubmit: 1598 Solved: 676[Submit][Stat ...
bzoj2442[Usaco2011 Open]修剪草坪单调队列优化dp
2442: [Usaco2011 Open]修剪草坪 Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 1159 Solved: 593[Submit] ...
Windows系统提供什么样的接口，Unix、Linux系统的用户接口是什么？
Windows:图形化用户界面 Unix.Linux:独立的环境.
视频人脸检测——OpenCV版（三）
视频人脸检测是图片人脸检测的高级版本,图片检测详情点击查看我的上一篇<图片人脸检测——OpenCV版(二)> 实现思路: 调用电脑的摄像头,把摄像的信息逐帧分解成图片,基于图片检测标识出人 ...
简易js进度条
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...

spark运算结果写入hbase及优化

spark运算结果写入hbase及优化的更多相关文章

随机推荐

热门专题