scala_spark实践3

Spark 读写HBase优化

读数据

可以采用RDD的方式读取HBase数据：

val conf = HBaseConfiguration.create()

conf.set(TableInputFormat.INPUT_TABLE, hTabName) //设置查询的表名

val rdd = sparkContext.newAPIHadoopRDD(

  conf,

  classOf[TableInputFormat],

  classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],

  classOf[org.apache.hadoop.hbase.client.Result]

)

写数据

可以采用bulk的方式写数据：

val conf = HBaseConfiguration.create()

conf.set(TableOutputFormat.OutPUT_TABLE, hTabName) //设置要输出的表名

rdd.map({

    val put = new Put(Bytes.toBytes("行键"))

    ...

    (new ImmutableBytesWritable, put)           //转换成HBaseRDD的形式

}).saveAsNewAPIHadoopDataset(conf)

个人见解：

使用RDD的形式，Spark可能会事先建立与HBase的连接并广播到各个分区并行拉取数据。
使用bulk则是调用HBase原本具有的加载文件的工具：bulkLoad，通过事先转换成HFile文件，使得HBase可以跳过WAL日志机制和flush机制，直接将文件加载到存储中。

scala_spark实践3的更多相关文章

scala_spark实践4
SparkStreaming中foreachRDD SparkStreaming是流式实时处理数据,就是将数据流按照定义的时间进行分割(就是“批处理”).每一个时间段内处理的都是一个RDD.而Spar ...
scala_spark实践2
参考:jianshu.com/p/9d2d225c1951 监听socket获取数据,代码如下:这里使用nc -lk 9999 在ip为10.121.33.44的机器上发送消息 object Sock ...
scala_spark实践1
/** * scala模型的main(args:Array[String])是业务执行入口 * org.apache.spark.{SparkConf, SparkContext} * val spa ...
webp图片实践之路
最近,我们在项目中实践了webp图片,并且抽离出了工具模块,整合到了项目的基础模板中.传闻IOS10也将要支持webp,那么使用webp带来的性能提升将更加明显.估计在不久的将来,webp会成为标配. ...
Hangfire项目实践分享
Hangfire项目实践分享目录 Hangfire项目实践分享目录什么是Hangfire Hangfire基础基于队列的任务处理(Fire-and-forget jobs) 延迟任务执行(De ...
TDD在Unity3D游戏项目开发中的实践
0x00 前言关于TDD测试驱动开发的文章已经有很多了,但是在游戏开发尤其是使用Unity3D开发游戏时,却听不到特别多关于TDD的声音.那么本文就来简单聊一聊TDD如何在U3D项目中使用以及如何使 ...
Logstash实践: 分布式系统的日志监控
文/赵杰 2015.11.04 1. 前言服务端日志你有多重视? 我们没有日志有日志,但基本不去控制需要输出的内容经常微调日志,只输出我们想看和有用的经常监控日志,一方面帮助日志微调,一方面及 ...
【大型网站技术实践】初级篇：借助Nginx搭建反向代理服务器
一.反向代理:Web服务器的“经纪人” 1.1 反向代理初印象反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从 ...
Windows平台分布式架构实践 - 负载均衡
概述最近.NET的世界开始闹腾了,微软官方终于加入到了对.NET跨平台的支持,并且在不久的将来,我们在VS里面写的代码可能就可以通过Mono直接在Linux和Mac上运行.那么大家(开发者和企业)为 ...

随机推荐

JavaScript进阶之高阶函数篇
JavaScript进阶之高阶函数篇简介:欢迎大家来到woo爷说前端:今天给你们带来的是JavaScript进阶的知识,接下来的系列都是围绕着JavaScript进阶进行阐述:首先我们第一篇讲的是高 ...
Java中的Xml配置文件（新手）
Java中的Xml配置文件,本文是转发转发转发!重要的事情说三遍一:概念 1.XML Extensible markup Language 可拓展标记语言 2.功能:存储数据(配置文件,在网络中传 ...
Natas34 Writeup（闯关结束！）
Natas34: 登录什么都不用做,闯关结束!撒花~~~
MyBatis框架——单表查询
Mybatis单表查询,示例 1.创建数据库 /* Navicat MySQL Data Transfer Source Server : localhost Source Server Versio ...
Mol Cell Proteomics. | MARMoSET – Extracting Publication-ready Mass Spectrometry Metadata from RAW Files
本文是马克思普朗克心肺研究所的三名研究者Marina Kiweler.Mario Looso和Johannes Graumann发表在8月刊的MCP的一篇文章. 由于Omics实验经常涉及数百个数据文 ...
运行docker大致流程
平时部署测试环境使用jenkins将代码打包成docker镜像部署在rancher中,闲下来研究了一下docker的大致流程,自己画了一个流程图
jQuery的层级选择器
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8 ...
js 的位运算
api 用途待更...
纯html加css的键盘UI效果图
先上效果图: 没有打字的功能,纯属是个界面图(一时无聊写的) 代码如下: <!DOCTYPE html> <html> <head> <meta charse ...
【Redis】集群教程（Windows）
概述 Redis集群数据分片 Redis集群节点通讯环境准备搭建Redis集群测试Redis集群概述 Redis Cluster provides a way to run a Redis i ...

scala_spark实践3

Spark 读写HBase优化

读数据

写数据

scala_spark实践3的更多相关文章

随机推荐

热门专题