MemSQL 取代 HDFS 与 Spark 结合，性能大幅提升

3,597 次阅读 - 基础架构

Apache Spark是目前非常强大的分布式计算框架。其简单易懂的计算框架使得我们很容易理解。虽然Spark是在操作大数据集上很有优势，但是它仍然需要将数据持久化存储，HDFS是最通用的选择，和Spark结合使用，因为它基于磁盘的特点，导致在实时应用程序中会影响性能（比如在Spark Streaming计算中）。而且Spark内置就不支持事务提交(commit transactions)。

本文介绍的MemSQL 数据库号称是世界上最快的分布式内存数据库（The World’s Fastest In-Memory Database）！它是由Eric Frenkiel（前Facebook员工）和Nikita Shamgunov（前微软SQL Server高级工程师）创建的一款基于内存的分布式关系数据库，它通过将数据存储在内存中，并将SQL语句预编译为C++而获得极速的执行效率。它兼容MySQL，且速度要比MySQL快30倍，能实现每秒150万次事务。

最近在其官方发布的一个MemSQL Spark Connector可以很好地和Spark一起使用，使得Spark用户可以快速地读写数据库中的数据。MemSQL 天生就适合Spark，因为它可以高效地处理大量的读写，而Spark经常需要这样的操作，而且MemSQL可以提供大量的空间足以提供给Spark创建新的数据。

MemSQL Spark Connector提供了所有Spark和MemSQL交互的各种接口，而且其中做了许多的优化措施，比如并行地从MemSQL读取数据；当 MemSQL和Spark运行在一个物理节点上，Spark直接将数据写入其中。MemSQL提供了两个最主要的组建：MemSQLRDD和saveToMemsql。

MemSQLRDD用于存储从MemSQL查询的数据集；而saveToMemsql将Spark中的RDD数据写入到MemSQL表中。这两个接口和Spark内置的JDBC接口看起来很类似，而且使用方式也很类似（可以看这里《Spark与Mysql(JdbcRDD)整合开发》）。来看看如何使用MemSQLRDD。我们使用从MemSQL读取表数据，并存储在MemSQLRDD中：

`01`	`import` `com.memsql.spark.connector.rdd.MemSQLRDD`

02

03 ...

04

`05`	`val` `rdd` `=` `new` `MemSQLRDD(`

06 sc,

07 dbHost,

08 dbPort,

09 dbUser,

`10`	`dbPassword,`

11 dbName,

`12`	`"SELECT * FROM iteblog",`

`13`	`(r:` `ResultSet)` `=> { r.getString("test_column") })`

`14`	`rdd.first()` `// Contains the value of "test_column" for the first row`

如果你想将RDD写入到Memsql，可以使用saveToMemsql函数：

`1`	`import` `com.memsql.spark.connector._`

2

3 ...

4

`5`	`val` `rdd` `=` `sc.parallelize(Array(Array("www",` `"iteblog"), Array("com",` `"qux")))`

`6`	`rdd.saveToMemsql(dbHost, dbPort, dbUser, dbPassword,`

`7`	`dbName, outputTableName, insertBatchSize=1000)`

从上面的例子可以看出，使用Memsql和Spark结合是多么的容易。

本文翻译自: http://blog.memsql.com/memsql-spark–connector/

转载自过往记忆（http://www.iteblog.com/）
本文链接地址: 《使用Spark和MemSQL Spark连接器运行实时应用》（http://www.iteblog.com/archives/1327）

注：转载文章均来自于公开网络，仅供学习使用，不会用于任何商业用途，如果侵犯到原作者的权益，请您与我们联系删除或者授权事宜，联系邮箱：contact@dataunion.org。转载数盟网站文章请注明原文章作者，否则产生的任何版权纠纷与数盟无关。

MemSQL 取代 HDFS 与 Spark 结合，性能大幅提升的更多相关文章

【转载】Apache Spark Jobs 性能调优（二）
调试资源分配 Spark 的用户邮件邮件列表中经常会出现 "我有一个500个节点的集群,为什么但是我的应用一次只有两个 task 在执行",鉴于 Spark 控制资源使用的参数 ...
Spark：性能调优
来自:http://blog.csdn.net/u012102306/article/details/51637366 资源参数调优了解完了Spark作业运行的基本原理之后,对资源相关的参数就容易理 ...
Apache Spark Jobs 性能调优
当你开始编写 Apache Spark 代码或者浏览公开的 API 的时候,你会遇到各种各样术语,比如transformation,action,RDD(resilient distributed d ...
Spark的性能调优杂谈
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的. 基本概念和原则 <1> 每一台host上面可以并行N个worker,每一个worke ...
采用alluxio提升MR job和Spark job性能的注意点
1. 介绍 2. 实验说明 2.1 实验环境 2.2 实验方法 2.3 实验负载 3. MapReduce on alluxio 3.1 读取10G文件(1G split) 3.2 读取20G文件(1 ...
Spark实践 -- 性能优化基础
性能调优相关的原理讲解.经验总结: 掌握一整套Spark企业级性能调优解决方案:而不只是简单的一些性能调优技巧. 针对写好的spark作业,实施一整套数据倾斜解决方案:实际经验中积累的数据倾斜现象的表 ...
Spark的性能调优
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的. Data Serialization,默认使用的是Java Serialization,这个程序员 ...
Hive数据分析——Spark是一种基于rdd（弹性数据集）的内存分布式并行处理框架，比于Hadoop将大量的中间结果写入HDFS，Spark避免了中间结果的持久化
转自:http://blog.csdn.net/wh_springer/article/details/51842496 近十年来,随着Hadoop生态系统的不断完善,Hadoop早已成为大数据事实上 ...
Spark Streaming性能调优详解
Spark Streaming性能调优详解 Spark 2015-04-28 7:43:05 7896℃ 0评论分享到微博下载为PDF 2014 Spark亚太峰会会议资料下载.< ...

随机推荐

(转)Tomcat内存设置详解
Java内存溢出详解一.常见的Java内存溢出有以下三种: 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap(堆)溢出JVM在启 ...
学习笔记：GLSL Core Tutorial – Pipeline (OpenGL 3.2 – OpenGL 4.2)
GLSL Core Tutorial – Pipeline (OpenGL 3.2 – OpenGL 4.2) GLSL 是一种管道,一种图形化的流水线 1.GLSL 的具体工作流程: 简化流程如下: ...
navicat连接oracle时发现 ORA-12737 set CHS16GBK
oracle安装目录下找到目录:\product\11.2.0\dbhome_1\BIN, 将箭头标注的三个文件(截图中为navicat中的目录,已经测试成功,亲们可以参考)从目录中拷贝纸navica ...
dsplay:table页面合并表格
在实际项目中经常会遇到合并表格的情形,现在我将自己合并的方法写出来,供大家教参一下,顺便自己也作个备忘. <%@ page language="java" contentTy ...
Coupons and Discounts
Coupons and Discounts time limit per test 1 second memory limit per test 256 megabytes input standar ...
pipe的实现
本文进行了详细的描述,http://blog.csdn.net/zhouhong1026/article/details/8151235
linux的学习系列 9--网络通信
ping 命令 ping 命令会向网络上的主机发送应答请求,根据响应信息可以判断远程主机是否可用. ping 命令的语法: $ping hostname or ip-address 如果网络畅通,很快 ...
POJ1734/Floyd求最小环
Sightseeing trip Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 6647 Accepted: 2538 ...
arrayList里的快速失败
快速失败是指某个线程在迭代集合类的时候,不允许其他线程修改该集合类的内容,这样迭代器迭代出来的结果就会不准确. 比如用iterator迭代collection的时候,iterator就是另外起的一个线 ...
HDU 5479 Scaena Felix
水题,括号匹配,有几对匹配了,答案就是那个... #include<cstdio> #include<cstring> #include<cmath> #inclu ...

MemSQL 取代 HDFS 与 Spark 结合，性能大幅提升

MemSQL 取代 HDFS 与 Spark 结合，性能大幅提升

MemSQL 取代 HDFS 与 Spark 结合，性能大幅提升的更多相关文章

随机推荐

热门专题