Spark难道比oracle性能还差？百万级数据测试性能

本人对大数据方面也是刚刚研究，由于工作需要在实时查询与统计的性能方面要深入学习。现测试性能如下：

环境：VirtualBox host-only

ubuntu版本： Linux master 4.4.0-47-generic #68-Ubuntu SMP Wed Oct 26 19:39:52 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux

XXX.XXX.XXX.101　　master

XXX.XXX.XXX.102　　Slave1

XXX.XXX.XXX.103　　Slave2

XXX.XXX.XXX.104　　Client1

XXX.XXX.XXX.1　　　 HOST 　　数据库安装于宿主机器内

在master中start-all 成功启动后。slave1与Slave2 Work启动成功。

在Client机器中启动 spark-shell --master spark://master:7077 --jars ../lib/ojdbc6.jar 启动成功执行下面的指令

val url = "jdbc:oracle:thin:@XXX.XXX.XXX.1:1521:orcl" val tableName = "mytables" val prop = new java.util.Properties prop.setProperty("user","test") prop.setProperty("password","test")

prop.setProperty("driver","oracle.jdbc.driver.OracleDriver")

val predicates = Array( "2013-01-01" -> "2014-01-01", "2014-01-01" -> "2015-01-01", "2015-01-01" -> "2016-01-01",

"2016-01-01" -> "2017-01-01" ).map { case (start, end) => s" indbtime>= to_date('$start','yyyy-mm-dd') " + s" AND indbtime<= to_date( '$end','yyyy-mm-dd')" }

val jdbcDF = sqlContext.read.jdbc(url,tableName,predicates,prop)

scala> jdbcDF.count()

16/11/29 17:19:49 INFO DAGScheduler: Job 0 finished: count at <console>:30, took 41.144126 s

res4: Long = 1441039

结论：

1441039的数据耗时要41秒，而在数据库里直接用select count(*) from tables ，不到一秒就返回结果。

我知道集群的spark应该会比单机的oracle功能更强大，请高手指点，哪儿出的问题？

对数据库表里上亿条的数据各种组合条件与统计字段交叉，要求10秒内返回结果，请问大牛们，如何实现？？

大数据初学，问题有些低级，望专业人士不要见笑。

Spark难道比oracle性能还差？百万级数据测试性能的更多相关文章

ECshop网店系统百万级商品量性能优化-加快首页访问速度
如果ECshop的商品数达到几万,十几万的时候,如果首页没有缓存,第一次访问的时候,你会发现其慢无比,原因就是清空了Cache后或者没有Cache的情况下,ECshop会Bulid一些Cache数据, ...
ECshop网店系统百万级商品量性能优化-简单的一些Cache内存配置
ECshop网店系统对于产品的数据.模板.Query都可以缓存,也就是把一些商品详情页.分类页.Search页的数据经过一次访问后,用文件的形式保存下来,下次有人访问相同的页面时,不用再查数据库,直接 ...
百万级高并发mongodb集群性能数十倍提升优化实践
背景线上某集群峰值TPS超过100万/秒左右(主要为写流量,读流量很低),峰值tps几乎已经到达集群上限,同时平均时延也超过100ms,随着读写流量的进一步增加,时延抖动严重影响业务可用性.该集群采 ...
如何找出你性能最差的SQL Server查询
我经常会被反复问到这样的问题:”我有一个性能很差的SQL Server.我如何找出最差性能的查询?“.因此在今天的文章里会给你一些让你很容易找到问题答案的信息向导. 问SQL Server! SQL ...
sql server 查询性能最差的sql语句
SELECT TOP 10 TEXT AS 'SQL Statement' ,last_execution_time AS 'Last Execution Time' ,(total_logical_ ...
[Spark性能调优] 第一章：性能调优的本质、Spark资源使用原理和调优要点分析
本課主題大数据性能调优的本质 Spark 性能调优要点分析 Spark 资源使用原理流程 Spark 资源调优最佳实战 Spark 更高性能的算子引言我们谈大数据性能调优,到底在谈什么,它的本质 ...
[NewLife.XCode]实体列表缓存（最土的方法实现百万级性能）
NewLife.XCode是一个有10多年历史的开源数据中间件,支持nfx/netcore,由新生命团队(2002~2019)开发完成并维护至今,以下简称XCode. 整个系列教程会大量结合示例代码和 ...
SQL语句计算距离今天生日还差几天
转载于:http://www.w3dev.cn/article/20110125/sql-compute-birthdate-now-days.aspx SQL语句计算距离生日还差几天原理很简单,将要 ...
getBean(class )并发下性能较差,有锁.
spring 版本3.1.2 1. spring 并没有缓存 class -> beanDifinition 或者 sington 实例的缓存. 2. 只能先获取所有的beanDifitions ...

随机推荐

IA32寄存器与x86-64寄存器的区别
IA32寄存器一个IA32CPU包含一组8个存储32位值的通用寄存器,这些寄存器用来存储整数数据和指针: 31-0 15-0 15-8 7-0 使用惯例 %eax %ax %ah %al 调用者保存 ...
nodejs require
The rules of where require finds the files can be a little complex, but a simple rule of thumb is th ...
vyatta常用操作
vyatta是一个小巧而强大的基于debian的 Linux路由发行版,随着云计算的深入,云内部的虚拟机通信已经摆脱了物理路由器的束缚,而路由器变成了一个逻辑存在,而不是一个物理实体,云路由由此诞生, ...
将sqlserve数据绑定到dataGridView中及一些操作
一:将数据绑定到dataGridView控件上. string sqlconn = "server=.;database=student;integrated security=true&q ...
[转]Direct3D 11 Tessellation Tutorial
The new hardware tessellation feature available on Direct3D 11 video cards has great potential, but ...
wpf 常见死锁方式
Thread tr0 = new Thread(new ParameterizedThreadStart((obj1) => { lock (aaa) { Thread.Sleep(); thi ...
funny_python 00 The Zen of Python
# 打算每天多动的时候尽量搜索一些和coding相关的funny stuff Day 00 - PEP 20 The Zen of Python 在shell里面输入python -m this 回车 ...
nginx重启
ps aux | grep nginx 查找主进程号 kill 9666 /usr/local/nginx/sbin/nginx -c /usr/local/nginx/conf/nginx.co ...
驱动开发学习笔记. 0.04 linux 2.6 platform device register 平台设备注册 1/2 共2篇
驱动开发读书笔记. 0.04 linux 2.6 platform device register 平台设备注册 1/2 共2篇下面这段摘自 linux源码里面的文档 : Documentatio ...
java序列化深拷贝
java深拷贝序列化和反序列化合成在一起的方法CloneUtils import java.io.ByteArrayInputStream; import java.io.ByteArrayOutp ...

Spark难道比oracle性能还差？百万级数据测试性能

Spark难道比oracle性能还差？百万级数据测试性能的更多相关文章

随机推荐

热门专题