【互动问答分享】第5期决胜云计算大数据时代Spark亚太研究院公益大讲堂
Spark亚太研究院100期公益大讲堂 【第5期互动问答分享】
Q1:spark怎样支持即席,应该不是spark sql吧,是hive on spark么?
Spark1.0 以前支持即席查询的技术是Shark;
Spark 1.0和 Spark 1.0.1支持的即席查询技术是Spark SQL;
尚未发布的Spark 1.1开始 Spark SQL是即席查询的核心,我们期待Hive on Spark也能够支持即席查询;
Q2:现在spark 1.0.0版本是支持hive on spark么,它支持cli交互式访问么?
Spark1.0.0不支持hive on spark;
hive on spark这个项目正在开发中,预计在 Spark 1.1版本的时候发布;
Spark 1.0.0现在还不直接支持cli访问;
Q3:spark sql和hbase怎么结合呢?
Spark sql和hbase即可要借助于Spark core的RDD功能;
使用hbase的时候需要导入hbase在Spark上的包
Spark 1.0.0现在还不直接支持cli访问;
Q4:sparkSql支持sql全吗?老师 可以把现在的PLSQL 直接转换为 SPARKSQL么?
Spark sql现在支持SQL-92的基本功能,后续版本不会不断增强;
PLSQL 现在还不能够直接转为Spark SQL;
想要更强的SQL支持,在Spark1.0.0和Spark1.0.1版本可以考虑Hive in Spark SQL的功能;
Q5:如果支持hive on spark,那么什么时候用spark sql,什么时候用hive on spark?
Hive on spark预计在Spark 1.1这个版本发布,核心功能是要在Spark上使用已有的Hive的一切数据和功能;
和hive不相关都可以使用Spark SQL;
从理论上讲随着Spark SQL在未来版本的不断增强,可以做hive的一切事情;
Q6:Spark SQL可以使用group by 吗?
Spark SQL可以使用group by的功能;
在SchemaRDD中有group by的支持;
groupBy(groupingExprs: Expression*)(aggregateExprs: Expression*): SchemaRDD
l Performs a grouping followed by an aggregation.
Q7:spark sql 现在支持sql的那些操作 一直在官网上没能找到相应的document?
Spark SQL API的官方Document网址
l http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.SchemaRDD ;
Spark SQL使用的官方网址
http://spark.apache.org/docs/latest/sql-programming-guide.html
【互动问答分享】第5期决胜云计算大数据时代Spark亚太研究院公益大讲堂的更多相关文章
- 【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂
"决胜云计算大数据时代" Spark亚太研究院100期公益大讲堂 [第15期互动问答分享] Q1:AppClient和worker.master之间的关系是什么? AppClien ...
- 【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第13期互动问答分享] Q1:tachyon+spark框架现在有很多大公司在使用吧? Yahoo!已经在长期大规模使用: 国内也有 ...
- 【互动问答分享】第10期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第10期互动问答分享] Q1:Spark on Yarn的运行方式是什么? Spark on Yarn的运行方式有两种:Client ...
- 【互动问答分享】第8期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第8期互动问答分享] Q1:spark线上用什么版本好? 建议从最低使用的Spark 1.0.0版本,Spark在1.0.0开始核心 ...
- 【互动问答分享】第7期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第7期互动问答分享] Q1:Spark中的RDD到底是什么? RDD是Spark的核心抽象,可以把RDD看做“分布式函数编程语言”. ...
- 【互动问答分享】第6期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第6期互动问答分享] Q1:spark streaming 可以不同数据流 join吗? Spark Streaming不同的数据流 ...
- 【互动问答分享】第11期决胜云计算大数据时代Spark亚太研究院公益大讲堂
Q1:docker成熟度如何? Docker是2013年和2014年最火爆的云计算开源项目: Baidu公司是中国使用Docker最为深入和最大规模的公司,线上稳定运行数十万个Docker容器,目前已 ...
- 【互动问答分享】第18期决胜云计算大数据时代Spark亚太研究院公益大讲堂
Q1:Master和Driver的是同一个东西吗? 两者不是同一个东西,在Standalone模式下Master是用于集群资源管理和调度的,而Driver适用于指挥Worker上的Executor通过 ...
- 如何成为云计算大数据Spark高手
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库.流处理和图计算等多种计算范式,是罕见的全能选手. ...
随机推荐
- Aspose.Pdf合并图片到PDF文件
将图片和PDF文件合成为新的PDF文件,可以先将图片转换为PDF文件, 然后合成PDF即可, 将图片转换成PDF文件有如下方法: Aspose.Pdf.Document Aspose.Pdf.Gene ...
- 感觉自己应该重新读一次Javascript
我自己也有一本Javascript书籍,是自己上大学的时候学校给提供的,现在,我依旧带着这本书.我决定要把这本书在重新温习一下.然后,开启下面的Javascript之旅.这是我看到博客园一位园友写的, ...
- MFC随机数
void CMFCDemoDlg::OnClickedGetrand() { wchar_t str[]; //srand((unsigned)time(NULL)); int num = rand( ...
- POJ1847:Tram(最短路)
Tram Time Limit: 1000MS Memory Limit: 30000K Total Submissions: 20116 Accepted: 7491 题目链接:http:/ ...
- java的URI和URL到底是什么
在我们做开发时,经常有URI和URL弄混的问题,如果当时直接看URI和URL的源码就不可能弄混.首先我总结一下URI和URL的关系:他们的关系是:URL是一种特殊的URI,是URI包括URL, 下面用 ...
- centos安装net-speeder
以前介绍过VPS上安装锐速对VPS的加速效果,但是这货对 Linux 内核有要求,一般就只能在XEN或者KVM的机子上安装.不过还好锐速有一个免费的代替品:net-speeder,所以这里介绍一下 D ...
- elk,centos7,filebeat,elasticsearch-head集成搭建
1.安装 elasticsearch-5.2.2.tar.gz cd elasticsearch-5.2.2/bin ./elasticsearch -Ecluster.name=my_cluster ...
- import pymongo exceptions.ImportError: No module named pymongo
最近用Scrapy写爬虫,将爬取的数据存入Mongodb中,使用的是pymongo这个库,但是运行的时候报错如标题所示 搜了好多网站包括stackoverflow都没有解决,后来发现自己用的是虚拟环境 ...
- input 只允许输入数字
onkeyup='this.value=this.value.replace(/[^0-9\-]/gi,"")'
- Android 网络编程--上传文件及相应的参数到服务器
之前一直在做SiteCheck的项目,所用到的知识大部分都涉及到网络编程方面,所以现在有时间先把它的使用方法及一些注意事项记录下来.在这里我用两种例子让大家了解它的使用方法: (1)上传图片及相应参数 ...