【互动问答分享】第5期决胜云计算大数据时代Spark亚太研究院公益大讲堂

Spark亚太研究院100期公益大讲堂【第5期互动问答分享】

Q1:spark怎样支持即席，应该不是spark sql吧，是hive on spark么？

Spark1.0 以前支持即席查询的技术是Shark;

Spark 1.0和 Spark 1.0.1支持的即席查询技术是Spark SQL;

尚未发布的Spark 1.1开始 Spark SQL是即席查询的核心，我们期待Hive on Spark也能够支持即席查询；

Q2:现在spark 1.0.0版本是支持hive on spark么，它支持cli交互式访问么？

Spark1.0.0不支持hive on spark；

hive on spark这个项目正在开发中，预计在 Spark 1.1版本的时候发布；

Spark 1.0.0现在还不直接支持cli访问；

Q3:spark sql和hbase怎么结合呢？

Spark sql和hbase即可要借助于Spark core的RDD功能；

使用hbase的时候需要导入hbase在Spark上的包

Spark 1.0.0现在还不直接支持cli访问；

Q4:sparkSql支持sql全吗？老师可以把现在的PLSQL 直接转换为 SPARKSQL么？

Spark sql现在支持SQL-92的基本功能，后续版本不会不断增强；

PLSQL 现在还不能够直接转为Spark SQL;

想要更强的SQL支持，在Spark1.0.0和Spark1.0.1版本可以考虑Hive in Spark SQL的功能；

Q5:如果支持hive on spark,那么什么时候用spark sql，什么时候用hive on spark?

Hive on spark预计在Spark 1.1这个版本发布，核心功能是要在Spark上使用已有的Hive的一切数据和功能；

和hive不相关都可以使用Spark SQL；

从理论上讲随着Spark SQL在未来版本的不断增强，可以做hive的一切事情；

Q6:Spark SQL可以使用group by 吗？

Spark SQL可以使用group by的功能；

在SchemaRDD中有group by的支持；

groupBy(groupingExprs: Expression*)(aggregateExprs: Expression*): SchemaRDD

l Performs a grouping followed by an aggregation.

Q7:spark sql 现在支持sql的那些操作一直在官网上没能找到相应的document？

Spark SQL API的官方Document网址

l http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.SchemaRDD ；

Spark SQL使用的官方网址

http://spark.apache.org/docs/latest/sql-programming-guide.html

【互动问答分享】第5期决胜云计算大数据时代Spark亚太研究院公益大讲堂的更多相关文章

【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂
"决胜云计算大数据时代" Spark亚太研究院100期公益大讲堂 [第15期互动问答分享] Q1:AppClient和worker.master之间的关系是什么? AppClien ...
【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第13期互动问答分享] Q1:tachyon+spark框架现在有很多大公司在使用吧? Yahoo!已经在长期大规模使用: 国内也有 ...
【互动问答分享】第10期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第10期互动问答分享] Q1:Spark on Yarn的运行方式是什么? Spark on Yarn的运行方式有两种:Client ...
【互动问答分享】第8期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第8期互动问答分享] Q1:spark线上用什么版本好? 建议从最低使用的Spark 1.0.0版本,Spark在1.0.0开始核心 ...
【互动问答分享】第7期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第7期互动问答分享] Q1:Spark中的RDD到底是什么? RDD是Spark的核心抽象,可以把RDD看做“分布式函数编程语言”. ...
【互动问答分享】第6期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第6期互动问答分享] Q1:spark streaming 可以不同数据流 join吗? Spark Streaming不同的数据流 ...
【互动问答分享】第11期决胜云计算大数据时代Spark亚太研究院公益大讲堂
Q1:docker成熟度如何? Docker是2013年和2014年最火爆的云计算开源项目: Baidu公司是中国使用Docker最为深入和最大规模的公司,线上稳定运行数十万个Docker容器,目前已 ...
【互动问答分享】第18期决胜云计算大数据时代Spark亚太研究院公益大讲堂
Q1:Master和Driver的是同一个东西吗? 两者不是同一个东西,在Standalone模式下Master是用于集群资源管理和调度的,而Driver适用于指挥Worker上的Executor通过 ...
如何成为云计算大数据Spark高手
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库.流处理和图计算等多种计算范式,是罕见的全能选手. ...

随机推荐

[剑指Offer] 12.数值的整数次方
[思路1]递归 class Solution { public: double Power(double base, int exponent) { ){ /base; exponent = -exp ...
【python】python 中的三元表达式（三目运算符）
python中的三目运算符不像其他语言其他的一般都是判定条件?为真时的结果:为假时的结果如 result=5>3?1:0 这个输出1,但没有什么意义,仅仅是一个例子.而在python中的格式 ...
不使用库函数、自己编写的（strlen、strcpy、strcmp、strcat、memcmp、memcpy、memmove）
不使用库函数.自己编写的(strlen.strcpy.strcmp.strcat.memcmp.memcpy.memmove) //求字符串长度的函数 int my_strlen(const char ...
SNMP OID Reference - NetScaler 10
SNMP OID Reference - NetScaler 10 https://docs.citrix.com/content/dam/docs/en-us/netscaler/10/downlo ...
【题解】JLOI2015战争调度
搜索+状压+DP. 注意到一个性质:考虑一棵以x为根的子树,在x到原树的根的路径上的点如果都已经确定了方案,那么x的左右儿子的决策就彼此独立,互不影响了.所以我们考虑状压一条路径上每一层节点的状态,求 ...
BZOJ day2
十六题...(好难啊) 1051105910881191119214321876195119682242243824562463276128184720
myisam_sort_buffer_size vs sort_buffer_size
Q: I am MySQL on server with 6GB RAM. I need to know what is the difference between myisam_sort_buff ...
maven项目在eclipse tomcat正常运行
转摘自:http://binary.duapp.com/2013/10/1577.html 配置下部署路径即可.
JAVA 成员访问权限修饰符
修饰符类内部 package内子类其他 public 允许允许 ...
【Foreign】数数 [打表][DP]
数数 Time Limit: 10 Sec Memory Limit: 128 MB Description Input 仅一行两个整数L,R Output 仅一行一个整数表示答案. Sample ...

【互动问答分享】第5期决胜云计算大数据时代Spark亚太研究院公益大讲堂

【互动问答分享】第5期决胜云计算大数据时代Spark亚太研究院公益大讲堂的更多相关文章

随机推荐

热门专题