Spark亚太研究院100期公益大讲堂 【第5期互动问答分享】

Q1:spark怎样支持即席,应该不是spark sql吧,是hive on spark么?

Spark1.0 以前支持即席查询的技术是Shark;

Spark 1.0和 Spark 1.0.1支持的即席查询技术是Spark SQL;

尚未发布的Spark 1.1开始 Spark SQL是即席查询的核心,我们期待Hive on Spark也能够支持即席查询;

Q2:现在spark 1.0.0版本是支持hive on spark么,它支持cli交互式访问么?

Spark1.0.0不支持hive on spark;

hive on spark这个项目正在开发中,预计在 Spark 1.1版本的时候发布;

Spark 1.0.0现在还不直接支持cli访问;

Q3:spark sql和hbase怎么结合呢?

Spark sql和hbase即可要借助于Spark core的RDD功能;

使用hbase的时候需要导入hbase在Spark上的包

Spark 1.0.0现在还不直接支持cli访问;

Q4:sparkSql支持sql全吗?老师 可以把现在的PLSQL 直接转换为 SPARKSQL么? 

Spark sql现在支持SQL-92的基本功能,后续版本不会不断增强;

PLSQL 现在还不能够直接转为Spark SQL;

想要更强的SQL支持,在Spark1.0.0和Spark1.0.1版本可以考虑Hive in Spark SQL的功能;

Q5:如果支持hive on spark,那么什么时候用spark sql,什么时候用hive on spark?

Hive on spark预计在Spark 1.1这个版本发布,核心功能是要在Spark上使用已有的Hive的一切数据和功能;

和hive不相关都可以使用Spark SQL;

从理论上讲随着Spark SQL在未来版本的不断增强,可以做hive的一切事情;

Q6:Spark SQL可以使用group by 吗?

Spark SQL可以使用group by的功能;

在SchemaRDD中有group by的支持;

groupBy(groupingExprs: Expression*)(aggregateExprs: Expression*): SchemaRDD

l   Performs a grouping followed by an aggregation.

Q7:spark sql 现在支持sql的那些操作  一直在官网上没能找到相应的document?

Spark SQL API的官方Document网址

l   http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.SchemaRDD

Spark SQL使用的官方网址

http://spark.apache.org/docs/latest/sql-programming-guide.html

【互动问答分享】第5期决胜云计算大数据时代Spark亚太研究院公益大讲堂的更多相关文章

  1. 【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂

    "决胜云计算大数据时代" Spark亚太研究院100期公益大讲堂 [第15期互动问答分享] Q1:AppClient和worker.master之间的关系是什么? AppClien ...

  2. 【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂

    “决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第13期互动问答分享] Q1:tachyon+spark框架现在有很多大公司在使用吧? Yahoo!已经在长期大规模使用: 国内也有 ...

  3. 【互动问答分享】第10期决胜云计算大数据时代Spark亚太研究院公益大讲堂

    “决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第10期互动问答分享] Q1:Spark on Yarn的运行方式是什么? Spark on Yarn的运行方式有两种:Client ...

  4. 【互动问答分享】第8期决胜云计算大数据时代Spark亚太研究院公益大讲堂

    “决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第8期互动问答分享] Q1:spark线上用什么版本好? 建议从最低使用的Spark 1.0.0版本,Spark在1.0.0开始核心 ...

  5. 【互动问答分享】第7期决胜云计算大数据时代Spark亚太研究院公益大讲堂

    “决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第7期互动问答分享] Q1:Spark中的RDD到底是什么? RDD是Spark的核心抽象,可以把RDD看做“分布式函数编程语言”. ...

  6. 【互动问答分享】第6期决胜云计算大数据时代Spark亚太研究院公益大讲堂

    “决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第6期互动问答分享] Q1:spark streaming 可以不同数据流 join吗? Spark Streaming不同的数据流 ...

  7. 【互动问答分享】第11期决胜云计算大数据时代Spark亚太研究院公益大讲堂

    Q1:docker成熟度如何? Docker是2013年和2014年最火爆的云计算开源项目: Baidu公司是中国使用Docker最为深入和最大规模的公司,线上稳定运行数十万个Docker容器,目前已 ...

  8. 【互动问答分享】第18期决胜云计算大数据时代Spark亚太研究院公益大讲堂

    Q1:Master和Driver的是同一个东西吗? 两者不是同一个东西,在Standalone模式下Master是用于集群资源管理和调度的,而Driver适用于指挥Worker上的Executor通过 ...

  9. 如何成为云计算大数据Spark高手

    Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库.流处理和图计算等多种计算范式,是罕见的全能选手. ...

随机推荐

  1. Java集合整体框架

    Java中的集合类有List.Set.Map Collection的实现类:List.Set List的实现类:ArrayList.LinkedList.Vector Set的实现类:HashSet. ...

  2. [剑指Offer] 20.包含min函数的栈

    题目描述 定义栈的数据结构,请在该类型中实现一个能够得到栈最小元素的min函数. [思路1]两个栈Stack和Min,Stack为当前栈中元素,Min为与Stack中元素一一对应的当前栈最小值. cl ...

  3. Hibernate domain对象说明

    一个domain对象对应于数据库的一张表(也可以表示出表关系) domain对象必须带一个无参构造函数 建议有一个无意义id,作为主键 建议非final,否则无法使用Hibernate的高级特性(懒加 ...

  4. BZOJ 3668:起床困难综合症(贪心)

    分析:按位贪心即可. program sleep; var a,g:..]of longint; n,i,m,ans,t,len,x,y,v:longint; c:char; s:string; e: ...

  5. 【bzoj4548】小奇的糖果 STL-set+树状数组

    题目描述 平面上有n个点,每个点有一种颜色.对于某一条线段,选择所有其上方或下方的点.求:在不包含所有颜色的点的前提下,选择的点数最多是多少.(本题中如果存在某颜色没有相应的点,那么选择任何线段都不算 ...

  6. 【题解】CQOI2015任务查询系统

    主席树,操作上面基本上是一样的.每一个时间节点一棵树,一个树上的每个节点代表一个优先级的节点.把开始和结束时间点离散,在每一棵树上进行修改.注意因为一个时间节点可能会有多个修改,但我们要保证都在同一棵 ...

  7. 如何用setInterval调用类的方法

    setInterval() 方法可按照指定的周期(以毫秒计)来调用函数或计算表达式.setInterval() 方法会不停地调用函数,直到 clearInterval() 被调用或窗口被关闭.由 se ...

  8. 运用yunwei.zip压缩包安装过程:

    12   yum install lrzsz -y     13  rz    14  ll    15  unzip -o yunwei.zip     16  unzip yunwei.zip  ...

  9. 用JSR的@Inject代替@Autowired完成自动装配

    从spring3.0开始spring支持JSR-330 的标准注解.主要是javax.inject这个包下的: 下面的例子用@Inject代替@Autowired.完成自动装配: MovieFinde ...

  10. C++ Review

    #include "iostream" #include "iomanip" #include "cstdio" using namespa ...