What’s new for Spark SQL in Apache Spark 1.3（中英双语）

文章标题 What’s new for Spark SQL in Apache Spark 1.3 作者介绍 Michael Armbrust 文章正文 The Apache Spark 1.3 release represents a major milestone for Spark SQL. In addition to several major features, we are very excited to announce that the project has officia…

A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets（中英双语）

文章标题 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets 且谈Apache Spark的API三剑客:RDD.DataFrame和Dataset When to use them and why 什么时候用他们,为什么? tale [tel] 传说,传言;(尤指充满惊险的)故事;坏话,谣言;〈古〉计算,总计作者介绍 Jules S. Damji是Databricks在Apache Spark社区的布道者.他也是…

Introducing DataFrames in Apache Spark for Large Scale Data Science（中英双语）

文章标题 Introducing DataFrames in Apache Spark for Large Scale Data Science 一个用于大规模数据科学的API——DataFrame 作者介绍 Reynold Xin, Michael Armbrust and Davies Liu 文章正文 Today, we are excited to announce a new DataFrame API designed to make big data processing even…

理解Spark SQL(三）—— Spark SQL程序举例

上一篇说到,在Spark 2.x当中,实际上SQLContext和HiveContext是过时的,相反是采用SparkSession对象的sql函数来操作SQL语句的.使用这个函数执行SQL语句前需要先调用DataFrame的createOrReplaceTempView注册一个临时表,所以关键是先要将RDD转换成DataFrame.实际上,在Spark中实际声明了 type DataFrame = Dataset[Row] 所以,DataFrame是Dataset[Row]的别名.RDD是提供…

【Spark学习】Apache Spark配置

Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4137969.html Spark配置 Spark属性动态加载Spark属性查看Spark属性可用属性大部分用于控制内部设置的属性都有合理的默认值.一部分最通用的选项设置如下: 应用程序属性属性名称默认值含义 spark.app.name (none) 应用程序名称.该参数的值会出现在UI和日志记录中. spar…

【Spark学习】Apache Spark调优

Spark版本:1.1.0 本文系以开源中国社区的译文为基础,结合官方文档翻译修订而来,转载请注明以下链接: http://www.cnblogs.com/zhangningbo/p/4117981.html http://www.oschina.net/translate/spark-tuning 目录数据序列化内存优化确定内存消耗优化数据结构序列化RDD存储优化内存回收其他考虑因素并行度 Reduce任务的内存用量广播”大变量“ 总结因为大多数Spark程序都具有“内存计…

一条 SQL 在 Apache Spark 之旅

转载自过往记忆大数据 https://www.iteblog.com/archives/2561.html Spark SQL 是 Spark 众多组件中技术最复杂的组件之一,它同时支持 SQL 查询和 DataFrame DSL.通过引入了 SQL 的支持,大大降低了开发人员的学习和使用成本.目前,整个 SQL .Spark ML.Spark Graph 以及 Structured Streaming 都是运行在 Catalyst Optimization & Tungsten Executi…

【Spark学习】Apache Spark项目简介

引言:本文直接翻译自Spark官方网站首页 Lightning-fast cluster computing 从Spark官方网站给出的标题可以看出:Spark——像闪电一样快的集群计算 Apache Spark™ 是一个应用于大规模数据处理的快速且通用的引擎. 速度 Spark在内存中运行程序的速度比Hadoop MapReduce要快100多倍,在磁盘上则要快10多倍.它使用先进的DAG执行引擎来支持循环数据流和内存计算. Logistic regression in Hadoop an…

Introducing Apache Spark Datasets（中英双语）

文章标题 Introducing Apache Spark Datasets 作者介绍 Michael Armbrust, Wenchen Fan, Reynold Xin and Matei Zaharia 文章正文 Developers have always loved Apache Spark for providing APIs that are simple yet powerful, a combination of traits that makes complex analys…

spark SQL学习（spark连接 mysql）

spark连接mysql(打jar包方式) package wujiadong_sparkSQL import java.util.Properties import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/14. */ object JdbcOperation { def main(args…

spark SQL学习（spark连接hive）

spark 读取hive中的数据 scala> import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql.hive.HiveContext scala> val hiveContext = new HiveContext(sc) //hive中的feigu数据库中表stud_info scala> val stud_infoRDD = hiveContext.sql("select * fr…

48、Spark SQL之与Spark Core整合之每日top3热点搜索词统计案例实战

一.概述 1.需求分析数据格式: 日期用户搜索词城市平台版本需求: 1.筛选出符合查询条件(城市.平台.版本)的数据 2.统计出每天搜索uv排名前3的搜索词 3.按照每天的top3搜索词的uv搜索总次数,倒序排序 4.将数据保存到hive表中 ###数据 keyword.txt 2018-10-1:leo:water:beijing:android:1.0 2018-10-1:leo1:water:beijing:android:1.0 2018-10-1:leo2:water:b…

【Spark学习】Apache Spark安全机制

Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4135808.html 目录 Web UI 事件日志网络安全(配置端口) 仅适用于Standalone模式的端口适用于所有集群管理器的通用端口现在,Spark支持通过共享秘钥进行认证.启用认证功能可以通过参数spark.authenticate来配置.此参数控制spark通信协议是否使用共享秘钥进行认证.这种认证方式基于握手…

Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop（中英双语）

文章标题 Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop Deep dive into the new Tungsten execution engine 作者介绍 Sameer Agarwal, Davies Liu and Reynold Xin 文章正文参考文献 https://databricks.com/blog/2016/05/23/apache-spark-as-a-compile…

Deep Dive into Spark SQL’s Catalyst Optimizer（中英双语）

文章标题 Deep Dive into Spark SQL’s Catalyst Optimizer 作者介绍 Michael Armbrust, Yin Huai, Cheng Liang, Reynold Xin and Matei Zaharia 文章正文参考文献 https://databricks.com/blog/2015/04/13/deep-dive-into-spark-sqls-catalyst-optimizer.html…

One SQL to Rule Them All – an Efficient and Syntactically Idiomatic Approach to Management of Streams and Tables（中英双语）

文章标题 One SQL to Rule Them All – an Efficient and Syntactically Idiomatic Approach to Management of Streams and Tables 用SQL统一所有:一种有效的.语法惯用的流和表管理方法 syntactically 句法上;语法上;句法;句法性地;句法特征 idiomatic [ˌɪdiəˈmætɪk] 惯用的;合乎语言习惯的;习语的 approach [əˈproʊtʃ] v.(在距离或时间…

Spark记录-org.apache.spark.sql.hive.HiveContext与org.apache.spark.sql.SQLContext包api分析

HiveContext/SQLContext val hiveContext=new HiveContext(new SparkContext(new SparkConf().setAppName("HiveApp").setMaster("spark://master:7077"))) ---定义一个hiveContext变量 val sqlContext=new SQLContext(new SparkContext(new SparkConf().setAp…

【Spark学习】Apache Spark集群硬件配置要求

Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4135912.html 目录存储系统本地磁盘内存网络 CPU核数 Spark开发人员收到的最常见的问题就是如何为Spark做硬件配置.然而恰当的硬件配置取决于你的应用环境,所以我们推荐考虑如下几个要素. 存储系统因为大部分Spark作业很可能要从外部存储系统(如HDFS.HBase)读取数据,所以,把Spark平台尽可能…

【Spark学习】Apache Spark作业调度机制

Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4135905.html 目录概述不同应用程序间的资源调度同一应用程序内的资源调度 Fair调度池调度池的默认行为调度池的属性配置概述 Spark有几个功能用于在作业之间(译者注:作业包含两类:1)不同应用程序所执行的作业:2)同一应用程序内的不同作业所执行的作业.无论哪种作业,Spark都可以完成作业之间的资源调度.)…

Spark SQL is a Spark module for structured data processing.

http://spark.apache.org/docs/latest/sql-programming-guide.html…

【Spark学习】Apache Spark for 第三方Hadoop分发版

Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4137979.html…

【Spark学习】Apache Spark监控与测量

Spark版本:1.1.1 本文系从官方文档翻译而来,转载请尊重译者的工作,注明以下链接: http://www.cnblogs.com/zhangningbo/p/4137952.html…

Spark 论文篇-Spark：工作组上的集群计算的框架（中英双语）

论文内容: 待整理参考文献: Spark: Cluster Computing with Working Sets. Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica. HotCloud 2010. June 2010. Spark :工作组上的集群计算的框架…

Spark 论文篇-RDD：一种为内存化集群计算设计的容错抽象（中英双语）

论文内容: 待整理参考文献: Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing. Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin Ma, Murphy McCauley, Michael J. Franklin, Scott Shenker, Ion Stoica. NS…

SQL Manager Lite可视化工具部分中英对照

.Refresh //刷新表数据 .compile,//提交数据. .connect to host //链接到服务器 .disconnect from all databases //断开链接 . create database MySQL_Data; //创建数据库 .new Object //新项目 .Duplicate Object //复制对象 .Exit //退出 .show sql Editor //打开SQL窗口 .new sql editor //打开一个新的SQL窗口 .sh…

Spark 论文篇-大型集群上的快速和通用数据处理架构（中英双语）

论文内容: 待整理参考文献: An Architecture for Fast and General Data Processing on Large Clusters. Matei Zaharia 大型集群上的快速和通用数据处理架构…

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets

Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession 创建 DataFrames 无类型的Dataset操作 (aka DataFrame 操作) Running SQL Queries Programmatically 全局临时视图创建Datasets RDD的互操作性使用反射推断Schema 以编程的方式指定Schema Aggregatio…

【慕课网实战】四、以慕课网日志分析为例进入大数据 Spark SQL 的世界

文本文件进行统计分析:id, name, age, city1001,zhangsan,45,beijing1002,lisi,35,shanghai1003,wangwu,29,tianjin....... table定义:personcolumn定义: id:int name:string age: int city:stringhive:load data sql: query.... Hive: 类似于sql的Hive QL语言, sql==>mapreduce 特点:mapreduce…

Spark SQL在100TB上的自适应执行实践（转载）

Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易用性和可扩展性的挑战.为了应对这些挑战,英特尔大数据技术团队和百度大数据基础架构部工程师在Spark 社区版本的基础上,改进并实现了自适应执行引擎.本文首先讨论Spark SQL在大规模数据集上遇到的挑战,然后介绍自适应执行的背景和基本架构,以及自适应执行如何应对Spark SQL这些问题,…

Apache Spark 2.2.0 中文文档

Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN Geekhoo 关注 2017.09.20 13:55* 字数 2062 阅读 13评论 0喜欢 1 快速入门使用 Spark Shell 进行交互式分析基础 Dataset 上的更多操作缓存独立的应用快速跳转本教程提供了如何使用 Spark 的快速入门介绍.首先通过运行 Spark 交互式的 shell(在 Python 或 Scala 中)来介绍 API, 然后展示如何使用 Java , Scal…

【What’s new for Spark SQL in Apache Spark 1.3（中英双语）】的更多相关文章