Spark之SparkSql

-- Spark SQL 以编程方式指定模式

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

val employee = sc.textFile("/root/wangbin/employee.txt")

1201,satish,25

1202,krishna,28

1203,amith,39

1204,javed,23

1205,prudvi,23

val schemaString = "id,name,age"

import org.apache.spark.sql.Row;

import org.apache.spark.sql.types.{StructType, StructField, StringType};

val schema = StructType(schemaString.split(",").map(fieldName => StructField(fieldName, StringType, true)))

val rowRDD = employee.map(_.split(",")).map(e => Row(e(0), e(1), e(2)))

-- 通过使用roRDDdata和模式（SCHEMA）变量创建DataFrame。

val employeeDF = sqlContext.createDataFrame(rowRDD, schema)

-- 使用以下命令将数据帧存储到名为employee的表中。

employeeDF.registerTempTable("employee2")

-- 使用以下语句从employee表中选择所有记录。

val allrecords = sqlContext.sql("SELECT * FROM employee2")

-- 查看所有记录数据帧的结果数据

allrecords.show()

+----+-------+---+

|  id|   name|age|

+----+-------+---+

|1201| satish| 25|

|1202|krishna| 28|

|1203|  amith| 39|

|1204|  javed| 23|

|1205| prudvi| 23|

+----+-------+---+

Spark之SparkSql的更多相关文章

Hive On Spark和SparkSQL
SparkSQL和Hive On Spark都是在Spark上实现SQL的解决方案.Spark早先有Shark项目用来实现SQL层,不过后来推翻重做了,就变成了SparkSQL.这是Spark官方Da ...
基于Spark和SparkSQL的NetFlow流量的初步分析——scala语言
基于Spark和SparkSQL的NetFlow流量的初步分析--scala语言标签: NetFlow Spark SparkSQL 本文主要是介绍如何使用Spark做一些简单的NetFlow数据的 ...
Spark系列-SparkSQL实战
Spark系列-初体验(数据准备篇) Spark系列-核心概念 Spark系列-SparkSQL 之前系统的计算大部分都是基于Kettle + Hive的方式,但是因为最近数据暴涨,很多Job的执行时 ...
hive on spark VS SparkSQL VS hive on tez
http://blog.csdn.net/wtq1993/article/details/52435563 http://blog.csdn.net/yeruby/article/details/51 ...
Spark(四): Spark-sql 读hbase
SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler, 具体配置参见:Hive(五):hive与h ...
Spark记录-SparkSql官方文档中文翻译（部分转载）
1 概述(Overview) Spark SQL是Spark的一个组件,用于结构化数据的计算.Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查 ...
Spark记录-SparkSQL相关学习
$spark-sql --help 查看帮助命令 $设置任务个数,在这里修改为20个 spark-sql>SET spark.sql.shuffle.partitions=20; $选择数据 ...
Spark之 SparkSql整合hive
整合: 1,需要将hive-site.xml文件拷贝到Spark的conf目录下,这样就可以通过这个配置文件找到Hive的元数据以及数据存放位置. 2,如果Hive的元数据存放在Mysql中,我们还需 ...
Spark之 SparkSql、DataFrame、DataSet介绍
SparkSql SparkSql是专门为spark设计的一个大数据仓库工具,就好比hive是专门为hadoop设计的一个大数据仓库工具一样. 特性: .易整合可以将sql查询与spark应用程序进 ...
Spark记录-SparkSQL远程操作MySQL和ORACLE
1.项目引入mysql和oracle驱动 2.将mysql和oracle驱动上传到hdfs 3.远程调试源代码如下: import org.apache.spark.sql.SQLContext im ...

随机推荐

WPF 中那些可跨线程访问的 DispatcherObject（WPF Free Threaded Dispatcher Object）
原文 WPF 中那些可跨线程访问的 DispatcherObject(WPF Free Threaded Dispatcher Object) 众所周知的,WPF 中多数对象都继承自 Dispatch ...
DELPHI高性能大容量SOCKET并发（八）：断点续传（上传也可以续传）
断点续传断点续传主要是用在上传或下载文件,一般做法是开始上传的时候,服务器返回上次已经上传的大小,如果上传完成,则返回-1:下载开始的时候,由客户端上报本地已经下载大小,服务器根据位置信息下发数据, ...
OpenGL+VS2012编译环境配置
OpenGL库主体分为三部分,分别是 gl(OpenGL核心库) glu(Utility Library,OpenGL实用库) glut(Utility Toolkit,OpenGL实用工具库) gl ...
Ubuntu 15.04 clang++ 3.6 编译boost 1.59/1.55
Ubuntu 15.04已经可以直接通过apt-get insall 安装clang 3.6, 并且预装的gcc版本是4.9.2.这些安装过程在这里介绍. 首先下载boost源码 wget -O bo ...
glibc_error reporting
很多GNU C库里的函数都会侦测并报告错误条件.我们的程序需要检测这些错误条件.比如:我们打开一个输入文件时需要判断该文件是否正确的打开.如果没有正确打开,我们需要打印错误或者采取其他正确的方式.为了 ...
thinkphp5 phpexcel基本设置
//引入类 header('Content-type: text/html; charset=utf-8'); import('Org.Util.PHPExcel'); import('Org.Uti ...
String的本质是一个char*，只是以类的形式提供，使用起来比较方便
String的本质是一个char*,只是以类的形式提供,使用起来比较方便 Class String {private: char* m_data;}摘自<后台开发核心技术与应用实践__徐晓鑫& ...
UWP 浏览本地图片及对图片的裁剪
原文:UWP 浏览本地图片及对图片的裁剪 1.前言准备给我的校园助手客户端添加一个修改头像的功能,但是查了好多资料都没有找到裁剪图片的简单的方法,最后才找到这个使用Launcher调用系统组件的简单 ...
SqlServer 复制中将大事务分成小事务分发
原文:SqlServer 复制中将大事务分成小事务分发在sql server 复制中,当在发布数据库执行1个大事务时,如一次性操作十万或百万以上的数据.当操作数据在发布数据库执行完成后 ,日志读取 ...
零元学Expression Blend 4 - Chapter 46 三分钟快速充电-设定Margin的小撇步
原文:零元学Expression Blend 4 - Chapter 46 三分钟快速充电-设定Margin的小撇步如果需要经常的使用某一项工具,总会希望能够更快速的使用各项设定达到效果今天要介绍 ...

Spark之SparkSql

Spark之SparkSql的更多相关文章

随机推荐

热门专题