Spark SQL and DataFrame Guide(1.4.1)—

Spark SQL是处理结构化数据的Spark模块。它提供了DataFrames这样的编程抽象。同一时候也能够作为分布式SQL查询引擎使用。

DataFrames

DataFrame是一个带有列名的分布式数据集合。等同于一张关系型数据库中的表或者R/Python中的data frame，只是在底层做了非常多优化；我们能够使用结构化数据文件、Hive tables，外部数据库或者RDDS来构造DataFrames。

1. 開始入口：

入口须要从SQLContext类或者它的子类開始，当然须要使用SparkContext创建SQLContext；这里我们使用pyspark（已经自带了SQLContext即sc）：

from pyspark.sql import SQLContext

sqlContext = SQLContext(sc)

还能够使用HiveContext，它能够提供比SQLContext很多其它的功能。比如能够使用更完整的HiveQL解析器写查询，使用Hive UDFs。从Hive表中读取数据等。

使用HiveContext并不须要安装hive，Spark默认将HiveContext单独打包避免对hive过多的依赖

2.创建DataFrames

使用JSON文件创建：

from pyspark.sql import SQLContext

sqlContext = SQLContext(sc)

df = sqlContext.read.json("examples/src/main/resources/people.json")

# Displays the content of the DataFrame to stdout

df.show()

注意：

这里你可能须要将文件存入HDFS（这里的文件在Spark安装文件夹中，1.4版本号）

hadoop fs -mkdir examples/src/main/resources/

hadoop fs -put /appcom/spark/examples/src/main/resources/*         /user/hdpuser/examples/src/main/resources/

3.DataFrame操作

from pyspark.sql import SQLContext

sqlContext = SQLContext(sc)

# Create the DataFrame

df = sqlContext.read.json("examples/src/main/resources/people.json")

# Show the content of the DataFrame

df.show()

## age  name

## null Michael

## 30   Andy

## 19   Justin

# Print the schema in a tree format

df.printSchema()

## root

## |-- age: long (nullable = true)

## |-- name: string (nullable = true)

# Select only the "name" column

df.select("name").show()

## name

## Michael

## Andy

## Justin

# Select everybody, but increment the age by 1

df.select(df['name'], df['age'] + 1).show()

## name    (age + 1)

## Michael null

## Andy    31

## Justin  20

# Select people older than 21

df.filter(df['age'] > 21).show()

## age name

## 30  Andy

# Count people by age

df.groupBy("age").count().show()

## age  count

## null 1

## 19   1

## 30   1

4.使用编程执行SQL查询

SQLContext能够使用编程执行SQL查询并返回DataFrame。

from pyspark.sql import SQLContext

sqlContext = SQLContext(sc)

df = sqlContext.sql("SELECT * FROM table")

5.和RDD交互

将RDD转换成DataFrames有两种方法：

利用反射来判断包括特定类型对象的RDD的schema。这样的方法会简化代码而且在你已经知道schema的时候非常适用。
使用编程接口。构造一个schema并将其应用在已知的RDD上。

一、利用反射判断Schema

Spark SQL能够将含Row对象的RDD转换成DataFrame。并判断数据类型。通过将一个键值对（key/value）列表作为kwargs传给Row类来构造Rows。

key定义了表的列名，类型通过看第一列数据来判断。

（所以这里RDD的第一列数据不能有缺失）未来版本号中将会通过看很多其它数据来判断数据类型。像如今对JSON文件的处理一样。

# sc is an existing SparkContext.

from pyspark.sql import SQLContext, Row

sqlContext = SQLContext(sc)

# Load a text file and convert each line to a Row.

lines = sc.textFile("examples/src/main/resources/people.txt")

parts = lines.map(lambda l: l.split(","))

people = parts.map(lambda p: Row(name=p[0], age=int(p[1])))

# Infer the schema, and register the DataFrame as a table.

schemaPeople = sqlContext.createDataFrame(people)

schemaPeople.registerTempTable("people")

# SQL can be run over DataFrames that have been registered as a table.

teenagers = sqlContext.sql("SELECT name FROM people WHERE age >= 13 AND age <= 19")

# The results of SQL queries are RDDs and support all the normal RDD operations.

teenNames = teenagers.map(lambda p: "Name: " + p.name)

for teenName in teenNames.collect():

  print teenName

二、编程指定Schema

通过编程指定Schema须要3步：

从原来的RDD创建一个元祖或列表的RDD。
用StructType 创建一个和步骤一中创建的RDD中元祖或列表的结构相匹配的Schema。
通过SQLContext提供的createDataFrame方法将schema 应用到RDD上。

# Import SQLContext and data types

from pyspark.sql import SQLContext

from pyspark.sql.types import *

# sc is an existing SparkContext.

sqlContext = SQLContext(sc)

# Load a text file and convert each line to a tuple.

lines = sc.textFile("examples/src/main/resources/people.txt")

parts = lines.map(lambda l: l.split(","))

people = parts.map(lambda p: (p[0], p[1].strip()))

# The schema is encoded in a string.

schemaString = "name age"

fields = [StructField(field_name, StringType(), True) for field_name in schemaString.split()]

schema = StructType(fields)

# Apply the schema to the RDD.

schemaPeople = sqlContext.createDataFrame(people, schema)

# Register the DataFrame as a table.

schemaPeople.registerTempTable("people")

# SQL can be run over DataFrames that have been registered as a table.

results = sqlContext.sql("SELECT name FROM people")

# The results of SQL queries are RDDs and support all the normal RDD operations.

names = results.map(lambda p: "Name: " + p.name)

for name in names.collect():

  print name

Spark SQL and DataFrame Guide(1.4.1)——之DataFrames的更多相关文章

Spark SQL 之 DataFrame
Spark SQL 之 DataFrame 转载请注明出处:http://www.cnblogs.com/BYRans/ 概述(Overview) Spark SQL是Spark的一个组件,用于结构化 ...
Spark SQL 之 Migration Guide
Spark SQL 之 Migration Guide 支持的Hive功能转载请注明出处:http://www.cnblogs.com/BYRans/ Migration Guide 与Hive的兼 ...
spark结构化数据处理：Spark SQL、DataFrame和Dataset
本文讲解Spark的结构化数据处理,主要包括:Spark SQL.DataFrame.Dataset以及Spark SQL服务等相关内容.本文主要讲解Spark 1.6.x的结构化数据处理相关东东,但 ...
Spark SQL、DataFrame和Dataset——转载
转载自: Spark SQL.DataFrame和Datase
转】Spark SQL 之 DataFrame
原博文出自于: http://www.cnblogs.com/BYRans/p/5003029.html 感谢! Spark SQL 之 DataFrame 转载请注明出处:http://www.cn ...
Spark学习之路（八）—— Spark SQL 之 DataFrame和Dataset
一.Spark SQL简介 Spark SQL是Spark中的一个子模块,主要用于操作结构化数据.它具有以下特点: 能够将SQL查询与Spark程序无缝混合,允许您使用SQL或DataFrame AP ...
Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset
一.Spark SQL简介 Spark SQL 是 Spark 中的一个子模块,主要用于操作结构化数据.它具有以下特点: 能够将 SQL 查询与 Spark 程序无缝混合,允许您使用 SQL 或 Da ...
Spark官方1 ---------Spark SQL和DataFrame指南（1.5.0）
概述 Spark SQL是用于结构化数据处理的Spark模块.它提供了一个称为DataFrames的编程抽象,也可以作为分布式SQL查询引擎. Spark SQL也可用于从现有的Hive安装中读取数据 ...
spark sql 创建DataFrame
SQLContext是创建DataFrame和执行SQL语句的入口通过RDD结合case class转换为DataFrame 1.准备:hdfs上提交一个文件,schema为id name age, ...

随机推荐

修改Linux默认启动级别或模式
在Linux中有7种启动级别,默认是X-Window,像是Windows的窗口模式,而Linux的操作和配置一般我们都采用输入命令的方式来完成,像DOS操作系统一样,如何让Linux一启动就进入这种模 ...
Linux下OOM Killer机制详解
http://www.cnblogs.com/ylqmf/archive/2012/11/05/2754795.html http://wuquan-1230.blog.163.com/blog/st ...
UVa 1329 - Corporative Network Union Find题解
UVa的题目好多,本题是数据结构的运用,就是Union Find并查集的运用.主要使用路径压缩.甚至不须要合并树了,由于没有反复的连线和改动单亲节点的操作. 郁闷的就是不太熟悉这个Oj系统,竟然使用库 ...
[图像]用Matlab在图像上画矩形框
原创文章,欢迎转载.转载请注明:转载自祥的博客原文链接:http://blog.csdn.net/humanking7/article/details/46819527 在毕业设计的时候写论文画图 ...
jenkins中“Poll SCM”和“Build periodically”的区别
Poll SCM:定时检查源码变更(根据SCM软件的版本号),如果有更新就checkout最新code下来,然后执行构建动作.我的配置如下: */5 * * * * (每5分钟检查一次源码变化) B ...
DNS named.conf文件详解
配置文件: /etc/named.conf /在NAMED.CONF 配置文件中使用//和/* */来进行注释, options { /*OPTIONS选项用来定义一些影响整个DNS服 ...
文件及文件夹更改通知/监测软件TheFolderSpy
TheFolderSpy是Windows环境下一个监测文件(夹)更改,删除,创建,重命名的绿色免安装小软件,并在文件及文件夹有更改时发送Email通知管理者该软件使用.Net开发,所以需要安装.Ne ...
【中英】mac电脑清理软件 ToolWiz Mac Boost
简单介绍: ToolWiz Mac Boost是一款适用于Mac电脑清理加速最好的终极应用, 使您的Mac电脑干净有条理, 执行飞速且稳定.始终保持最佳状态! ToolWiz Mac Boost 运用 ...
Nubia Z5S官方4.4 UI2.0音频Audio部分简单分析(也适用于其它8974/8064机型)以及降低破音出现几率的方法
转载请注明出处和网址链接: http://blog.csdn.net/syhost/article/details/31419749 此篇本是在Z5S的官方4.4内測版出来时写的, 主要是看到其在au ...
JQuery中attr属性和jQuery.data()学习笔记
用html直接data-key来存放,key必须全部小写. <div data-mydata="123"></div> consoloe.log($(&qu ...

Spark SQL and DataFrame Guide(1.4.1)——之DataFrames

DataFrames

Spark SQL and DataFrame Guide(1.4.1)——之DataFrames的更多相关文章

随机推荐

热门专题