spark sql 基本用法
一、通过结构化数据创建DataFrame:
publicstaticvoid main(String[] args) {
SparkConf conf = new SparkConf() .setAppName("DataFrameCreate").setMaster("local"); JavaSparkContext sc = new JavaSparkContext(conf);
SQLContext sqlContext = new SQLContext(sc);
DataFrame df = sqlContext.read().json("hdfs://spark1:9000/students.json"); //结构化数据直接加载为DataFrame
df.show();
}
二、通过RDD创建DataFrame的两种创建方式
(数据源students.txt的数据截图)
2.1通过已知类型的schema创建DataFrame,代码如下:
public static void main(String[] args) {
SparkConf conf = new SparkConf()
.setMaster("local")
.setAppName("RDD2DataFrameReflection");
JavaSparkContext sc = new JavaSparkContext(conf);
SQLContext sqlContext = new SQLContext(sc);
JavaRDD<String> lines = sc.textFile("D://students.txt");
//将lines转换成 JavaRDD<Student>
JavaRDD<Student> students = lines.map(new Function<String, Student>() {
private static final long serialVersionUID = 1L;
@Override
public Student call(String line) throws Exception {
// TODO Auto-generated method stub
String[] strPlits = line.split(",");
Student stu = new Student();
stu.setId(Integer.valueOf(strPlits[]));
stu.setName(strPlits[]);
stu.setAge(Integer.valueOf(strPlits[]));
return stu;
}
});
// 使用反射方式,将RDD转换为DataFrame
// 这里要求,JavaBean必须实现Serializable接口,是可序列化的
//根据student的schema 和 RDD创建DataFrame
DataFrame studentsDF = sqlContext.createDataFrame(students, Student.class);
studentsDF.show();
}
2.2手动创建schema的方式创建DataFrame
public static void main(String[] args) {
//... 省略创建sqlContext的过程
JavaRDD<String> lines = sc.textFile("D://students.txt");
//将普通RDD装换成JavaRDD<Row>
JavaRDD<Row> rowRDD = lines.map(new Function<String, Row>() { private static final long serialVersionUID = 1L; @Override
public Row call(String line) throws Exception {
String[] strArray = line.split(",");
Row row= RowFactory.create(
Integer.valueOf(strArray[]), //id
strArray[], //name
Integer.valueOf(strArray[])); //age
return row;
}
});
//第二步 创建元类型, 即创建schema
List<StructField> structFields = new ArrayList<StructField>();
structFields.add(DataTypes.createStructField("id", DataTypes.IntegerType, true));
structFields.add(DataTypes.createStructField("name", DataTypes.StringType, true));
structFields.add(DataTypes.createStructField("age", DataTypes.IntegerType, true));
StructType structType = DataTypes.createStructType(structFields); //根据元数据类型将JavaRDD<Row>转化成DataFrame
DataFrame studentDF = sqlCotnext.createDataFrame(rowRDD, structType); studentDF.show();
}
-》DataFrame、RDD、List互转
JavaRDD<Row> rows = studentDF.javaRDD();List<Row> studentList = rows.collect();
三、DataFrame基本用法
// 打印DataFrame中所有的数据(select * from ...) df.show();
// 打印DataFrame的元数据(Schema)
df.printSchema();
// 查询某列所有的数据
df.select("name").show();
// 查询某几列所有的数据,并对列进行计算
df.select(df.col("name"), df.col("age").plus()).show();
// 根据某一列的值进行过滤
df.filter(df.col("age").gt()).show();
// 根据某一列进行分组,然后进行聚合
df.groupBy(df.col("age")).count().show();
DataFrame studentDF = sqlCotnext.createDataFrame(rowRDD, structType);
studentDF.show(); studentDF.registerTempTable("students"); //将DataFrame注册为零时表,取名students
//对students零时表做sql查询
DataFrame oldStudentDF = sqlCotnext.sql("select * from students where age>18");
oldStudentDF.show();
spark sql 基本用法的更多相关文章
- Spark SQL入门用法与原理分析
Spark SQL是为了让开发人员摆脱自己编写RDD等原生Spark代码而产生的,开发人员只需要写一句SQL语句或者调用API,就能生成(翻译成)对应的SparkJob代码并去执行,开发变得更简洁 注 ...
- Spark SQL基本概念与基本用法
1. Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为 ...
- Spark SQL中列转行(UNPIVOT)的两种方法
行列之间的互相转换是ETL中的常见需求,在Spark SQL中,行转列有内建的PIVOT函数可用,没什么特别之处.而列转行要稍微麻烦点.本文整理了2种可行的列转行方法,供参考. 本文链接:https: ...
- Spark SQL历险记
现在的spark sql编程通常使用scala api 以及 java api的方式,相比于直接使用 spark sql语句,spark api灵活很多,毕竟可以基于dataset以及rdd两种方式进 ...
- 【慕课网实战】七、以慕课网日志分析为例 进入大数据 Spark SQL 的世界
用户: 方便快速从不同的数据源(json.parquet.rdbms),经过混合处理(json join parquet), 再将处理结果以特定的格式(json.parquet)写回到 ...
- Spark SQL 函数全集
org.apache.spark.sql.functions是一个Object,提供了约两百多个函数. 大部分函数与Hive的差不多. 除UDF函数,均可在spark-sql中直接使用. 经过impo ...
- org.apache.spark.sql.functions汇总
测试数据: id,name,age,comment,date 1,lyy,28,"aaa bbb",20180102020325 scala> var data = spar ...
- DataFrame编程模型初谈与Spark SQL
Spark SQL在Spark内核基础上提供了对结构化数据的处理,在Spark1.3版本中,Spark SQL不仅可以作为分布式的SQL查询引擎,还引入了新的DataFrame编程模型. 在Spark ...
- 理解Spark SQL(二)—— SQLContext和HiveContext
使用Spark SQL,除了使用之前介绍的方法,实际上还可以使用SQLContext或者HiveContext通过编程的方式实现.前者支持SQL语法解析器(SQL-92语法),后者支持SQL语法解析器 ...
随机推荐
- 8.PHP 教程_PHP字符串
字符串变量用于存储并处理文本. PHP中的字符串变量 字符串变量用于包含有字符的值. 在创建字符串之后,我们就可以对它进行操作了.您可以直接在函数中使用字符串,或者把它存储在变量中. 在下面的实例中, ...
- pcap文件格式解析
pcap文件格式是常用的数据报存储格式,包括wireshark在内的主流抓包软件都可以生成这种格式的数据包 下面对这种格式的文件简单分析一下: pcap文件的格式为: 文件头 24字节 ...
- IList, ICollection ,IEnumerable AND IEnumerator in C#
IList, ICollection ,IEnumerable 很显然,这些都是集合接口的定义,先看看定义: // 摘要: // 表示可按照索引单独访问的对象的非泛型集合. [ComVisible(t ...
- 前端笔试题2 JS部分
笔试题2 var EventME = {}; EventME.addHandle = function(ele, eventName, handleFunction) { if (ele.addEve ...
- github 的分支操作
首先需要当前目录设置为仓库目录 一.创建本地分支 1.查看有哪些分支:git branch 2.创建一个分支:git branch name ,其中name是分支名 3.切换到分支:git chec ...
- 在原有3306端口mysqld服务的情况再搭建第二个3308端口的mysql实例
1 download the tar.gz [root@472322 tmp]# wget http://dev.mysql.com/get/Downloads/MySQL-5.6/mysql-5.6 ...
- java 面试 复习 II
1 break 多重 循环跳出当前循环到上层循环再执行. 如若想跳出多重循环可以使用标号 2 byte,short,char都可以隐含转换为int.可以用在switch 表达式.long和str ...
- poj 1836 Alignment(线性dp)
题目链接:http://poj.org/problem?id=1836 思路分析:假设数组为A[0, 1, …, n],求在数组中最少去掉几个数字,构成的新数组B[0, 1, …, m]满足条件B[0 ...
- 启动及重新启动nginx,重启nginx后丢失nginx.pid问题解决
停止操作 停止操作是通过向nginx进程发送信号(什么是信号请参阅linux文 章)来进行的 步骤1:查询nginx主进程号 ps -ef | grep nginx 在进程列表里 面找master进程 ...
- ZYB's Premutation(有逆序数输出原序列,线段树)
ZYB's Premutation Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Othe ...