实验5 Spark SQL 编程初级实践

源文件内容如下（包含 id,name,age），将数据复制保存到 ubuntu 系统/usr/local/spark 下，命名为 employee.txt，实现从 RDD 转换得到 DataFrame，并按 id:1,name:Ella,age:36 的格式打印出 DataFrame 的所有数据。请写出程序代码。（任选一种方法即可）

1,Ella,36

2,Bob,29

3,Jack,29

代码如下：

import org.apache.spark.sql.types._

import org.apache.spark.sql.Encoder

import org.apache.spark.sql.Row

import org.apache.spark.sql.SparkSession

object RDDtoDF {

def main(args: Array[String]) {

   val spark = SparkSession.builder().appName("RddToDFrame").master("local").getOrCreate()

   import spark.implicits._

　　val  employeeRDD  =spark.sparkContext.textFile("file:///usr/local/spark/employee.txt")

　　val schemaString = "id name age"

　　val fields = schemaString.split(" ").map(fieldName => StructField(fieldName,

　　StringType, nullable = true))

　　val schema = StructType(fields)

　　val  rowRDD  =  employeeRDD.map(_.split(",")).map(attributes  =>

　　Row(attributes(0).trim, attributes(1), attributes(2).trim))

　　val employeeDF = spark.createDataFrame(rowRDD, schema)

　　employeeDF.createOrReplaceTempView("employee")

　　val results = spark.sql("SELECT id,name,age FROM employee")

　　results.map(t => "id:"+t(0)+","+"name:"+t(1)+","+"age:"+t(2)).show()

　　}

}

运行截图：

实验5 Spark SQL 编程初级实践的更多相关文章

实验5 Spark SQL编程初级实践
今天做实验[Spark SQL 编程初级实践],虽然网上有答案,但都是用scala语言写的,于是我用java语言重写实现一下. 1 ．Spark SQL 基本操作将下列 JSON 格式数据复制到 Li ...
实验 5 Spark SQL 编程初级实践
实验 5 Spark SQL 编程初级实践参考厦门大学林子雨 1． Spark SQL 基本操作将下列 json 数据复制到你的 ubuntu 系统/usr/local/spark 下,并 ...
spark实验(五)--Spark SQL 编程初级实践(1)
一.实验目的 (1)通过实验掌握 Spark SQL 的基本编程方法: (2)熟悉 RDD 到 DataFrame 的转化方法: (3)熟悉利用 Spark SQL 管理来自不同数据源的数据. 二.实 ...
第五周周二练习：实验 5 Spark SQL 编程初级实践
1.题目: 源码: import java.util.Properties import org.apache.spark.sql.types._ import org.apache.spark.sq ...
Spark SQL 编程初级实践
一.实验目的 (1) 通过实验掌握 Spark SQL 的基本编程方法: (2) 熟悉 RDD 到 DataFrame 的转化方法: (3) 熟悉利用 Spark ...
实验 2 Scala 编程初级实践
实验 2 Scala 编程初级实践一.实验目的 1.掌握 Scala 语言的基本语法.数据结构和控制结构: 2.掌握面向对象编程的基础知识,能够编写自定义类和特质: 3.掌握函数式编程的基础知识,能 ...
Spark SQL 编程API入门系列之SparkSQL的依赖
不多说,直接上干货! 不带Hive支持 <dependency> <groupId>org.apache.spark</groupId> <artifactI ...
spark SQL编程
1.编程实现将 RDD 转换为 DataFrame源文件内容如下(包含 id,name,age): 1,Ella,362,Bob,293,Jack,29 请将数据复制保存到 Linux 系统中,命名为 ...
Spark SQL编程指南（Python）
前言 Spark SQL允许我们在Spark环境中使用SQL或者Hive SQL执行关系型查询.它的核心是一个特殊类型的Spark RDD:SchemaRDD. SchemaRDD类似于传统关 ...

随机推荐

11GR2 Oracle数据库的远程投毒VNCR方式修复
[环境介绍] 系统环境:Solaris + Oracle 11GR2 + 单机/RAC [背景描述] 基于集团数据库安全检查项,需要数据库的远程投毒漏洞进行修复. 根据Oracle官方提供的修复文 ...
实验一 Java环境的搭建&Eclipse的安装
本次实验为在自己电脑上搭建Java环境,熟悉Java的编译和运行环境并安装Eclipse 一.JAVA环境的搭建 1.从Oracle网站上下载Java的jdk [https://www.oracle. ...
ArcGIS——2015年安徽各市GDP总量分级图（3等级）
python super参数错误
# -*- coding:utf-8 _*-"""@author:Administrator@file: yamlparser.py@time: 2018/09/07&q ...
MySQL学习13 - 索引
一.索引的介绍二 .索引的作用三.常见的几种索引: 3.1 普通索引 3.2 唯一索引 3.3 主键索引 3.4 组合索引四.索引名词五.正确使用索引的情况什么是最左前缀呢? 六.索引的注意 ...
JavaScript的数组和循环
1．数组: a) 声明数组:var 数组名 = new Array(数组大小); Var emp=new Array(“AA”,“BB”,“CC”): b) 添加 ...
JAVA进阶21
1.Vector向量如何选用ArrayList.LinkedList.Vector? ①需要线程安全时,用Vector ②不存在线程安全问题时,并且查找较多用ArrayList(一般使用它) ③不存 ...
Python规范
1.命名 Django文件命名小写+下划线类:驼峰 2.edit 执行环境 work direction 到当前项目目录 3.类要加注释 4.去数据库找数据时需要try捕获异常,防止数据库连接断掉 ...
hibernate核心类及常用方法
Configuration configure = new Configuration().configure(); SessionFactory factory = configure.buildS ...
node命令行工具—cf-cli
音乐分享: 钢心 - <龙王> 初喜<冠军>后喜<龙王> (PS:听一次钢心乐队的演出后采访才知道 “龙王”隐喻的是一起喝酒的老铁....) ——————————— ...

实验5 Spark SQL 编程初级实践

实验5 Spark SQL 编程初级实践的更多相关文章

随机推荐

热门专题