第五周周二练习：实验 5 Spark SQL 编程初级实践

1.题目：

源码：

import java.util.Properties

import org.apache.spark.sql.types._

import org.apache.spark.sql.Row

import org.apache.spark.sql.SparkSession

import org.apache.spark.sql.DataFrameReader

object TestMySQL {

    def main(args: Array[String]) {

     val spark = SparkSession.builder().appName("RddToDFrame").master("local").getOrCreate()

   import spark.implicits._

        val employeeRDD = spark.sparkContext.parallelize(Array("3 Mary F 26","4 Tom M 23")).map(_.split(" "))

        val  schema  =  StructType(List(StructField("id",  IntegerType,true),StructField("name",  StringType,  true),StructField("gender",  StringType,true),StructField("age", IntegerType, true)))

        val  rowRDD  =  employeeRDD.map(p  =>  Row(p().toInt,p().trim,p().trim,p().toInt))

        val employeeDF = spark.createDataFrame(rowRDD, schema)

        val prop = new Properties()

        prop.put("user", "root")

        prop.put("password", "hadoop")

        prop.put("driver","com.mysql.jdbc.Driver")

        employeeDF.write.mode("append").jdbc("jdbc:mysql://localhost:3306/sparktest","sparktest.employee", prop)

        val jdbcDF = spark.read.format("jdbc").option("url","jdbc:mysql://localhost:3306/sparktest").option("driver","com.mysql.jdbc.Driver").option("dbtable","employee").option("user","root").option("password", "hadoop").load()

        jdbcDF.agg("age" -> "max", "age" -> "sum").show()

        print("ok")

    }

}

数据库数据：

结果：

2.编程实现将 RDD 转换为 DataFrame

官网给出两种方法，这里给出一种（使用编程接口，构造一个 schema 并将其应用在已知的 RDD 上。）：

源码：

import org.apache.spark.sql.types._

import org.apache.spark.sql.Encoder

import org.apache.spark.sql.Row

import org.apache.spark.sql.SparkSession

object RDDtoDF {

def main(args: Array[String]) {

   val spark = SparkSession.builder().appName("RddToDFrame").master("local").getOrCreate()

   import spark.implicits._

val  employeeRDD  =spark.sparkContext.textFile("file:///usr/local/spark/employee.txt")

val schemaString = "id name age"

val fields = schemaString.split(" ").map(fieldName => StructField(fieldName,

StringType, nullable = true))

val schema = StructType(fields)

val  rowRDD  =  employeeRDD.map(_.split(",")).map(attributes  =>

Row(attributes().trim, attributes(), attributes().trim))

val employeeDF = spark.createDataFrame(rowRDD, schema)

employeeDF.createOrReplaceTempView("employee")

val results = spark.sql("SELECT id,name,age FROM employee")

results.map(t => "id:"+t()+","+"name:"+t()+","+"age:"+t()).show()

}

}

结果：

第五周周二练习：实验 5 Spark SQL 编程初级实践的更多相关文章

实验5 Spark SQL编程初级实践
今天做实验[Spark SQL 编程初级实践],虽然网上有答案,但都是用scala语言写的,于是我用java语言重写实现一下. 1 ．Spark SQL 基本操作将下列 JSON 格式数据复制到 Li ...
实验 5 Spark SQL 编程初级实践
实验 5 Spark SQL 编程初级实践参考厦门大学林子雨 1． Spark SQL 基本操作将下列 json 数据复制到你的 ubuntu 系统/usr/local/spark 下,并 ...
实验5 Spark SQL 编程初级实践
源文件内容如下(包含 id,name,age),将数据复制保存到 ubuntu 系统/usr/local/spark 下, 命名为 employee.txt,实现从 RDD 转换得到 DataFram ...
spark实验(五)--Spark SQL 编程初级实践(1)
一.实验目的 (1)通过实验掌握 Spark SQL 的基本编程方法: (2)熟悉 RDD 到 DataFrame 的转化方法: (3)熟悉利用 Spark SQL 管理来自不同数据源的数据. 二.实 ...
Spark SQL 编程初级实践
一.实验目的 (1) 通过实验掌握 Spark SQL 的基本编程方法: (2) 熟悉 RDD 到 DataFrame 的转化方法: (3) 熟悉利用 Spark ...
第五周学习总结&实验报告（三）
第五周学习总结&实验报告(三) 这一周又学习了新的知识点--继承. 一.继承的基本概念是: *定义一个类,在接下来所定义的类里面如果定义的属性与第一个类里面所拥有的属性一样,那么我们在此就不需 ...
Spark SQL 编程API入门系列之SparkSQL的依赖
不多说,直接上干货! 不带Hive支持 <dependency> <groupId>org.apache.spark</groupId> <artifactI ...
实验 2 Scala 编程初级实践
实验 2 Scala 编程初级实践一.实验目的 1.掌握 Scala 语言的基本语法.数据结构和控制结构: 2.掌握面向对象编程的基础知识,能够编写自定义类和特质: 3.掌握函数式编程的基础知识,能 ...
第五周课程总结&实验报告（四）
第五周课程总结本周主要学习了 1.抽象类抽象类的定义格式 abstract class抽象类名称{ 属性; 访问权限返回值类型方法名称(参数){ //普通方法 [return返回值]; } 访问权 ...

随机推荐

[PHP] Laravel5.5 使用 laravel-cors 实现 Laravel 的跨域配置
Laravel5.5 使用 laravel-cors 实现 Laravel 的跨域配置最开始的时候,我使用的是路由中间件的方式,但是发现中间件不起作用这是之前使用的方式: 'cros' => ...
小程序-promise封装小程序的请求方法
// 在utils-->base.js中,封装一个Base类,有一个axios方法 class Base{ constructor(){ } axios(method,url,data){ co ...
JDK的小Bug你了解么？
用了这么长时间的JDK了,有没有老铁发现JDK的bug呢?从最早版本的JDK1.2到现在普及开的JDK1.8以来,JAVA经历了这么多年的风风雨雨,依然坚持在一线上,是不是感觉很神奇,但是,有没有多 ...
JBoss4.2.2配置及优化
本文是在[url=http://solarisxb.cublog.cn]SOLARIS小兵[/url]的[url=http://blog.chinaunix.net/u/504/showart_114 ...
php中in_array函数的坑
由于PHP是弱类型语言,所以有自动类型转换例子 $array = [0, 1, 2, '3']; var_dump(in_array('abc', $array)); //true var_dump ...
vue中使用better-scroll的2种方式简述
前言 better-scroll官方demo展示:https://ustbhuangyi.github.io/better-scroll/#/examples/en better-scroll官方文档 ...
Ubuntu 16.04上源码编译和安装pytorch教程，并编写C++ Demo CMakeLists.txt | tutorial to compile and use pytorch on ubuntu 16.04
本文首发于个人博客https://kezunlin.me/post/54e7a3d8/,欢迎阅读最新内容! tutorial to compile and use pytorch on ubuntu ...
Python3.0的新特性
网上关于Python3与Python2的区别的文章都烂大街了,但基本上都是抄来抄去,为了追本溯源,直接看官网最靠谱,官网文档的结构性更强. 本文是对Python3.0官网文档 What's New I ...
【杂文】CSP2019蒟蒻AFO(假)记
[杂文]CSP2019蒟蒻AFO(假)记 [初赛前 N 天] 时间:2019-10-15 今晚 $2012$ 的初赛题做到心态爆炸,选择考计算机基础知识一脸懵逼,填空和后面一道大模拟直接跳过,最后 ...
ASP.NET web.config 配置里部分参数详细说明
Session配置 <!-- <identity impersonate = "false" [true|false] userName = "" ...

第五周周二练习：实验 5 Spark SQL 编程初级实践

第五周周二练习：实验 5 Spark SQL 编程初级实践的更多相关文章

随机推荐

热门专题