Spark 数据源

一、mysql作为数据源

import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

/**

  * mysql作为数据源

  *

  * schema信息

  * root

  * |-- uid: integer (nullable = false)

  * |-- xueyuan: string (nullable = true)

  * |-- number_one: string (nullable = true)

  */

object JdbcSource {

  def main(args: Array[String]): Unit = {

    //1.sparkSQL 创建sparkSession

    val sparkSession: SparkSession = SparkSession.builder().appName("JdbcSource")

      .master("local[2]").getOrCreate()

    //2.加载数据源

    val urlData: DataFrame = sparkSession.read.format("jdbc").options(Map(

      "url" -> "jdbc:mysql://localhost:3306/urlcount",

      "driver" -> "com.mysql.jdbc.Driver",

      "dbtable" -> "url_data",

      "user" -> "root",

      "password" -> "root"

    )).load()

    //测试

    //urlData.printSchema()

    //urlData.show()

    //3.过滤数据

    val fData: Dataset[Row] = urlData.filter(x => {

      //uid>2 如何拿到uid？

      x.getAs[Int](0) > 2

    })

    fData.show()

    sparkSession.stop()

  }

}

mysql数据：

二、Spark写出数据格式

import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

object JdbcSource1 {

  def main(args: Array[String]): Unit = {

    //1.sparkSQL 创建sparkSession

    val sparkSession: SparkSession = SparkSession.builder().appName("JdbcSource")

      .master("local[2]").getOrCreate()

    import sparkSession.implicits._

    //2.加载数据源

    val urlData: DataFrame = sparkSession.read.format("jdbc").options(Map(

      "url" -> "jdbc:mysql://localhost:3306/urlcount",

      "driver" -> "com.mysql.jdbc.Driver",

      "dbtable" -> "url_data",

      "user" -> "root",

      "password" -> "root"

    )).load()

    //3.uid>2

    val r = urlData.filter($"uid" > 2)

    val rs: DataFrame = r.select($"xueyuan", $"number_one")

    //val rs: DataFrame = r.select($"xueyuan")

    //写入以text格式

    //rs.write.text("e:/saveText")

    //写入以json格式

    //rs.write.json("e:/saveJson")

    //写入以csv格式

    rs.write.csv("e:/saveCsv")

    //rs.write.parquet("e:/savePar")

    rs.show()

    sparkSession.stop()

  }

}

三、Json作为数据源

import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

object JsonSource {

  def main(args: Array[String]): Unit = {

    //1.创建sparkSession

    val sparkSession: SparkSession = SparkSession.builder().appName("JsonSource")

      .master("local[2]").getOrCreate()

    import sparkSession.implicits._

    //2.读取json数据源

    val jread: DataFrame = sparkSession.read.json("e:/saveJson")

    //3.处理数据

    val fread: Dataset[Row] = jread.filter($"xueyuan" === "bigdata")

    //4.触发action

    fread.show()

    //5.关闭资源

    sparkSession.stop()

  }

}

四、Csv作为数据源

import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

object CsvSource {

  def main(args: Array[String]): Unit = {

    //1.创建sparkSession

    val sparkSession: SparkSession = SparkSession.builder().appName("CsvSource")

      .master("local[2]").getOrCreate()

    import sparkSession.implicits._

    //2.读取csv数据源

    val cread: DataFrame = sparkSession.read.csv("e:/saveCsv")

    //3.处理数据

    val rdf = cread.toDF("id", "xueyuan")

    val rs = rdf.filter($"id" <= 3)

    //4.触发action

    rs.show()

    //5.关闭资源

    sparkSession.stop()

  }

}

Spark 数据源的更多相关文章

大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器
第1章 Spark SQL 概述1.1 什么是 Spark SQL1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 DataFrame1.2.3 DataS ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
Spark官方1 ---------Spark SQL和DataFrame指南（1.5.0）
概述 Spark SQL是用于结构化数据处理的Spark模块.它提供了一个称为DataFrames的编程抽象,也可以作为分布式SQL查询引擎. Spark SQL也可用于从现有的Hive安装中读取数据 ...
Spark SQL官网阅读笔记
Spark SQL是Spark中用于结构化数据处理的组件. Spark SQL可以从Hive中读取数据. 执行结果是Dataset/DataFrame. DataFrame是一个分布式数据容器.然而D ...
【Spark深入学习 -16】官网学习SparkSQL
----本节内容-------1.概览 1.1 Spark SQL 1.2 DatSets和DataFrame2.动手干活 2.1 契入点:SparkSess ...
Spark(1.6.1) Sql 编程指南+实战案例分析
首先看看从官网学习后总结的一个思维导图概述(Overview) Spark SQL是Spark的一个模块,用于结构化数据处理.它提供了一个编程的抽象被称为DataFrames,也可以作为分布式SQL ...
Spark的MLlib和ML库的区别
机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库.其目标是使实际的机器学习可扩展和容易.在高层次上,它提供了如下工具: ML算法:通用学习算法,如分类,回归,聚类和协同过滤特 ...
Apache Spark 2.2.0 中文文档
Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN Geekhoo 关注 2017.09.20 13:55* 字数 2062 阅读 13评论 0喜欢 1 快速入门使用 ...
Hadoop spark mongo复制集
启动hadoop cd /usr/local/hadoop/hadoop $hadoop namenode -format # 启动前格式化namenode $./sbin/start-all.sh ...

随机推荐

iOS 9: UIStackView入门
本文转自http://www.cocoachina.com/ios/20150623/12233.html 本文由CocoaChina译者candeladiao翻译,欢迎参加我们的翻译活动.原文:iO ...
iOS使用TFHpple解析html
iOS 开发中解析html 网上有很多写好的解析框架今天就来讲一下如何用框架TFHpple来解析html 使用TFHpple解析html github地址:https://github.com/to ...
iOS - 扩展UIButton的响应区域
扩展UIButton的响应区域引言通常在iOS开发中通常会遇到产品说按钮的响应区域不大而UI给我们的设计是按钮的面积而不是按钮的响应面积所以在这种情况下需要我们自己去扩展按钮的响应区域思考 ...
中间件系列三 RabbitMQ之交换机的四种类型和属性
概述本文介绍RabbitMQ中交换机类型和属性,主要内容如下: 交换机的作用交换机的类型:Direct exchange(直连交换机).Fanout exchange(扇型交换机).Topic exc ...
树莓派3安装opencv2程序无法运行
在raspberry pi3 上安装opencv3已测试,没有问题,而opencv2报错如下: Xlib: extension "RANDR" missing on display ...
QT开发之旅二TCP调试工具
TCP调试工具顾名思义用来调试TCP通信的,网上这样的工具N多,之前用.NET写过一个,无奈在XP下还要安装个.NET框架才能运行,索性这次用QT重写,发现QT写TCP通信比.NET还要便捷一些,运行 ...
linux route命令详解
考试题一:linux下如何添加路由(百度面试题) 以上是原题,老男孩老师翻译成如下3道题. a.如何用命令行方式给linux机器添加一个默认网关,假设网关地址为10.0.0.254? b. 192.1 ...
C程序设计语言习题（3-5）
编写函数itob(n,s,b),将整数n转换为以b为底的数,并将转换结果以字符的形式保存到字符串s中.e.g.itob(n,s,16)把整数n格式化为十六进制整数保存在s中. #include< ...
C#取得Web程序和非Web程序的根目录的N种取法
取得控制台应用程序的根目录方法方法1.Environment.CurrentDirectory 取得或设置当前工作目录的完整限定路径方法2.AppDomain.CurrentDomain.BaseDi ...
Unity3D笔记英保通十射线碰撞器检测
射线碰撞检测可以用来检测方向和距离: 通过Physics.RayCast光线投射来实现:常用于射击利用发射的射线来判断.还有对战中刀剑交战中.. 一.要涉及到RayCast和RayCastHit 1. ...

Spark 数据源

Spark 数据源的更多相关文章

随机推荐

热门专题