在Spark中,Dataframe简直可以称为内存中的文本文件。

就像在电脑上直接操作txt、 csv、 json文件一样简单。

val sparkConf = new SparkConf().setAppName("df2db").setMaster("local[1]")

val sc = new SparkContext(sparkConf)

val sqlContext : SQLContext = new SQLContext(sc)

val df = sqlContext.read.format("csv").option("header","true").load("D:\\spark test\\123")

val snapTable = "env0y"

df.registerTempTable(snapTable)

以上寥寥数语就把一个csv文件转为DataFrame并注册为一张临时表了,这时候就可以像操作数据库表一样操作这个snapTable了:

val sql = "SELECT * FROM " + snapTable

val dfTmp = this.sqlContext.sql(sql)

这样写代码方便简单,但可惜的是DataFrame毕竟仅仅存在于内存中,我们业务代码只会输出算法里规定的结果

也就是说,假如结果出错,不好定位到底是DataFrame本身数据有误,还是代码中的SQL写错了。。。

假如能随时随地操作DataFrame就好了,怎么办呢?

把DataFrame保存到真实的数据库去:

import java.util.Properties

val connectionUrl = "jdbc:sqlserver://10.119.46.153:1433"

val table = "Nettransmit.dbo.df2mssql"

val prop = new Properties()

prop.put("JDBC.Driver","com.microsoft.sqlserver.jdbc.SQLServerDriver")

prop.put("user", "sa")

prop.put("password", "ibas.1597")

val dfWriter = df.write.mode(SaveMode.Overwrite).jdbc(connectionUrl, table, prop)

这下好了,如果计算出错了,我们直接连上数据库几条sql就能debug个八九不离十。

唯一要注意的是,DataFrame to Database不是业务要求,所以上面的代码只能在开发模式或者测试模式的时候存在,正式发布版不应该出现 

既然可以写进去,自然也可以读出来:

//SqlServer 2 Dataframe

val dfviatable = sqlContext.read.jdbc(connectionUrl,table,prop)

dfviatable.show(10)

以上,DataFrame和数据库之间的极简交互就完成了,但如果业务中真的有读写数据库的需求了,性能问题可能会成为瓶颈,要注意的。

接下来是那么一点点优化。

从csv到DataFrame,我们使用df.printSchema()语句可以在控制台看到类似下面的输出:

root

|-- IMSI: string (nullable = true)

|-- UserType: string (nullable = true)

|-- Total PS Traffic(KB): string (nullable = true)

|-- Total Online Time(s): string (nullable = true)

|-- Total CS Traffic (ERL): string (nullable = true)

|-- Brand: string (nullable = true)

|-- Series: string (nullable = true)

|-- OS: string (nullable = true)

|-- Type: string (nullable = true)

|-- FDD LTE: string (nullable = true)

|-- TDD LTE: string (nullable = true)

|-- Only Report 3G Capability: string (nullable = true)

也就是说,写入到数据库之后每个字段的类型都是string,这显然是一种浪费。

而且很多值完全可以使用int或者double或者bool类型。

怎么办呢?得修改数据库的“方言”,就像在c++中std::locale 建立本地规则一样。

为了方便起见,封装一下:

import java.io.{File, FileInputStream}

import java.util.Properties

import org.apache.spark.sql.jdbc.{JdbcDialect, JdbcDialects, JdbcType}

import org.apache.spark.sql.types._

import org.apache.spark.sql.{DataFrame, SaveMode}

/**

* Created by env0y on 2017/11/24.

*/

object dataframe2db {

def df2db(df: DataFrame,table: String,properties: String) = {

try{

val is = new FileInputStream(new File(properties))

val prop = new Properties()

prop.load(is)

val url = String.valueOf(prop.get("url"))//

JdbcDialects.registerDialect(SQLServerDialect)

df.write.mode(SaveMode.Overwrite).jdbc(url,table,prop)

is.close()

}

}

val SQLServerDialect = new JdbcDialect {

override def canHandle(url: String): Boolean = url.startsWith("jdbc:jtds:sqlserver") || url.contains("sqlserver")

override def getJDBCType(dt: DataType): Option[JdbcType] = dt match {

case StringType => Some(JdbcType("NVARCHAR(128)", java.sql.Types.VARCHAR))

case BooleanType => Some(JdbcType("BIT(1)", java.sql.Types.BIT))

case IntegerType => Some(JdbcType("INTEGER", java.sql.Types.INTEGER))

case LongType => Some(JdbcType("BIGINT", java.sql.Types.BIGINT))

case DoubleType => Some(JdbcType("DOUBLE PRECISION", java.sql.Types.DOUBLE))

case FloatType => Some(JdbcType("REAL", java.sql.Types.REAL))

case ShortType => Some(JdbcType("INTEGER", java.sql.Types.INTEGER))

case ByteType => Some(JdbcType("INTEGER", java.sql.Types.INTEGER))

case BinaryType => Some(JdbcType("BINARY", java.sql.Types.BINARY))

case DateType => Some(JdbcType("DATE", java.sql.Types.DATE))

case TimestampType => Some(JdbcType("DATE", java.sql.Types.DATE))

// case DecimalType.Fixed(precision, scale) => Some(JdbcType("NUMBER(" + precision + "," + scale + ")", java.sql.Types.NUMERIC))

case t: DecimalType => Some(JdbcType(s"DECIMAL(${t.precision},${t.scale})", java.sql.Types.DECIMAL))

case _ => throw new IllegalArgumentException(s"Don't know how to save ${dt.json} to JDBC")

}

}

}

然后像这样调用:

dataframe2db.df2db(df,"Nettransmit.dbo.df2dbff","D:\\ database.properties")

第三个参数是数据库的属性配置文件,内容类似以下:

#\u5F00\u53D1\u6570\u636E\u5E93

driver=com.microsoft.sqlserver.jdbc.SQLServerDriver

url=jdbc:sqlserver://10.119.46.153:1433;databaseName=TspManagement

username=sa

password=ibas.1597

这时候再去观察从DataFrame写入到数据库中表会发现,字段属性都变成NVARCHAR(128)了~~

另外,直接修改DataFrame里面的Schema类型也很简单:

val df1 = df.withColumn("Only Report 3G Capability",col("Only Report 3G Capability").cast(DataTypes.FloatType))

df1.printSchema()

就这些,以上Spark的版本是1.6. 涉及的数据库是sqlServer.

DataFrame与数据库的相互转化的更多相关文章

  1. spark RDD,DataFrame,DataSet 介绍

    弹性分布式数据集(Resilient Distributed Dataset,RDD) RDD是Spark一开始就提供的主要API,从根本上来说,一个RDD就是你的数据的一个不可变的分布式元素集合,在 ...

  2. r语言与dataframe

    什么是DataFrame 引用 r-tutor上的定义: DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量. 没错,DataFrame就是类似于Excel表 ...

  3. RDD、DataFrame和DataSet的区别

    原文链接:http://www.jianshu.com/p/c0181667daa0 RDD.DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同. RDD ...

  4. RDD、DataFrame和DataSet

    简述 RDD.DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同:DataFrame多了数据的结构信息,即schema.RDD是分布式的 Java对象的集 ...

  5. HibernateTools实现pojo类 数据库schma mapping映射的相互转换 二

    接着上一篇博客:HibernateTools实现pojo类 数据库schma mapping映射的相互转换 思路二:由数据库表,生成Mapping映射文件和POJO类. 尽管能够实现,但个人觉着先设计 ...

  6. SparkSQL 中 RDD 、DataFrame 、DataSet 三者的区别与联系

    一.SparkSQL发展: Shark是一个为spark设计的大规模数据仓库系统,它与Hive兼容      Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来(by s ...

  7. Sprk SQL

    一.Spark SQL概述  1.Spark SQL的前生今世 Shark是一个为Spark设计的大规模数据仓库系统,它与Hive兼容.Shark建立在Hive的代码基础上,并通过将Hive的部分物理 ...

  8. spark 三种数据集的关系(二)

    一个Dataset是一个分布式的数据集,而且它是一个新的接口,这个新的接口是在Spark1.6版本里面才被添加进来的,所以要注意DataFrame是先出来的,然后在1.6版本才出现的Dataset,提 ...

  9. python数据分析入门学习笔记

    学习利用python进行数据分析的笔记&下星期二内部交流会要讲的内容,一并分享给大家.博主粗心大意,有什么不对的地方欢迎指正~还有许多尚待完善的地方,待我一边学习一边完善~ 前言:各种和数据分 ...

随机推荐

  1. linux系统下安装memcached

    检查libevent 首先检查系统中是否安装了libevent rpm -qa|grep libevent 如果安装了则查看libevent的安装路径,后续安装时需要用到 rpm -ql libeve ...

  2. PAT_A1149#Dangerous Goods Packaging

    Source: PAT A1149 Dangerous Goods Packaging (25 分) Description: When shipping goods with containers, ...

  3. Python 字符串常用方法 day2

    1.去空格和换行符: s = ' a bc ' print(s.strip())#strip(),去掉字符串两边的空格和换行符,无法去除中间的空格 print(s.rstrip())#rstrip() ...

  4. swift-UITableView的基本使用

    废话不多说了,直接贴我今天写的代码吧:如果新手有什么不懂的,可以发我邮箱. // //  singleInfo.swift            个人信息 //  Housekeeper // //  ...

  5. 【Leetcode】【简单】【169求众数】【JavaScript】

    题目 169. 求众数 给定一个大小为 n 的数组,找到其中的众数.众数是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素. 你可以假设数组是非空的,并且给定的数组总是存在众数. 示例 1: 输入: [ ...

  6. python3实现UDP协议的简单服务器和客户端

    利用python中的socket模块中的来实现UDP协议,这里写一个简单的服务器和客户端.为了说明网络编程中UDP的应用,这里就不写图形化了,在两台电脑上分别打开UDP的客户端和服务端就可以了. UD ...

  7. ZOJ - 3483 - Gaussian Prime

    先上题目: Gaussian Prime Time Limit: 3 Seconds      Memory Limit: 65536 KB In number theory, a Gaussian ...

  8. Amoeba for MySQL 中间件

      来源:http://docs.hexnova.com/amoeba/ Amoeba for MySQL致力于MySQL的分布式数据库前端代理层,它主要在应用层访问MySQL的时候充当query 路 ...

  9. IOS - 查找未使用的图片

    实现细节都在代码里面, 帮助 -h. # -*- coding: utf-8 -*- """ 检查IOS应用图片是否使用 1. 读取有效文件: 图片(.png, .jpg ...

  10. C++ exit 与 return 浅析

    [摘要] 本文从代码形式.经常使用方式,相关概念,调用关系和比較分析,这5个维度浅析 exit 与 return 在C++的同样点与差别. [常见形式] exit(0):   正常执行程序并退出程序. ...