spark sql 中的结构化数据

1. 连接mysql

首先需要把mysql-connector-java-5.1.39.jar 拷贝到 spark 的jars目录里面；

scala> import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.SQLContext

scala> val sqlContext=new SQLContext(sc)
warning: there was one deprecation warning; re-run with -deprecation for details
sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@3a649f9a

-----------------------------------------------------------------------------------------------------------------

scala> import org.apache.spark.sql.{SQLContext,SparkSession}

import org.apache.spark.sql.{SQLContext, SparkSession}

scala> val url="jdbc:mysql://localhost:3306/test?user=root&password=root&useUnicode=true&characterEncoding=UTF-8"
url: String = jdbc:mysql://localhost:3306/test?user=root&password=root&useUnicode=true&characterEncoding=UTF-8

scala> val con = new SQLContext(sc);

warning: there was one deprecation warning; re-run with -deprecation for details

con: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@3a973b5e

scala> con.read.format("jdbc").options(Map("url"->url,"dbtable"->"role")).load.show
+------+----+-------------------+-------------------+---+-----+
|roleid|name|             dateid|               addr|sex|level|
+------+----+-------------------+-------------------+---+-----+
|     1|null|2017-11-16 14:49:11|henan luohe linying| 1|   10|
|    40|null|2017-11-13 14:50:25| guangdong shenzhen| 1|   20|
|   110|null|2017-11-14 14:50:47|            beijing| 1|   20|
|   200|null|2017-11-14 14:49:47|   shandong qingdao| 0|    8|
|   400|null|2017-11-15 14:49:56|        anhui hefei| 0|    4|
|   600|null|2017-11-15 14:50:05|     hunan changsha| 0|   91|
|   650|null|2017-11-01 17:24:34|               null| 1|   29|
|   651|wang|2018-06-06 16:16:55|           shenzhen| 1|   60|
+------+----+-------------------+-------------------+---+-----+

scala> con.read.format("jdbc").option("url",url).option("dbtable","role").load.show
+------+----+-------------------+-------------------+---+-----+
|roleid|name|             dateid|               addr|sex|level|
+------+----+-------------------+-------------------+---+-----+
|     1|null|2017-11-16 14:49:11|henan luohe linying| 1|   10|
|    40|null|2017-11-13 14:50:25| guangdong shenzhen| 1|   20|
|   110|null|2017-11-14 14:50:47|            beijing| 1|   20|
|   200|null|2017-11-14 14:49:47|   shandong qingdao| 0|    8|
|   400|null|2017-11-15 14:49:56|        anhui hefei| 0|    4|
|   600|null|2017-11-15 14:50:05|     hunan changsha| 0|   91|
|   650|null|2017-11-01 17:24:34|               null| 1|   29|
|   651|wang|2018-06-06 16:16:55|           shenzhen| 1|   60|
+------+----+-------------------+-------------------+---+-----+

scala> val session=SparkSession.builder.getOrCreate()
session: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSession@71e393a2

scala> session.read.format("jdbc").options(Map("url"->url,"dbtable"->"role")).load.show
+------+----+-------------------+-------------------+---+-----+
|roleid|name|             dateid|               addr|sex|level|
+------+----+-------------------+-------------------+---+-----+
|     1|null|2017-11-16 14:49:11|henan luohe linying| 1|   10|
|    40|null|2017-11-13 14:50:25| guangdong shenzhen| 1|   20|
|   110|null|2017-11-14 14:50:47|            beijing| 1|   20|
|   200|null|2017-11-14 14:49:47|   shandong qingdao| 0|    8|
|   400|null|2017-11-15 14:49:56|        anhui hefei| 0|    4|
|   600|null|2017-11-15 14:50:05|     hunan changsha| 0|   91|
|   650|null|2017-11-01 17:24:34|               null| 1|   29|
|   651|wang|2018-06-06 16:16:55|           shenzhen| 1|   60|
+------+----+-------------------+-------------------+---+-----+

scala> session.read.format("jdbc").option("url",url).option("dbtable","role").load.show
+------+----+-------------------+-------------------+---+-----+
|roleid|name|             dateid|               addr|sex|level|
+------+----+-------------------+-------------------+---+-----+
|     1|null|2017-11-16 14:49:11|henan luohe linying| 1|   10|
|    40|null|2017-11-13 14:50:25| guangdong shenzhen| 1|   20|
|   110|null|2017-11-14 14:50:47|            beijing| 1|   20|
|   200|null|2017-11-14 14:49:47|   shandong qingdao| 0|    8|
|   400|null|2017-11-15 14:49:56|        anhui hefei| 0|    4|
|   600|null|2017-11-15 14:50:05|     hunan changsha| 0|   91|
|   650|null|2017-11-01 17:24:34|               null| 1|   29|
|   651|wang|2018-06-06 16:16:55|           shenzhen| 1|   60|
+------+----+-------------------+-------------------+---+-----+

scala> import java.util.Properties

import java.util.Properties

scala> val pro=new Properties()

pro: java.util.Properties = {}

scala> session.read.jdbc(url,"role",pro).show
+------+----+-------------------+-------------------+---+-----+
|roleid|name|             dateid|               addr|sex|level|
+------+----+-------------------+-------------------+---+-----+
|     1|null|2017-11-16 14:49:11|henan luohe linying| 1|   10|
|    40|null|2017-11-13 14:50:25| guangdong shenzhen| 1|   20|
|   110|null|2017-11-14 14:50:47|            beijing| 1|   20|
|   200|null|2017-11-14 14:49:47|   shandong qingdao| 0|    8|
|   400|null|2017-11-15 14:49:56|        anhui hefei| 0|    4|
|   600|null|2017-11-15 14:50:05|     hunan changsha| 0|   91|
|   650|null|2017-11-01 17:24:34|               null| 1|   29|
|   651|wang|2018-06-06 16:16:55|           shenzhen| 1|   60|
+------+----+-------------------+-------------------+---+-----+

2.连接hive，首先需要将hive的配置文件hive-site.xml拷贝到spark的conf目录下或者在conf目录下新建hive-site.xml,添加以下内容

（由于从hive拷贝过来的文件报错，因此本人采用了新建文件的方式）

<configuration>
<property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://localhost:3306/metastore?createDatabaseIfNotExist=true</value>
</property>
<property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
    <description>Driver class name for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>root</value>
</property>
<property>
    <name>hive.metastore.warehouse.dir</name>
    <value>/user/hive/warehouse</value>
    <description>location of default database for the warehouse</description>
</property>
<property>
<name>hive.exec.scratchdir</name>
<value>/tmp/hive/tmp</value>
</property>
<property>
<name>hive.querylog.location</name>
<value>/tmp/hive/log</value>
</property>
</configuration>

启动 spark-shell:

HiveContext读取hive

scala> import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.sql.hive.HiveContext

scala> val hivecon=new HiveContext(sc)
warning: there was one deprecation warning; re-run with -deprecation for details
hivecon: org.apache.spark.sql.hive.HiveContext = org.apache.spark.sql.hive.HiveContext@1b96f15e

--------------------------------------------

--SparkSession读取hive

scala> import org.apache.spark.sql.SparkSession

import org.apache.spark.sql.SparkSession

scala> val session=SparkSession.builder.getOrCreate()

session: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSession@331d651b

scala> session.sql("select sex,count(1) from gamedw.cust group by sex").show
+---+--------+
|sex|count(1)|
+---+--------+
| 1| 6|
| 0| 3|
+---+--------+

spark sql 中的结构化数据的更多相关文章

[转] Protobuf高效结构化数据存储格式
从公司的项目源码中看到了这个东西,觉得挺好用的,写篇博客做下小总结.下面的操作以C++为编程语言,protoc的版本为libprotoc 3.2.0. 一.Protobuf? 1. 是什么? Goo ...
Spark SQL - 对大规模的结构化数据进行批处理和流式处理
Spark SQL - 对大规模的结构化数据进行批处理和流式处理大体翻译自:https://jaceklaskowski.gitbooks.io/mastering-apache-spark/con ...
Spark如何与深度学习框架协作，处理非结构化数据
随着大数据和AI业务的不断融合,大数据分析和处理过程中,通过深度学习技术对非结构化数据(如图片.音频.文本)进行大数据处理的业务场景越来越多.本文会介绍Spark如何与深度学习框架进行协同工作,在大数 ...
Spark读取结构化数据
读取结构化数据 Spark可以从本地CSV,HDFS以及Hive读取结构化数据,直接解析为DataFrame,进行后续分析. 读取本地CSV 需要指定一些选项,比如留header,比如指定delimi ...
详解Google-ProtoBuf中结构化数据的编码
本文的主要内容是google protobuf中序列化数据时用到的编码规则,但是,介绍具体的编码规则之前,我觉得有必要先简单介绍一下google protobuf.因此,本文首先会介绍一些google ...
H5中使用Web Storage来存储结构化数据
在上一篇对Web Storage的介绍中,可以看到,使用Storage保存key—value对时,key.value只能是字符串,这对于简单的数据来说已经够了,但是如果需要保存更复杂的数据,比如保存类 ...
MySQL 5.7：非结构化数据存储的新选择
本文转载自:http://www.innomysql.net/article/23959.html (只作转载, 不代表本站和博主同意文中观点或证实文中信息) 工作10余年,没有一个版本能像MySQL ...
Spark SQL中列转行（UNPIVOT）的两种方法
行列之间的互相转换是ETL中的常见需求,在Spark SQL中,行转列有内建的PIVOT函数可用,没什么特别之处.而列转行要稍微麻烦点.本文整理了2种可行的列转行方法,供参考. 本文链接:https: ...
Solr系列四：Solr（solrj 、索引API 、结构化数据导入）
一.SolrJ介绍 1. SolrJ是什么? Solr提供的用于JAVA应用中访问solr服务API的客户端jar.在我们的应用中引入solrj: <dependency> <gro ...

随机推荐

mysql获取某个表的所有属性名及其数据
MYSQL类实现从数据库相应的表中获取所有属性及其数据,数据为元组类型.返回结果存放在字典中 import pymysql class MYSQL: def __init__(self): pass ...
信息安全-加密：RAS 加密
ylbtech-信息安全-加密:RAS 加密 1.返回顶部 1. RSA 是不对称的加密(加密密钥和解密密钥不同其中一个为公钥,一个为私钥): 公钥和私钥的产生是基于一对很大的素数(十进制来说 ...
计划任务at、crontab
at一次性计划任务格式: at + 时间命令安装at # yum install at -y 如果执行at命令时,出现一下情况 Can't open /var/run/atd.pid to si ...
[UE4]运行时脱离视角，进入自由视角
按 Shift + F1让鼠标脱离游戏窗口,然后点击右上角的按钮,然后鼠标在游戏窗口点击一下,就只有自由漫游了. 还可以点击选中Word Outliner窗口的物体.
CentOS设置网络，设置IP地址
1.登录CentOS. 2.# dhclient 自动获取IP地址 3.# ip addr 1).第一个地址127.0.0.1是回环地址,网卡名叫做lo,Windows操作系统也有该地址,用来和自己通 ...
OpenJuege 兔子与星空
总时间限制: 1000ms 内存限制: 10000kB 描述很久很久以前,森林里住着一群兔子.兔子们无聊的时候就喜欢研究星座.如图所示,天空中已经有了n颗星星,其中有些星星有边相连.兔子们希望删 ...
Spring MVC post请求乱码解决
在页面发送POST请求,将中文传递给controller,在编译平台发生乱码,导致存储到数据库中的数据也乱码解决办法: 在web.xml中添加一个编码过滤器 <filter> <f ...
第13课 lambda表达式
1. lambda的语法形式:[capture](params) opt -> ret {body;}; (1)capture为捕获列表 ①[].[&]和[=]分别表示不捕获.按引用捕获 ...
Elasticsearch的JavaAPI
获取客户端对象 public class App { private TransportClient client; //获取客户端对象 @Before public void getClinet() ...
HDFS操作及小文件合并
小文件合并是针对文件上传到HDFS之前这些文件夹里面都是小文件参考代码 package com.gong.hadoop2; import java.io.IOException; import j ...

spark sql 中的结构化数据

spark sql 中的结构化数据的更多相关文章

随机推荐

热门专题