040 DataFrame中的write与read编程

一：SparkSQL支持的外部数据源

1.支持情况

2.External LIbraries

　　不是内嵌的，看起来不支持。

　　但是现在已经有很多开源插件，可以进行支持。

3.参考材料

·　　支持的格式：https://github.com/databricks

二：准备

1.启动服务

　　RunJar是metastore服务，在hive那边开启。

　　只需要启动三个服务就可以了，以后runjar都要启动，因为这里使用hive与spark集成了，不启动这个服务，就会总是报错。

2.启动spark-shell

三：测试检验程序

1.DataFrame的构成

2.结果

3.测试

4.结果

四：DataFrame的创建

1.创建SQLContext

　　val sqlContext=new SQLContext(sc)

2.创建DataFrame（两种方式）

　　val df=sqlContext.#

　　val df=sqlContext.read.#

3.DataFrame数据转换

　　val ndf=df.#.#

4.结果保存

　　ndf.#

　　ndf.write.#

五：DataFrame的保存

1.第一种方式

　　将DataFrame转换为RDD，RDD数据保存

2.第二种方式

　　直接通过DataFrame的write属性将数据写出。

　　但是有限制，必须有定义类实现，默认情况：SparkSQL只支持parquet，json，jdbc

六：两个常用的网站（数据源问题）

1.金砖公司提供的一些插件

2.package网址

　　https://spark-packages.org/

七：DataFrameReader编程模式

功能: 通过SQLContext提供的reader读取器读取外部数据源的数据，并形成DataFrame

1.源码的主要方法

　　format：给定数据源数据格式类型，eg: json、parquet
　　schema：给定读入数据的数据schema，可以不给定，不给定的情况下，进行数据类型推断
　　option：添加参数，这些参数在数据解析的时候可能会用到
　　load：
　　　　有参数的指从参数给定的path路径中加载数据，比如：JSON、Parquet...
　　　　无参数的指直接加载数据(根据option相关的参数)
　　jdbc：读取关系型数据库的数据
　　json：读取json格式数据
　　parquet：读取parquet格式数据
　　orc: 读取orc格式数据
　　table：直接读取关联的Hive数据库中的对应表数据

八：Reader的程序测试

1.新建文件夹

2.上传数据

3.加载json数据

　　val df=sqlContext.read.format("json").load("spark/sql/people.json")

　　结果：

4.数据展示

　　df.show()

　　结果：

5.数据注册成临时表并操作展示

　　结果：

6.和上面的方法等效的方式

　　sqlContext.sql("select * from json.`spark/sql/people.json`").show()

　　结果：

7.读取显示parquet格式的数据

　　sqlContext.read.format("parquet").load("spark/sql/users.parquet").show()

　　结果：

8.加载mysql中的数据

　　这个是服务器上的mysql。

　　sqlContext.read.jdbc("jdbc:mysql://linux-hadoop01.ibeifeng.com:3306/mysql?user=root&password=123456", "user", new java.util.Properties()).show()

　　这个地方比较特殊。

　　第一次使用bin/spark-shell进入后，使用命令，效果如下：

　　然后使用这种方式进行启动，加上jar

　　 bin/spark-shell --jars /opt/softwares/mysql-connector-java-5.1.27-bin.jar --driver-class-path /opt/softwares/mysql-connector-java-5.1.27-bin.jar

九：DataFrameWriter编程模式

功能：将DataFrame的数据写出到外部数据源

1.源码主要方法

mode: 给定数据输出的模式
　　`overwrite`: overwrite the existing data.
　　`append`: append the data.
　　`ignore`: ignore the operation (i.e. no-op).
　　`error`: default option, throw an exception at runtime.
format：给定输出文件所属类型, eg: parquet、json
option: 给定参数
partitionBy：给定分区字段(要求输出的文件类型支持数据分区)
save: 触发数据保存操作 --> 当该API被调用后，数据已经写出到具体的数据保存位置了
jdbc：将数据输出到关系型数据库
　　当mode为append的时候，数据追加方式是：
　　　　先将表中的所有索引删除
　　　　再追加数据

　　没法实现，数据不存在就添加，存在就更新的需求

十：writer的程序测试

1.读取hive数据，形成DateFrame

2.结果保存为json格式

　　自动创建存储目录。

　　效果：

3.不再详细粘贴结果了

 读取Hive表数据形成DataFrame

 val df = sqlContext.read.table("common.emp")

 结果保存json格式

 df.select("empno","ename").write.mode("ignore").format("json").save("/beifeng/result/json")

 df.select("empno","ename").write.mode("error").format("json").save("/beifeng/result/json")

 df.select("empno","ename", "sal").write.mode("overwrite").format("json").save("/beifeng/result/json")

 df.select("empno","ename").write.mode("append").format("json").save("/beifeng/result/json")\

 上面虽然在追加的时候加上了sal，但是解析没有问题

 sqlContext.read.format("json").load("/beifeng/result/json").show()

 结果保存parquet格式

 df.select("empno", "ename", "deptno").write.format("parquet").save("/beifeng/result/parquet01")

 df.select("empno", "ename","sal", "deptno").write.mode("append").format("parquet").save("/beifeng/result/parquet01") ## 加上sal导致解析失败，读取数据的时候

 sqlContext.read.format("parquet").load("/beifeng/result/parquet01").show(100)

 sqlContext.read.format("parquet").load("/beifeng/result/parquet01/part*").show(100)

 partitionBy按照给定的字段进行分区

 df.select("empno", "ename", "deptno").write.format("parquet").partitionBy("deptno").save("/beifeng/result/parquet02")

 sqlContext.read.format("parquet").load("/beifeng/result/parquet02").show(100)

040 DataFrame中的write与read编程的更多相关文章

pandas | 详解DataFrame中的apply与applymap方法
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是pandas数据处理专题的第5篇文章,我们来聊聊pandas的一些高级运算. 在上一篇文章当中,我们介绍了panads的一些计算方法, ...
[引]MSDN Visual Basic 和 C# 中都会用到的编程概念
本文转自:http://msdn.microsoft.com/zh-cn/library/dd460655.aspx 本节介绍 Visual Basic 和 C# 中都会用到的编程概念. 本节内容 ...
pandas，对dataFrame中某一个列的数据进行处理
背景:dataFrame的数据,想对某一个列做逻辑处理,生成新的列,或覆盖原有列的值下面例子中的df均为pandas.DataFrame()的数据 1.增加新列,或更改某列的值 df[&qu ...
[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子
[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子 sqlContext = HiveContext(sc) peopleDF = sqlContext. ...
python – 基于pandas中的列中的值从DataFrame中选择行
如何从基于pandas中某些列的值的DataFrame中选择行?在SQL中我将使用: select * from table where colume_name = some_value. 我试图看看 ...
Python中识别DataFrame中的nan
# 识别python中DataFrame中的nanfor i in pfsj.index: if type(pfsj.loc[i]['WZML']) == float: print('float va ...
[Spark][Python]DataFrame中取出有限个记录的例子
[Spark][Python]DataFrame中取出有限个记录的例子: sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json(&q ...
STL中实现 iterator trail 的编程技巧
STL中实现 iterator trail 的编程技巧 <泛型编程和 STL>笔记及思考. 这篇文章主要记录在 STL 中迭代器设计过程中出现的编程技巧,围绕的 STL 主题为 (迭代器特 ...
更改 pandas dataframe 中两列的位置
更改 pandas dataframe 中两列的位置: 把其中的某列移到第一列的位置. 原来的 df 是: df = pd.read_csv('I:/Papers/consumer/codeandpa ...

随机推荐

使用ImageMagick 在图片上绘制粗斜体的中文也许是一个错误。
测试发现: ImageMagick使用中文字体,在图片上绘制带粗或斜体的中文,看不到效果. 如果使用英文字体,绘制粗或斜体的英文,99%都有效果. 今天无意看到一篇文章提到: convert -lis ...
滚动条事件,当页面滚动到距顶部一定高度时某DIV自动隐藏和显示
$(function () { //绑定滚动条事件 //绑定滚动条事件 $(window).bind(&q ...
python的面向对象-类的数据属性和实例的数据属性相结合-无命名看你懵逼不懵逼系列
1. class Chinese: country='China' def __init__(self,name): self.name=name def play_ball(self,ball): ...
Python3.x文件处理详解
Python3.x文件处理详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 任何一门语言都有其特有的操作文件的方式,Python2.x版本有两种操作文件的方式,没错就是open函 ...
函数和常用模块【day06】：模块特殊变量（十四）
from test import test ''' __mame__ # 当前文件为主文件是等于__main__.用于调用时不执行一些命令 __file__ # 当前文件的路径,相对路径 __cach ...
数据结构（三）串---KMP模式匹配算法
(一)定义由于BF模式匹配算法的低效(有太多不必要的回溯和匹配),于是某三个前辈发表了一个模式匹配算法,可以大大避免重复遍历的情况,称之为克努特-莫里斯-普拉特算法,简称KMP算法 (二)KMP算法 ...
SQL记录-PLSQL字符串
PL/SQL字符串 PL/SQL字符串实际上是一个可选的尺寸规格字符序列.字符可以是数字,字母,空白,特殊字符或全部的组合. PL/SQL提供了三种类型的字符串: 固定长度字符串:在这样的字符串,程序 ...
bzoj千题计划296：bzoj1053: [HAOI2007]反素数ant
http://www.lydsy.com/JudgeOnline/problem.php?id=1053 求n以内约数个数最多的数 #include<cstdio> using names ...
贪心算法：Codevs 1044 拦截导弹
---恢复内容开始--- #include <iostream> #include <cstdio> #include <cstdlib> #include < ...
基础知识点关于 prototype __proto__
基础知识点关于 prototype __proto__ 供js新手参考 JavaScript 的一些基础知识点: 在 JavaScript 中,所有对象 o 都拥有一个隐藏的原型对象(在 Fire ...

040 DataFrame中的write与read编程

040 DataFrame中的write与read编程的更多相关文章

随机推荐

热门专题