一:SparkSQL支持的外部数据源

1.支持情况

  

2.External LIbraries

  不是内嵌的,看起来不支持。

  但是现在已经有很多开源插件,可以进行支持。

3.参考材料

·  支持的格式:https://github.com/databricks

二:准备

1.启动服务

  RunJar是metastore服务,在hive那边开启。

  只需要启动三个服务就可以了,以后runjar都要启动,因为这里使用hive与spark集成了,不启动这个服务,就会总是报错。

  

2.启动spark-shell

  

三:测试检验程序

1.DataFrame的构成

  

2.结果

  

3.测试

  

4.结果

  

四:DataFrame的创建

1.创建SQLContext

  val sqlContext=new SQLContext(sc)

2.创建DataFrame(两种方式)

  val df=sqlContext.#

  val df=sqlContext.read.#

3.DataFrame数据转换

  val ndf=df.#.#

4.结果保存

  ndf.#

  ndf.write.#

五:DataFrame的保存

1.第一种方式

  将DataFrame转换为RDD,RDD数据保存

2.第二种方式

  直接通过DataFrame的write属性将数据写出。

  但是有限制,必须有定义类实现,默认情况:SparkSQL只支持parquet,json,jdbc

六:两个常用的网站(数据源问题)

1.金砖公司提供的一些插件

  

2.package网址

  https://spark-packages.org/

  

七:DataFrameReader编程模式

功能: 通过SQLContext提供的reader读取器读取外部数据源的数据,并形成DataFrame

1.源码的主要方法

  format:给定数据源数据格式类型,eg: json、parquet
  schema:给定读入数据的数据schema,可以不给定,不给定的情况下,进行数据类型推断
  option:添加参数,这些参数在数据解析的时候可能会用到
  load:
    有参数的指从参数给定的path路径中加载数据,比如:JSON、Parquet...
    无参数的指直接加载数据(根据option相关的参数)
  jdbc:读取关系型数据库的数据
  json:读取json格式数据
  parquet:读取parquet格式数据
  orc: 读取orc格式数据
  table:直接读取关联的Hive数据库中的对应表数据

八:Reader的程序测试

1.新建文件夹

  

2.上传数据

  

3.加载json数据

  val df=sqlContext.read.format("json").load("spark/sql/people.json")

  结果:

  

4.数据展示

  df.show()

  结果:

  

5.数据注册成临时表并操作展示

  

  结果:

  

6.和上面的方法等效的方式

  sqlContext.sql("select * from json.`spark/sql/people.json`").show()

  结果:

  

7.读取显示parquet格式的数据

  sqlContext.read.format("parquet").load("spark/sql/users.parquet").show()

  结果:

  

8.加载mysql中的数据

  这个是服务器上的mysql。

  sqlContext.read.jdbc("jdbc:mysql://linux-hadoop01.ibeifeng.com:3306/mysql?user=root&password=123456", "user", new java.util.Properties()).show()

  这个地方比较特殊。

  第一次使用bin/spark-shell进入后,使用命令,效果如下:

  

  然后使用这种方式进行启动,加上jar

   bin/spark-shell --jars /opt/softwares/mysql-connector-java-5.1.27-bin.jar --driver-class-path /opt/softwares/mysql-connector-java-5.1.27-bin.jar

  

九:DataFrameWriter编程模式

功能:将DataFrame的数据写出到外部数据源

1.源码主要方法

mode: 给定数据输出的模式
  `overwrite`: overwrite the existing data.
  `append`: append the data.
  `ignore`: ignore the operation (i.e. no-op).
  `error`: default option, throw an exception at runtime.
format:给定输出文件所属类型, eg: parquet、json
option: 给定参数
partitionBy:给定分区字段(要求输出的文件类型支持数据分区)
save: 触发数据保存操作 --> 当该API被调用后,数据已经写出到具体的数据保存位置了
jdbc:将数据输出到关系型数据库
  当mode为append的时候,数据追加方式是:
    先将表中的所有索引删除
    再追加数据

  没法实现,数据不存在就添加,存在就更新的需求

十:writer的程序测试

1.读取hive数据,形成DateFrame

  

2.结果保存为json格式

  自动创建存储目录。

  

  效果:

  

3.不再详细粘贴结果了

 读取Hive表数据形成DataFrame
val df = sqlContext.read.table("common.emp") 结果保存json格式
df.select("empno","ename").write.mode("ignore").format("json").save("/beifeng/result/json")
df.select("empno","ename").write.mode("error").format("json").save("/beifeng/result/json")
df.select("empno","ename", "sal").write.mode("overwrite").format("json").save("/beifeng/result/json")
df.select("empno","ename").write.mode("append").format("json").save("/beifeng/result/json")\
上面虽然在追加的时候加上了sal,但是解析没有问题
sqlContext.read.format("json").load("/beifeng/result/json").show() 结果保存parquet格式
df.select("empno", "ename", "deptno").write.format("parquet").save("/beifeng/result/parquet01")
df.select("empno", "ename","sal", "deptno").write.mode("append").format("parquet").save("/beifeng/result/parquet01") ## 加上sal导致解析失败,读取数据的时候 sqlContext.read.format("parquet").load("/beifeng/result/parquet01").show(100)
sqlContext.read.format("parquet").load("/beifeng/result/parquet01/part*").show(100) partitionBy按照给定的字段进行分区
df.select("empno", "ename", "deptno").write.format("parquet").partitionBy("deptno").save("/beifeng/result/parquet02")
sqlContext.read.format("parquet").load("/beifeng/result/parquet02").show(100)

  

040 DataFrame中的write与read编程的更多相关文章

  1. pandas | 详解DataFrame中的apply与applymap方法

    本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是pandas数据处理专题的第5篇文章,我们来聊聊pandas的一些高级运算. 在上一篇文章当中,我们介绍了panads的一些计算方法, ...

  2. [引]MSDN Visual Basic 和 C# 中都会用到的编程概念

    本文转自:http://msdn.microsoft.com/zh-cn/library/dd460655.aspx 本节介绍 Visual Basic 和 C# 中都会用到的编程概念. 本节内容   ...

  3. pandas,对dataFrame中某一个列的数据进行处理

    背景:dataFrame的数据,想对某一个列做逻辑处理,生成新的列,或覆盖原有列的值   下面例子中的df均为pandas.DataFrame()的数据   1.增加新列,或更改某列的值 df[&qu ...

  4. [Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子

    [Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子 sqlContext = HiveContext(sc) peopleDF = sqlContext. ...

  5. python – 基于pandas中的列中的值从DataFrame中选择行

    如何从基于pandas中某些列的值的DataFrame中选择行?在SQL中我将使用: select * from table where colume_name = some_value. 我试图看看 ...

  6. Python中识别DataFrame中的nan

    # 识别python中DataFrame中的nanfor i in pfsj.index: if type(pfsj.loc[i]['WZML']) == float: print('float va ...

  7. [Spark][Python]DataFrame中取出有限个记录的例子

    [Spark][Python]DataFrame中取出有限个记录的例子: sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json(&q ...

  8. STL中实现 iterator trail 的编程技巧

    STL中实现 iterator trail 的编程技巧 <泛型编程和 STL>笔记及思考. 这篇文章主要记录在 STL 中迭代器设计过程中出现的编程技巧,围绕的 STL 主题为 (迭代器特 ...

  9. 更改 pandas dataframe 中两列的位置

    更改 pandas dataframe 中两列的位置: 把其中的某列移到第一列的位置. 原来的 df 是: df = pd.read_csv('I:/Papers/consumer/codeandpa ...

随机推荐

  1. THUWC2019爆零记

    Day -1 现在在机房里,准备敲敲板子什么的. 今天晚上放假诶,要好好睡一下.好好睡是不可能的,这辈子不可能的. Day 0 现在在酒店,\(lwh\)神仙在超越,我打了个\(treap\)的板子就 ...

  2. CODE FESTIVAL 2017 qual A 题解

    补一发A的题解. A - Snuke's favorite YAKINIKU 题意: 输入字符串S,如果以YAKI开头输出Yes,否则输出No. #include<bits/stdc++.h&g ...

  3. 《剑指offer》— JavaScript(32)把数组排成最小的数

    把数组排成最小的数 题目描述 输入一个正整数数组,把数组里所有数字拼接起来排成一个数,打印能拼接出的所有数字中最小的一个.例如输入数组{3,32,321},则打印出这三个数字能排成的最小数字为3213 ...

  4. Ansible Role

    Ansible Role 专题总揽 https://www.jianshu.com/p/1be92c3f65ec lework 关注 2017.03.02 12:57* 字数 629 阅读 1439评 ...

  5. Hadoop生态圈-Flume的组件之拦截器与选择器

      Hadoop生态圈-Flume的组件之拦截器与选择器 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客只是配置的是Flume主流的Interceptors,想要了解更详细 ...

  6. 金融量化分析【day110】:Pandas-DataFrame读取与写入

    一.DataFrame DataFrame是一个表格型的数据结构,含有一组有序的列 DataFrame可以被看作是有Series组成的字典并且工用一个索引 1.创建方式 pd.DataFrame({' ...

  7. ubuntu 发送邮件

    1. 使用下面命令安装 sudo apt-get install heirloom-mailx 2. 编辑配置信息 vim /etc/nail.rc //此时如果打印没有权限则使用sudo命令,并且在 ...

  8. Spark记录-Scala语句(运算符-if-for-while-try-模式匹配)

    Scala条件运算符 Scala条件运算符在下表中列出. 运算符 操作 描述 && 与 运算符左侧和右侧的值为true.仅当左侧为真时,右侧才被计算. || 或 左侧或右侧的至少一个值 ...

  9. python Flask post 数据 输出

    #!/usr/bin/env python # -*- coding: utf-8 -*- from flask import Flask from flask import request from ...

  10. Spring RedisTemplate操作-String操作(2)

    @Autowired @Resource(name="redisTemplate") private RedisTemplate<String, String> rt; ...