spark知识点_datasources

　　来自官网DataFrames、DataSets、SQL，即sparkSQL模块。

　　通过dataframe接口，sparkSQL支持多种数据源的操作。可以把dataframe注册为临时视图，也可以通过关系转换。

　　1）默认格式是parquet，这是一种columnar（柱状的，按列的）的格式，按列存储（如Hadoop中）。

　　parquet载入后就是dataframe格式，而dataframe可以直接写出到parquet文件。

df = spark.read.load("examples/src/main/resources/users.parquet")  #默认parquet格式

df.select("name", "favorite_color").write.save("namesAndFavColors.parquet")

#可手动设置格式为json，亦可以是json, parquet, jdbc, orc, libsvm, csv, text等內建格式，如果是其他的则要写全称(i.e., org.apache.spark.sql.parquet)

df = spark.read.load("examples/src/main/resources/people.json", format="json")

df.select("name", "age").write.save("namesAndAges.parquet", format="parquet")

#可以直接在文件上执行SQL

df = spark.sql("SELECT * FROM parquet.`examples/src/main/resources/users.parquet`")

　　2）表分隔（partition）是如Hive的系统中常用的优化途径。分隔后的数据会存放在不同的目录。

　　下面的文件就是以gender和country作为分隔字段（列）的。

path

└── to

    └── table

        ├── gender=male

        │   ├── ...

        │   │

        │   ├── country=US

        │   │   └── data.parquet

        │   ├── country=CN

        │   │   └── data.parquet

        │   └── ...

        └── gender=female

            ├── ...

            │

            ├── country=US

            │   └── data.parquet

            ├── country=CN

            │   └── data.parquet

            └── ...

spark知识点_datasources的更多相关文章

Spark知识点
1.Spark架构分布式spark应用中的组件在分布式环境下,Spark集群采用的是主/从结构.在一个Spark集群中,有一个节点负责中央协调,调度各个分布式工作节点.这个中央协调节点被称为驱动器 ...
spark知识点_RDD
来自官网的Spark Programming Guide,包括个人理解的东西. 这里有一个疑惑点,pyspark是否支持Python内置函数(list.tuple.dictionary相关操作)?思考 ...
Spark知识点小结
函数在driver端定义.在executor端被调用执行
大数据核心知识点：Hbase、Spark、Hive、MapReduce概念理解，特点及机制
今天,上海尚学堂大数据培训班毕业的一位学生去参加易普软件公司面试,应聘的职位是大数据开发.面试官问了他10个问题,主要集中在Hbase.Spark.Hive和MapReduce上,基础概念.特点.应用 ...
大数据学习day19-----spark02-------0 零碎知识点（分区，分区和分区器的区别） 1. RDD的使用（RDD的概念，特点，创建rdd的方式以及常见rdd的算子） 2.Spark中的一些重要概念
0. 零碎概念 (1) 这个有点疑惑,有可能是错误的. (2) 此处就算地址写错了也不会报错,因为此操作只是读取数据的操作(元数据),表示从此地址读取数据但并没有进行读取数据的操作 (3)分区(有时间 ...
Spark MLlib知识点学习整理
MLlib的设计原理:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法.MLlib就是RDD上一系列可供调用的函数的集合. 操作步骤: 1.用字符串RDD来表示信息. 2.运行MLlib中的 ...
Spark Core知识点复习-1
Day1111 Spark任务调度 Spark几个重要组件 Spark Core RDD的概念和特性生成RDD的两种类型 RDD算子的两种类型算子练习分区 RDD的依赖关系 DAG:有向无环图 ...
Spark Core知识点复习-2
day1112 1.spark core复习任务提交缓存 checkPoint 自定义排序自定义分区器自定义累加器广播变量 Spark Shuffle过程 SparkSQL 一. Spark ...
知识点-Spark小节
Spark处理字符串日期的max和min的方式Spark处理数据存储到Hive的方式Spark处理新增列的方式map和udf.functionsSpark处理行转列pivot的使用Python 3.5 ...

随机推荐

Metasploit魔鬼训练营第一章作业
1, Samba服务 Samba是在Linux和UNIX系统上实现SMB协议的一个免费软件,由服务器及客户端程序构成.SMB(Server Messages Block,信息服务块)是一种在局域网上共 ...
git——同步本地文件到github上
参考教程: 1.https://blog.csdn.net/weixin_37769855/article/details/99439904 2.https://www.liaoxuefeng.com ...
AGC043 B题题解
有的时候,碰到一道题,要给自己先设立部分分,再去想如何把部分分推广到一般情况.这题就是绝佳的例子. 不妨将\(a_i\)用\(a_i - 1\)替代,这样就变成了\(a_i \in \{ 0, 1, ...
Fisco Bcos学习资料连接
大牛博客:http://m.blog.csdn.net/sportshark FISCO BCOS学习资料索引;http://kb.bsnbase.com/webdoc/view/Pub4028813 ...
POWER BI 基于 ODBC 数据源的配置刷新-以Amazon Redshift为例
POWER BI 基于 ODBC 数据源的配置刷新-以Amazon Redshift为例 Powerbi 有多种数据源连接,可以使用它们连接到不同数据源. 如果在 Power BI Desktop 的 ...
STL——容器（deque） deque 的赋值 assign() operator=() swap()
deque 的赋值分下边4种方法: deque.assign(beg,end); //将[beg, end)区间中的数据拷贝赋值给本身.注意该区间是左闭右开的区间. 1 #include <io ...
安装xshell6
xshell作为一个强大的安全终端模拟软件,深受广大人民喜爱,本文将介绍如何在Windows环境下安装最新版本的xshell客户端. 一,下载 1,打开官网下载链接https://www.netsar ...
单身狗福利！利用java实现每天给对象发情话，脱单指日可待！
引言最近看到一篇用js代码实现表白的文章,深有感触. 然后发现自己也可以用java代码实现,然后就开始写代码了,发现还挺有意思的,话不多说开搞实现思路: 使用HttpClient远程获取彩虹屁生成 ...
mybatis-plus逻辑删除
MP(mybatis plus)已经大大简化了我们好多的开发操作,基本的增删改查都有了,包括代码生成等等,今天想说的是它的逻辑删除功能.我们都在数据库设计时候经常会有is字段,表示是否删除,为了留下员 ...
.Net Core的简单单元测试基于Mock和自定义
首先创建使用mock 外部依赖一般用Mock 模拟下载包例如 3.1:首先先要使用MOCk来模拟测试方法需要的参数,这一步为 Arrange; 简单的模拟 var mock = new Mock ...

spark知识点_datasources

spark知识点_datasources的更多相关文章

随机推荐

热门专题