<Spark><Programming><Loading and Saving Your Data>
Motivation
- Spark是基于Hadoop可用的生态系统构建的,因此Spark可以通过Hadoop MapReduce的InputFormat和OutputFormat接口存取数据。
- Spark所提供的上层接口有这几类:
- File formats and filesystems: 对于存储在本地或分布式系统的数据,比如NFS,HDFS,Amazon S3。Spark可以访问多种数据格式,包括text,JSON,SequenceFiles,protocol buffers。
- Structured data sources through Spark SQL: Spark SQL模块提供了结构化数据结构的API,包括JSON和Apache Hive
- Databases and key/value pairs:包括内置的和第三方的库,可以用来连接Cassandra,HBase,Elasticsearch以及JDBC数据库。
File Formats
- Spark提供大量的数据格式来使数据加载和存储更加方便。这些包括了非结构化(比如文本),半结构化(比如JSON),结构化(比如序列文件)。
格式名称 结构化 评论 Text files 非结构化 Plain old text files. Records are assumed to be one per line. JSON 半结构化 普通的基于文本的格式,半结构化;大多数库需要每行一个记录 CSV 结构化 非常常见的基于文本的格式,经常和电子表格应用一起使用 SequenceFils 结构化 一个常见的Hadoop文件格式,用于key/value数据 Protocol buffers 结构化 一个快速的,space-efficient多语言格式 Object files 结构化 Useful for saving data from a Spark job to be consumed by shared code. Breaks if you change your classes, as it relies on Java Serialization.
Text Files
- 在Spark中,加载和存储文本文件十分方便。当你加载一个文本文件作为RDD时,每一行都变成RDD中的一个元素。
- 也可以一次加载多个text files到一个pair RDD,key就是文件名,value是文件内容
Loading text file
val input = sc.textFile("file:///home/holden/repos/spark/README.md")
- 可以通过制定minPartitions来控制partitions的数量
- 当我们指定目录而非文件时,有两种处理方式:
- 使用textFile()方法:那么将会把所有部分加载到RDD
- 使用wholeTextFiles()方法:当我们需要知道输入来自哪个文件或需要一次处理一个文件时,wholeTextFiles()方法会返回一个pair RDD,其中key是文件名。
# get the average value per file
val input = sc.wholeTextFiles("file://home/holden/salesFiles")
val result = input.mapValues{ y =>
val nums = y.split(" ".map(x => x.toDouble)
nums.sum / nums.size.toDouble
}
Saving text files
result.saveAsTextFile(outputfile)
JSON
- 最简单的加载JSON数据的方式是作为文本加载,然后使用JSON parser来映射值。同样的,也可以使用preferred JSON序列化库来将值作为strings写出。
- 在JAVA和sacla中我们也可以使用自定义的Hadoop format来操作JSON数据
Loading JSON
- 上面说的以文本方式加载JSON的方法,只能用于每行一个JSON的情况。如果你想处理多行的JSON,你只能加载整个文件,然后parse每一行,这时候如果构建一个JSON parser是昂贵的的话,你可以使用mapPartitions()方法来reuse the parser.
# loading JSON in Scala
import com.fasterxml.jackson.module.scala.DefaultScalaModule
import com.fasterxml.jackson.module.scala.experimental.ScalaObjectMapper
import com.fasterxml.jackson.databind.ObjectMapper
import com.fasterxml.jackson.databind.DeserializationFeature
...
case class Person(name: String, lovesPandas: Boolean) // Must be a top-level class ...
// Parse it into a specific case class. We use flatMap to handle errors
// by returning an empty list (None) if we encounter an issue and a
// list with one element if everything is ok (Some(_)).
val result = input.flatMap(record => {
try {
Some(mapper.readValue(record, classOf[Person]))
} catch {
case e: Exception => None
}})- 处理错误格式记录是一个大问题。如果你是简单地skip错误的数据,那么你最好使用accumulators来追踪错误数目。
Saving JSON
# example of python
(data.filter(lambda x: x['lovesPandas']).map(lambda x: json.dumps(x)) .saveAsTextFile(outputFile)) # example of scala
result.filter(p => P.lovesPandas).map(mapper.writeValueAsString(_)) .saveAsTextFile(outputFile)
Comma-Seperated Values and Tab-Separated Values
- Comma-separated value(CSV) are supposed to contain a fixed number of fields per line, and the fields是逗号分隔的(或是tab分隔的TSV文件)。
- P79 TBD....
<Spark><Programming><Loading and Saving Your Data>的更多相关文章
- 简单物联网:外网访问内网路由器下树莓派Flask服务器
最近做一个小东西,大概过程就是想在教室,宿舍控制实验室的一些设备. 已经在树莓上搭了一个轻量的flask服务器,在实验室的路由器下,任何设备都是可以访问的:但是有一些限制条件,比如我想在宿舍控制我种花 ...
- 利用ssh反向代理以及autossh实现从外网连接内网服务器
前言 最近遇到这样一个问题,我在实验室架设了一台服务器,给师弟或者小伙伴练习Linux用,然后平时在实验室这边直接连接是没有问题的,都是内网嘛.但是回到宿舍问题出来了,使用校园网的童鞋还是能连接上,使 ...
- 外网访问内网Docker容器
外网访问内网Docker容器 本地安装了Docker容器,只能在局域网内访问,怎样从外网也能访问本地Docker容器? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Docker容器 ...
- 外网访问内网SpringBoot
外网访问内网SpringBoot 本地安装了SpringBoot,只能在局域网内访问,怎样从外网也能访问本地SpringBoot? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装Java 1 ...
- 外网访问内网Elasticsearch WEB
外网访问内网Elasticsearch WEB 本地安装了Elasticsearch,只能在局域网内访问其WEB,怎样从外网也能访问本地Elasticsearch? 本文将介绍具体的实现步骤. 1. ...
- 怎样从外网访问内网Rails
外网访问内网Rails 本地安装了Rails,只能在局域网内访问,怎样从外网也能访问本地Rails? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Rails 默认安装的Rails端口 ...
- 怎样从外网访问内网Memcached数据库
外网访问内网Memcached数据库 本地安装了Memcached数据库,只能在局域网内访问,怎样从外网也能访问本地Memcached数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装 ...
- 怎样从外网访问内网CouchDB数据库
外网访问内网CouchDB数据库 本地安装了CouchDB数据库,只能在局域网内访问,怎样从外网也能访问本地CouchDB数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Cou ...
- 怎样从外网访问内网DB2数据库
外网访问内网DB2数据库 本地安装了DB2数据库,只能在局域网内访问,怎样从外网也能访问本地DB2数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动DB2数据库 默认安装的DB2 ...
- 怎样从外网访问内网OpenLDAP数据库
外网访问内网OpenLDAP数据库 本地安装了OpenLDAP数据库,只能在局域网内访问,怎样从外网也能访问本地OpenLDAP数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动 ...
随机推荐
- webpack+vue多入口环境搭建
项目地址:https://pan.baidu.com/s/1c1Dflp2 使用前提:安装nodejs环境,webpack的配置官网的例子跟着跑一遍,会vue开发 研究webpack+vue研究了一个 ...
- memcached的部署
window下memcached注册服务 cmd:在学习Memcached时,为了模拟分布存储,常常需要建多个Memcached服务,如何建呢,只能使用命令行了 以管理员身份运行cmd,输入如下命令 ...
- 【模板/经典题型】min-max容斥
一定注意容斥的时候-1的系数多加了1. 然后一种很常见的min-max容斥的策略就是以每个元素的出现时间作为权值. 最后一个出现的时间即为max,也就等价于全集出现的时间.
- linux下对数据库操作
1. mysql -udev -pxxxxxxx // 备注:-u 用户名 -p 密码 2. show databases; // 查看有哪些数据库 3. use datebase; // 使用哪些数 ...
- 有一个问题关于stl函数中的算法问题
是不是stl中的算法函数中参数只要是和函数相关的就是函数对象和谓词?
- Oracle 基本操作--数据类型、修改和删除表、增删改查和复制表
一.Oracle基础数据类型:数据类型: 创建数据表时,设计数据表的结构问题,也就是设计及确定数据表中各个列的数据类型,是数值.字符.日期还是图像等其他类型. 因为只有设计好数据表结构,系统才会在磁盘 ...
- AWR报告学习示例
1. 参数1 AAS AAS讲解 elapsed 为 该AWR性能报告的时间跨度 DB_TIME =所有前台session花费在database调用上的总和时间. 注意:前台进程 foregrou ...
- Mac 安装md5sum等
一.安装md5sum 方案1.使用brew 安装 方案2.使用源码编译安装 源码下载地址:http://www.microbrew.org/tools/md5sha1sum/md5sha1sum-0. ...
- 485. Max Consecutive Ones最大连续1的个数
网址:https://leetcode.com/problems/max-consecutive-ones/ 很简单的一题 class Solution { public: int findMaxCo ...
- Spring Cloud之路:(七)SpringBoot+Shiro实现登录认证和权限管理
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/sage_wang/article/details/79592269一.Shiro介绍1.Shiro是 ...