Spark 读取 CSV 文件设置 option 参数详解
引言
spark 在读取 csv 文件时,可能会涉及到很多参数设置,这篇文章总结了 option 里面的参数,希望能够对你有所帮助
option 参数详解
| 参数 | 解释 |
|---|---|
sep |
默认是, 指定单个字符分割字段和值 |
encoding |
默认是uft-8通过给定的编码类型进行解码 |
quote |
默认是“,其中分隔符可以是值的一部分,设置用于转义带引号的值的单个字符。如果您想关闭引号,则需要设置一个空字符串,而不是null。 |
escape |
默认(\)设置单个字符用于在引号里面转义引号 |
charToEscapeQuoteEscaping |
默认是转义字符(上面的escape)或者\0,当转义字符和引号(quote)字符不同的时候,默认是转义字符(escape),否则为\0 |
comment |
默认是空值,设置用于跳过行的单个字符,以该字符开头。默认情况下,它是禁用的 |
header |
默认是false,将第一行作为列名 |
enforceSchema |
默认是true, 如果将其设置为true,则指定或推断的模式将强制应用于数据源文件,而CSV文件中的标头将被忽略。 如果选项设置为false,则在header选项设置为true的情况下,将针对CSV文件中的所有标题验证模式。模式中的字段名称和CSV标头中的列名称是根据它们的位置检查的,并考虑了*spark.sql.caseSensitive。虽然默认值为true,但是建议禁用 enforceSchema选项,以避免产生错误的结果 |
inferSchema |
inferSchema(默认为false`):从数据自动推断输入模式。 *需要对数据进行一次额外的传递 |
samplingRatio |
默认为1.0,定义用于模式推断的行的分数 |
ignoreLeadingWhiteSpace |
默认为false,一个标志,指示是否应跳过正在读取的值中的前导空格 |
ignoreTrailingWhiteSpace |
默认为false一个标志,指示是否应跳过正在读取的值的结尾空格 |
nullValue |
默认是空的字符串,设置null值的字符串表示形式。从2.0.1开始,这适用于所有支持的类型,包括字符串类型 |
emptyValue |
默认是空字符串,设置一个空值的字符串表示形式 |
nanValue |
默认是Nan,设置非数字的字符串表示形式 |
positiveInf |
默认是Inf |
negativeInf |
默认是-Inf 设置负无穷值的字符串表示形式 |
dateFormat |
默认是yyyy-MM-dd,设置指示日期格式的字符串。自定义日期格式遵循java.text.SimpleDateFormat中的格式。这适用于日期类型 |
timestampFormat |
默认是yyyy-MM-dd'T'HH:mm:ss.SSSXXX,设置表示时间戳格式的字符串。自定义日期格式遵循java.text.SimpleDateFormat中的格式。这适用于时间戳记类型 |
maxColumns |
默认是20480定义多少列数目的硬性设置 |
maxCharsPerColumn |
默认是-1定义读取的任何给定值允许的最大字符数。默认情况下为-1,表示长度不受限制 |
mode |
默认(允许)允许一种在解析过程中处理损坏记录的模式。它支持以下不区分大小写的模式。请注意,Spark尝试在列修剪下仅解析CSV中必需的列。因此,损坏的记录可以根据所需的字段集而有所不同。可以通过spark.sql.csv.parser.columnPruning.enabled(默认启用)来控制此行为。 |
Spark 读取 CSV 文件设置 option 参数详解的更多相关文章
- Jmeter读取CSV文件,请求参数乱码
Jmeter读取CSV文件,请求参数乱码 1.修改本地配置文件,jmeter.properties,修改以下配置项 sampleresult.default.encoding=UTF-8 重启Jmet ...
- python读取数据文件:pandas包详解
本文转载自https://blog.csdn.net/brucewong0516/article/details/79092579 pandas包是一个高效的文件读取工具,适用于txt,excel,等 ...
- Pyspark读取csv文件
#_*_coding:utf-8_*_ # spark读取csv文件 #指定schema: schema = StructType([ # true代表不为null StructField(" ...
- spark.read.csv读取CSV文件 ArrayIndexOutOfBoundsException报错
通过 spark.read.csv读取CSV文件时,遇到 到 ArrayIndexOutOfBoundsException报错,初步判断是缺少参数导致,放百度看看,没找引起问题相关的参数. 第一个看到 ...
- jmeter请求参数中文乱码及无法读取CSV文件解决办法
解决办法:参考http://blog.csdn.net/u012167045/article/details/70868306 版本:2.6 我是修改请求http请中的编码为Content encod ...
- python之读取配置文件模块configparser(二)参数详解
configparser.ConfigParser参数详解 从configparser的__ini__中可以看到有如下参数: def __init__(self, defaults=None, dic ...
- Spark参数详解 一(Spark1.6)
Spark参数详解 (Spark1.6) 参考文档:Spark官网 在Spark的web UI在"Environment"选项卡中列出Spark属性.这是一个很有用的地方,可以检查 ...
- spark 写csv文件出现乱码 以及写文件读文件总结
参考链接:https://blog.csdn.net/qq_56870570/article/details/118492373 result_with_newipad.write.mode(&quo ...
- [spark]-Spark2.x集群搭建与参数详解
在前面的Spark发展历程和基本概念中介绍了Spark的一些基本概念,熟悉了这些基本概念对于集群的搭建是很有必要的.我们可以了解到每个参数配置的作用是什么.这里将详细介绍Spark集群搭建以及xml参 ...
- [Python Study Notes]pd.read_csv()函数读取csv文件绘图
''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''' ...
随机推荐
- burpsuite插件-验证码识别插件使用教程
一.插件下载 下载最新插件与验证码识别端(captcha-killer-modified.jar.codereg.py) 使用Burp加载captcha-killer-modified.jar 安装p ...
- 未能加载文件或程序集“System.Runtime.WindowsRuntime, Version=4.0.14.0, Culture=neutral, PublicKeyToken=b77a5c561934e089”或它的某一个依赖项。不应出于执行的目的加载引用程序集。只能在仅限反射的加载程序上下文中加载引用程序集。 (异常来自 HRESULT:0x80131058)
VS项目编译时报错: 未能加载文件或程序集"System.Runtime.WindowsRuntime, Version=4.0.14.0, Culture=neutral, PublicK ...
- CAE教程:HyperMesh概述与有限元分析简介
1.1 HyperMesh 概述 本节将介绍有限单元法基本原理,HyperMesh 软件基本功能及界面介绍,获取在线帮助等内容. 1.1.1 有限元分析方法简介 有限单元法(FEM)是一种可以精确预测 ...
- Kafka入门实战教程(8):常用的shell工具脚本
1 Kafka提供的命令行脚本 Kafka默认提供了多个命令行脚本,用于实现各种各样的功能和运维管理.从2.2版本开始,提供了多达30+个Shell脚本. 今天我们来看一些其中比较实用的Shell脚本 ...
- vivo Pulsar 万亿级消息处理实践(3)-KoP指标异常修复
作者:vivo 互联网大数据团队- Chen Jianbo 本文是<vivo Pulsar万亿级消息处理实践>系列文章第3篇. Pulsar是Apache基金会的开源分布式流处理平台和消息 ...
- nginx代理http2服务
NGINX 不支持HTTP/2 到后端(至少目前nginx v1.27.1不支持),这从官方文档中可以看出,支持后端的最高 HTTP 版本为 v1.1. 其实添加此类支持实际上没有什么意义,因为HTT ...
- matlab 求解高阶方程
简介 van der Pol 方程 code dy = @(t,y)[y(2); 1000 * (1-y(1)^2)*y(2)-y(1)]; % 定义匿名函数 [t,y]= ode15s(dy,[0 ...
- mysql虚拟列(Generated Columns)及JSON字段类型的使用
mysql 5.7中有很多新的特性,但平时可能很少用到,这里列举2个实用的功能:虚拟列及json字段类型 一.先创建一个测试表: drop table if exists t_people; CREA ...
- [题解] AT_ABC409_D String Rotation
题目传送门 题目 您将得到一个长度为 \(N\) 的字符串 \(S=S_1 S_2\dots S_n\) ,该字符串由小写英文字母组成. 您将在 \(S\) 上仅执行一次以下操作:选择长度至少为 \( ...
- java发送短信验证码DEMO 发送POST请求示例
package apiserver; import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler; import org.ap ...