ValueError: Some of types cannot be determined by the first 100 rows, please try again with sampling

在spark中试图将RDD转换成DataFrame时，有时会提示ValueError: Some of types cannot be determined by the first 100 rows, please try again with sampling，此时有2种解决方案：一是提高数据采样率(sampling ratio)，二是显式声明要创建的DataFrame的数据结构，即schema。

第一种方案具体做法如下：

sqlContext.createDataFrame(rdd, samplingRatio=0.2)

其中的samplingRatio参数就是数据采样率，可以先设置为0.2试试，如果不行，可以继续增加。

其原理在于，RDD中元素的内部结构是未知的、不明确的，也就是说每个元素里面有哪些字段，每个字段是什么类型，这些都是不知道的，而DataFrame则要求对元素的内部结构有完全的知情权。

比如有一个RDD，其中的元素是dict类型，在使用sqlContext.createDataFrame()方法将该RDD转换成DataFrame的时候，如果括号中没有传入schema参数，那么spark会根据RDD中的前N个元素去猜测元素的内部结构，猜出里面都有哪些字段，每个字段是什么数据类型的。至于N是多少，取决于samplingRatio参数的值，如果不设该参数，则默认取前100个元素。上面代码中设置的samplingRatio是0.2，意味着spark将会取RDD中前20%的元素作为样本去推断元素中各个字段的数据类型。假如运气好，这20%的元素中各个字段都是齐备的，并且能根据字段值判断出该字段的类型，像下图这样：

['name':'Tom', 'age':23, 'gender':'M', 'is_married':False]

['name':'Jerry', 'age':31, 'gender':'F', 'is_married':True]

['name':'John', 'age':27, 'gender':'M', 'is_married':False]

那么spark就能根据上图中的这么多样本元素推断出元素内部有name、age、gender、is_married这几个字段，且字段类型分别是String，Int，String，Boolean，那就不会报任何错误。

但是，如果这20%的元素都缺失了某个字段，像下图这样：

['name':'Tom', 'age':23, 'gender':'M']

['name':'Jerry', 'age':31, 'gender':'F']

['name':'John', 'age':27, 'gender':'M']

本来元素中其实有4个字段的，但是抽样的20%数据里面都缺失了is_married字段，这样就会导致spark误以为元素中只有3个字段，然而当真的按照3个字段来处理时，却又发现后面有其他元素不止这3个字段，这就尴尬了，然后spark觉得自己被耍了，就罢工了。

还有一种情况也会导致spark报错，像下图这样：

['name':'Tom', 'age':23, 'gender':'M', 'is_married':None]

['name':'Jerry', 'age':31, 'gender':'F', 'is_married':None]

['name':'John', 'age':27, 'gender':'M', 'is_married':None]

这种情况下，由于抽样的20%的元素中is_married字段值全都是None，导致spark误以为该字段就是None类型的，当按照None处理时，如果发现后面有元素的is_married字段的值是True或者False，然后spark就崩溃了，不是说好了是None类型拉钩上吊一百年不许变吗？你给我来个True和False是个什么意思？

看到这里，智商超群的你可能已经想到，我主动告诉spark每个RDD元素内部结构是什么样的不就行了吗？没错，这就是我说的第二种方案，显式声明schema。在sqlContext.createDataFrame()方法中，有个参数叫schema，这个参数就是用来告诉spark每个RDD元素的结构的。具体做法是这样的：

from pyspark.sql.types import *

schema = StructType([

    StructField("column_1", StringType(), True),

    StructField("column_2", IntegerType(), True)

    .

    .

    .

])

df = sqlContext.createDataFrame(rdd, schema=schema)

当你显式声明schema并应用到createDataFrame方法中后，就不再需要samplingRatio参数了。实际开发工程中建议使用显式声明schema的方案，这样可以避免出现因奇葩数据导致的错误。

ValueError: Some of types cannot be determined by the first 100 rows, please try again with sampling的更多相关文章

使用DBMS_STATS来收集统计信息【转】
overview Oracle's cost-based optimizer (COB) uses statistics to calculate the selectivity (the fract ...
Chapter 6 — Improving ASP.NET Performance
https://msdn.microsoft.com/en-us/library/ff647787.aspx Retired Content This content is outdated and ...
PA教材提纲 TAW12-1
Unit1 Introduction to Object-Oriented Programming(面向对象编程介绍) 1.1 Explaining the Object-Oriented Progr ...
bottle源码
import sys __author__ = 'Marcel Hellkamp' __version__ = '0.13-dev' __license__ = 'MIT' ############# ...
Python基础学习（六）
前几天一直在练手廖雪峰老师的python课程,接下来继续学习,由于面向对象编程这一课相对理论便不在此练手,直接上手面向对象高级编程. 一.使用 __slots__ 一般情况下一个class是可以绑定一 ...
Python面试题之Python面向对象编程汇总
面向对象的设计思想是从自然界中来的,因为在自然界中,类(Class)和实例(Instance)的概念是很自然的.Class是一种抽象概念,比如我们定义的Class——Student,是指学生这个概念, ...
MySQL 5.6 Reference Manual-14.3 InnoDB Transaction Model and Locking
14.3 InnoDB Transaction Model and Locking 14.3.1 InnoDB Lock Modes 14.3.2 InnoDB Record, Gap, and Ne ...
OpenCV Machine Learning (C++)
/*M/////////////////////////////////////////////////////////////////////////////////////////// IMPOR ...
廖雪峰Python电子书总结
函数 1.注意:函数的默认参数必须指向不可变对象未修改前: def add_end(L=[]): L.append('END') return L 存在的问题:如果连续调用多次,会出现多个 'END ...

随机推荐

struts2拦截器加自定义注解实现权限控制
https://blog.csdn.net/paul342/article/details/51436565 今天结合Java的Annotation和Struts2进行注解拦截器权限控制. 功能需求: ...
【java 理论篇 2】J2EE的13种规范
导读:看完了J2EE的视频,没有什么技术实践,现在就从理论上说明一下J2EE的13种规范,以及现在的自己对它的一个理解.可能会有偏差,但是,算是做为目前的一个记录. 一.13种规范 1.1.JDBC( ...
HDU-1087Super Jumping! Jumping! Jumping!
Super Jumping! Jumping! Jumping! ...
CSUOJ 1256 天朝的单行道
题目链接:http://acm.csu.edu.cn/OnlineJudge/problem.php?id=1256 题目大意: 在另一个平行宇宙中,有一个神奇的国度名叫天朝.天朝一共有N个城 ...
hdu 4460spfa用map来实现
#include<stdio.h> #include<string.h> #include <iostream> #include <algorithm& ...
MTK GPIO 新增变量配置
主要涉及的文件: 1.需要配置preloader ,lk ,kernel vendor GPIO_YuSu.cmp文件增加IO别名: 2.需要配置preloader ,lk ,kernel vendo ...
php的错误控制运算符
php的错误控制运算符 PHP中提供了一个错误控制运算符“@”. 可以将@放置在一个PHP表达式之前,该表达式可能产生的任何错误信息都被忽略掉: 如果开启了php.ini 中的 track_error ...
Python基础之一字符编码及转换
python2 / python3编码转换先上图一张: 说明:python编码转换的流程是先进行decode解码,然后进行encode编码解释: u'你好' -->带u表示为unicod ...
HDU 1028 整数拆分 HDU 2082 找单词母函数
生成函数(母函数) 母函数又称生成函数.定义是给出序列:a0,a1,a2,...ak,...an, 那么函数G(x)=a0+a1*x+a2*x2+....+ak*xk +...+an* xn 称为序 ...
离线配置Anaconda3+tensorflow-gpu1.4.0+cuda8.0+cudnn6.0
1.首先下载anaconda3 ----从官网上下载Anaconda3-5.1.0-Linux-x86_64.sh 直接通过命令 bash Anaconda3-5.1.0-Linux-x86_64.s ...

ValueError: Some of types cannot be determined by the first 100 rows, please try again with sampling

ValueError: Some of types cannot be determined by the first 100 rows, please try again with sampling

ValueError: Some of types cannot be determined by the first 100 rows, please try again with sampling的更多相关文章

随机推荐

热门专题