pyspark中的dataframe的观察操作

来自于：http://www.bubuko.com/infodetail-2802814.html

1、读取：

sparkDF = spark.read.csv(path)
sparkDF = spark.read.text(path)

2、打印：

sparkDF.show()【这是pandas中没有的】：打印内容

sparkDF.head()：打印前面的内容

sparkDF.describe()：统计信息

sparkDF.printSchema()：打印schema，列的属性信息打印出来【这是pandas中没有的】

sparkDF.columns：将列名打印出来

3、选择列

【select函数，原pandas中没有】

sparkDF.select(‘列名1‘,‘列名2‘).show()：选择dataframe的两列数据显示出来

sparkDF.select ( sparkDF[‘列名1‘]+1 , ‘列名2‘ ).show()：直接对列1进行操作（值+1）打印出来

4、筛选列：

filter【类似pandas中dataframe的采用列名来筛选功能】

sparkDF.filter ( sparkDF[‘value‘] == 100 ).show()：将value这一列值为100的行筛选出来

5、计算不重复值以及统计dataframe的行数

distinct()函数：将重复值去除

sparkDF.count()：统计dataframe中有多少行

将评分为100的电影数量统计出来：

pyspark中的dataframe的观察操作的更多相关文章

Update(Stage4)：sparksql：第3节 Dataset (DataFrame) 的基础操作 & 第4节 SparkSQL_聚合操作_连接操作
8. Dataset (DataFrame) 的基础操作 8.1. 有类型操作 8.2. 无类型转换 8.5. Column 对象 9. 缺失值处理 10. 聚合 11. 连接 8. Dataset ...
Python array,list,dataframe索引切片操作 2016年07月19日——智浪文档
array,list,dataframe索引切片操作 2016年07月19日——智浪文档 list,一维,二维array,datafrme,loc.iloc.ix的简单探讨 Numpy数组的索引和切片 ...
通过 --py-files 可以在pyspark中可以顺利导入
文件import问题问题: 在脚本中import了其他文件, pyspark中可以运行, 但是在spark-submit中总是失败假定我们的任务脚本为 app.py , 大体代码像这样: from ...
Spark RDD、DataFrame原理及操作详解
RDD是什么? RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用. RDD内部可以 ...
pandas-06 Series和Dataframe的排序操作
pandas-06 Series和Dataframe的排序操作对pandas中的Series和Dataframe进行排序,主要使用sort_values()和sort_index(). DataFr ...
C语言中关于对目录的操作
原文地址:C语言中关于对目录的操作目录的操作不论是在嵌入式产品还是应用软件编程都是必不可少的,不同的开发语言可能略有不同,笔者主要是讨论在Linux平台下对目录的一系列操作: 1.获取当前目录操作: ...
Node.js 中MongoDB的基本接口操作
Node.js 中MongoDB的基本接口操作连接数据库安装mongodb模块导入mongodb模块调用connect方法文档的增删改查操作插入文档方法: db.collection(& ...
Linux 中 Vi 编辑器的简单操作
Linux 中 Vi 编辑器的简单操作 Vi 编辑器一共有3种模式:命名模式(默认),尾行模式,编辑模式.3种模式彼此需要切换. 一.进入 Vi 编辑器的的命令 vi filename //打开或新 ...
JS中基本window.document对象操作以及常用事件！
一.找到元素 1.document.getELementById("id"):根据id找,最多找一个. var a=document.getELementById("id ...

随机推荐

[转帖]Linux 下实践 VxLAN：虚拟机和 Docker 场景
Linux 下实践 VxLAN:虚拟机和 Docker 场景 https://www.cnblogs.com/bakari/p/11264520.html 实践了下没问题作者写的很perfect ...
ssm中静态文件加载路径
项目在本地软件和在服务器上的项目路径如果写死,有可能会出现项目在本机上可以访问,架设在服务器上后就不能访问这儿介绍在ssm框架中使用 @WebServlet(urlPatterns = {},loa ...
MGR复制
CentOS7 配置如下 5.7.22 Group ReplicationMySQL5.7.22安装略在三台db服务器上面设置/etc/hosts映射,如下:192.168.1.101 mydb ...
CNN中卷积层池化层反向传播
参考:https://blog.csdn.net/kyang624823/article/details/78633897 卷积层池化层反向传播: 1,CNN的前向传播 a)对于卷积层,卷积核与输入 ...
【hash】A Horrible Poem
[题目链接] # 10038. 「一本通 2.1 练习 4」A Horrible Poem [参考博客] A Horrible Poem (字符串hash+数论) [题目描述] 给出一个由小写英文字母 ...
怎样理解String的slice(), subString(), substr()三个方法
String.prototype.slice() 是js字符串的切片工具方法, 用于对字符串做'裁剪'操作, 不改变原字符串. 'helloworld'.slice(0,5); // 'hello'; ...
使用AI算法进行手写数字识别
人工智能人工智能(Artificial Intelligence,简称AI)一词最初是在1956年Dartmouth学会上提出的,从那以后,研究者们发展了众多理论和原理,人工智能的概念也随之扩展 ...
Java list的实现类
Java list的实现类本文是根据博文整理 Java中,List接口一共有三个实现类:ArrayList.Vector和LinkedList. 其中ArrayList和Vector都是利用数组这一 ...
O058、Snapshot Volume 操作
参考https://www.cnblogs.com/CloudMan6/p/5657744.html Snapshot 可以为 volume 创建快照,快照中保存了 volume当前的状态,以后可 ...
Extjs中,Vo对象中的属性无法在data中获取的解决方法
store.getById(data.data.id).raw.redpackid