dataframe 基本操作

package com.jason.example

import org.apache.spark.sql.functions.broadcast

class DFTest extends SparkInstance {

  import spark.implicits._

  val df = Seq(

    ("jason", , "理想",),

    (null, , "理想",),

    ("mac", , "理想",),

    ("mac", , "理想",)

  ).toDF("name", "depid", "company","groupid").repartition()

  val df3 = Seq(

    ("jason", , "理想",),

    ("dong", , "理想",),

    ("mac", , "理想",)

  ).toDF("name", "depid", "company","groupid").repartition()

  val df2 = Seq(

    (,"周浦",),

    (,"孙桥",),

    (,"金桥",)

  ).toDF("depid","addr","gid").repartition()

  def ff(): Unit = {

    println(df.toString())//[name: string, depid: int ... 1 more field]

    println(df.schema)

    df.printSchema()

    df.explain(true)//Prints the plans (logical and physical) to the console for debugging purposes.

    println(df.dtypes.mkString(","))//(name,StringType),(depid,IntegerType),(company,StringType)

    println(df.columns.mkString(","))//

    //df.withWatermark()  ???

    df.show(,false)

    df.na.drop("any"/*"all"*/).show(false) //删除df中包含null 或NaN 的记录，如果为any 则只要有有一列为

    //null 或NaN 则删除整行，如果是all 则所有列是null ho NaN 时才删除整行

    df.na.fill("xxx",Seq("name")).show()//缺失值填充，把null 或 NaN 替换为所需要的值

    df.na.replace("name",Map("jason"->"abc","dong"->"def")).show()//将字段name 中 的值按照map 内容进行更改

    //df.stat.xxx  ???

    df.join(df2,(df("depid")===df2("depid")).and(df("groupid")===df2("gid")),"right").show()

    df.join(df2,(df("depid")===df2("depid")).and(df("groupid")===df2("gid")),"left").show()

    df.join(df2,(df("depid")===df2("depid")).and(df("groupid")===df2("gid")),"left").show()

    println("="*)

    df.join(df2.hint("broadcast"),(df("depid")===df2("depid")).and(df("groupid")===df2("gid")),"left").show()

    df.join(broadcast(df2),(df("depid")===df2("depid")).and(df("groupid")===df2("gid")),"left").show()//spark 默认广播10MB的小表

    //df2.hint("broadcast")  和 broadcast(df2) 是等同的

    df.crossJoin(df2).show()//笛卡尔积

    df.sort($"name".desc,$"depid".asc).show()

    df.select("name","depid").show()

    df.selectExpr("name as nm","depid as id").show()

    df.filter(s"""name='jason'""").show()

    df.where(s"""name='jason'""").select("name","depid").show

    df.rollup("name","depid").count().show()

    df.cube("name","depid").count().show()

    df.groupBy("name","depid").count().show()

    df.agg("name"->"max","depid"->"avg").show()

    df.groupBy("name","depid").agg("name"->"max","depid"->"avg").show()

    df.limit().show()

    df.union(df3).show()

    df.unionByName(df3).show()

    df.intersect(df3).show()//交集

    df.except(df3).show() //差集

    df.sample(0.5).show()

    df.randomSplit(Array(0.4,0.6)).apply().show()

    df.withColumn("depid",$"depid".<=()).show() // 该方法可以替换或增加一列到原df， 第二个参数中的col必须时df中的元素

    df.withColumnRenamed("name","姓名").show()

    df.drop("name","depid")//舍弃某几列

    df.distinct()

    df.dropDuplicates("name").show() //根据某几列去重，会保留最后一条数据

    df.describe().show() //count,mean,min,max

    df.summary().show()//count,min,25%,50%,max

    df.head() //所有的数据会被collect到driver

    df.toLocalIterator()

    spark.stop()

  }

}

object DFTest {

  def main(args: Array[String]): Unit = {

    val dt = new DFTest

    dt.ff()

  }

}

dataframe 基本操作的更多相关文章

DataFrame基本操作
这些操作在网上都可以百度得到,为了便于记忆自己再根据理解总结在一起.---------励志做一个优雅的网上搬运工 1.建立dataframe (1)Dict to Dataframe df = pd. ...
python做数据分析pandas库介绍之DataFrame基本操作
怎样删除list中空字符? 最简单的方法:new_list = [ x for x in li if x != '' ] 这一部分主要学习pandas中基于前面两种数据结构的基本操作. 设有DataF ...
用python做数据分析pandas库介绍之DataFrame基本操作
怎样删除list中空字符? 最简单的方法:new_list = [ x for x in li if x != '' ] 这一部分主要学习pandas中基于前面两种数据结构的基本操作. 设有DataF ...
pandas库介绍之DataFrame基本操作
怎样删除list中空字符? 最简单的方法:new_list = [ x for x in li if x != '' ] 今天是5.1号. 这一部分主要学习pandas中基于前面两种数据结构的基本操作 ...
用python做数据分析4|pandas库介绍之DataFrame基本操作
原文地址怎样删除list中空字符? 最简单的方法:new_list = [ x for x in li if x != '' ] 今天是5.1号. 这一部分主要学习pandas中基于前面两种数据结构 ...
机器学习三剑客之Pandas中DataFrame基本操作
Pandas 是基于Numpy 的一种工具,是为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具.Pandas提供了大量能使我们快速便捷 ...
pd库dataframe基本操作
一.查看数据(查看对象的方法对于Series来说同样适用) 1.查看DataFrame前xx行或后xx行 a=DataFrame(data); a.head(6)表示显示前6行数据,若head()中不 ...
pyspark SparkSession及dataframe基本操作
from pyspark import SparkContext, SparkConf import os from pyspark.sql.session import SparkSession f ...
python数据类型之pandas—DataFrame
DataFrame定义: DataFrame是pandas的两个主要数据结构之一,另一个是Series —一个表格型的数据结构 —含有一组有序的列 —大致可看成共享同一个index的Series集合 ...

随机推荐

基于SqlClient开发SQLServer工具类伸手党的福音
注意:代码直接Copy调用即可,SQLServer工具类跟我上一个Oracle工具类有所不同,区别在于调用存储过程中时参数的使用,无需输入对应的存储游标名称特点:根据用户传入的参数类型来识别存储中对 ...
教你使用 Swoole-Tracker 秒级定位 PHP 卡死问题
PHPer 肯定收到过这样的投诉:小菊花一直在转!你们网站怎么这么卡!当我们线上业务遇到这种卡住(阻塞)的情况,大部分 PHPer 会两眼一抹黑,随后想起那句名言:性能瓶颈都在数据库然后把锅甩给DBA ...
面向对象的六大原则之单一职责原则——SRP
SRP = Single Responsibility Principle 定义:就一个类而言,应该只有一个能引起他变化的原因.通俗的说,即一个类只负责一项职责. 作用: 1.减少了类之间的耦 ...
【转载】Visual Studio2017中如何设置解决方案中的某个项目为启动项目
在C#的应用程序开发过程中,一个完成的解决方案可能包含多个子项目,有时候需要设置某一个子项目为启动项目,在Visual Studio 2017集成开发工具中,设置解决方案中的某个项目为启动项目的操作方 ...
shell脚本实现自动化安装linux版本的loadrunner agent(centos6.8)
#!/bin/bash #Centos6下安装LoadRunner负载机 #@author Agoly #@date #@source 高级测试技术交流圈: yum -y install expect ...
itextpdf5操作表格
下面是一些对表格排版的常用方法,是在制作pdf的时候通过查看ipa和一些博客积累下来的. 包括,表格的宽度,对齐方式,表的页眉页脚,前后间距,padding: 单元格对齐方式,线条设置,段落于单元格之 ...
JSON Web Token 使用详解
JWT 是什么? JSON Web Token(缩写 JWT)是目前最流行的跨域认证解决方案.它是有三部分组成,示例如下,具体的讲解如下(jwt 是不会有空行的,下面只是为了显示,便使用了换行看着比较 ...
10. [mmc subsystem] host（第四章）——host实例（sdhci-msm说明）
一.说明 sdhci-msm是指高通的mmc host,其使用了标准SDHC标准.故可以使用前面说的<host(第二章)--sdhci>和<host(第三章)--sdhci-pltf ...
静态文件 static
一.常见的形式前面初步搭建Django开局时候就在项目路径下建立了statics 文件夹,然后在 settings.py 文件的末尾添加了 statics 文件夹的绝对路径. # 这个可以给 ...
Rust中的函数调用
注意区别语句和表达式哟. Rust是一门基于表示式的语言,牢记!!! fn main() { println!("Hello world!"); another_function( ...

dataframe 基本操作

dataframe 基本操作的更多相关文章

随机推荐

热门专题