sparkSessiontest

记事本内容：

打印结构：

方法1：

object SparkSessionTest {

  case class Person(name:String,age:Int)

  def main(args: Array[String]): Unit = {

    val sparkSession=SparkSession.builder().appName("SparkSessionTest")

      .master("local[*]")

      .getOrCreate()

    val sparkContext=sparkSession.sparkContext

    val rdd=sparkContext.textFile("D:\\temp\\person.txt")

    val rowRdd=rdd.map(_.split(" ")).map(row=>Person(row(0),row(1).toInt))

    import sparkSession.implicits._

    rowRdd.toDF

    sparkSession.stop()

  }

}

方法2：

val sparkContext=sparkSession.sparkContext

val rdd=sparkContext.textFile("D:\\temp\\person.txt")

val schemaFiled="name,age"

val schemaString=schemaFiled.split(",")

val schema =StructType(

  List(

    StructField(schemaString(0),StringType,nullable = true),

    StructField(schemaString(1),IntegerType,nullable = true)

  )

)

val rowRdd= rdd.map(_.split("")).map(p=>Row(p(0),p(1).toInt))

val df=sparkSession.createDataFrame(rowRdd,schema)

df.show()

　　结果展示：

parquet的优势

支持列存储+嵌套数据格式+适配多个计算框架

节省表扫描时间和反序列的时间

压缩技术稳定出色,节省存储空间

Spark操作 Parquet文件比操作CSV等普通文件的速度更快

加载数据：sparkSession.read.parquet(“/nginx/20200110.parquet”)

写入数据：df.write.mode(SaveMode.Overwrite).parquet(“/path/to”)

分区文件

加载批量数据：

Df.show()//只显示前20条数据

Df.show(3)//只显示前3条数据

df.show( false)//每列可以显示多于20个字符

dt show(3, false)

Df.select (“字段1”,”字段2”).show()

Df.select(col(“”) as(“别名1”),col(“字段2”)+1).show()

df.first()//获取第一行数据,返回RoW

df.head( 3)//获取前3行数据,返回 Array Row]

df.take (3)//获取前3行数据,返回 Array[Row]

df.takeaslist(3//获取前3行数据,返回List[Row]

df.limit(3).show()//返回新的 Data Frame,不是 Action操作

Df.where(“age>21”).show()

Df.filter(“age>21”).show()

Df.where(col(“age”)>21).show()

Ds.where($”age”>21).show()

Df.where(“age=21”).show

Df.where(col(“age”)===21).show

Df.where(col(“age”)=!=21).show

Val  ageFilter_1 =col(“age”)>21

Val  agefilter_2=col(“age”)<25

Val  ageFilter_3=agefilter_1.or(ageFilter_2)

Df.where(col(“name”)===”jack”).where(ageFilter_3)

Val ageFilter_1 =col(“age”)>21

Val ageFilter_2=col(“age”)<25

Val ageFilter_3 =ageFilter_1.ll(ageFilter_2)

Df.where(col(“name”)===”jack”)

.where(ageFitler_3)

.show

//按照身份统计人数
Df.groupBy(col(“province”))

.count

.show

按照城市,手机运营商分组统计人数并按人数排序

//方法1
Df.groupby(col(“city”),col(“”op_phone“”))

.count

.withColumnRenamed(“count”,”num”)

.orderBy(col(“num”).desc)

.show

//方法2

Ds.groupBy($”city”,$”op_phone”)

.count

.withColumnRenamed(“count”,”num”)

.sort($”num”.desc)

.show

　　按年统计注册用户最高的积分,以及平均积分

Df.groupBy(year(col(“add_time”)))

.agg(max(col(“total_mark”).as(“max_mark”)),

Avg(col(“total_mark”).as(“avg_mark”))

)

.show

sparkSessiontest的更多相关文章

RDD&Dataset&DataFrame
Dataset创建 object DatasetCreation { def main(args: Array[String]): Unit = { val spark = SparkSession ...

随机推荐

MQTT抓包分析
1. 概述 MQTT(Message Queuing Telemetry Transport,消息队列遥测传输协议),是一种基于发布/订阅(Publish/Subscribe)模式的轻量级通讯协议,该 ...
MySql锁与InnoDB引擎
MySql锁与InnoDB引擎 mysql的锁是面试中很高频问题,也是我们在日常开发中经常会遇到但是我们并没有注意到的地方.我把我自己理解的锁通过本篇博文分享出来,由于锁需要结合事务来理解,本文只介绍 ...
创建Sphinx + GitHub + ReadtheDocs托管文档
最新博客链接 "Tsanfer's Blog" 创建Sphinx + GitHub + ReadtheDocs托管文档 Readthedocs在线电子书链接
django-jwt token校验源码简析
一. jwt token校验源码简析 1.1 前言之前使用jwt签发了token,里面的头部包含了加密的方式.是否有签名等,而载荷中包含用户名.用户主键.过期时间等信息,最后的签名还使用了摘要算法进 ...
李瑞红201771010111《面向对象程序设计（java）》第四周学习总结
实验四:类与对象的定义及使用第一部分:理论知识学习 1.类与对象概念 (1)类是构造对象的模板或蓝图,由类构造对象的过程称为创建类的实例. (2)对象:即数据,对象有三个特性,行为.状态.标识. ...
GitLab私服在Ubuntu上搭建总结
1.前期准备: sudo apt-get update sudo apt-get install -y curl openssh-server ca-certificates sudo apt-get ...
pd库dataframe基本操作
一.查看数据(查看对象的方法对于Series来说同样适用) 1.查看DataFrame前xx行或后xx行 a=DataFrame(data); a.head(6)表示显示前6行数据,若head()中不 ...
一文上手Tensorflow2.0之tf.keras（三）
系列文章目录: Tensorflow2.0 介绍 Tensorflow 常见基本概念从1.x 到2.0 的变化 Tensorflow2.0 的架构 Tensorflow2.0 的安装(CPU和GPU ...
Colab笔记本能用英伟达Tesla T4了，谷歌的羊毛薅到酸爽
谷歌出品的Colab笔记本,机器学习界薅羊毛神器,如今又有了新福利: 连英伟达最新一代机器学习GPU:Tesla T4都能免费蹭,穷苦羊毛党也顿时高端了起来. 英伟达的Tesla T4,是去年秋天才发 ...
gold 30min

sparkSessiontest

sparkSessiontest的更多相关文章

随机推荐

热门专题