转自:https://blog.csdn.net/YSC1123/article/details/78905090

1.Character.isDigit()

判断是否为数字

2.Character.isLetter():

判断是否为字母

3.ToList.takeWhile(x=>x != B):

takeWhile的判断结果是Boolean,只要x值不等于B,则继续取;否则停止取元素的操作

4.map函数:

是对当前集合中每个元素进行映射的操作,这个函数可以理解成把当前数据整理成Java中的map格式,key->value

5.通配符的使用

在scala中我们使用_作为通配符,使用时它可以代表当前集合或者数据集中所有值,比如:a.filter(_ % 2==1),这里的通配符表示的意思就是:在集合a中,满足“元素除以2等于1”的所有数据获取出来。

6.flatmap和map:

   map的返回值与原来的集合返回值是一样的
   flatmap:把原来集合里所有的数据都转换成一个list里,不区分原来的集合是有多少层的嵌套;flatmap通俗来讲,就是将map中的所有值平铺,成为一个集合。例如:如果数据集中有三个list,每个list中有不同的结果,对当前数据集进行flatmap之后,得到新的结果集就是三个list中所有数据并组成一个list集合。

7.Range和Until

    Range形成一个序列,使用<初始值to 终点值 by 步阶>,可以在循环时指定变量的取值范围:
    1 to 10 结果是 x>= 1 && x<=10
    1 until 10 结果是x>= 1 && x<10

8.Tupple

    Tupplea是spark中的元组,我们可以把元组理解成多个元素构成一行,Tupple可以有多行也可以只有一行,比如Tupple中存储数据:((1,“Alice”,“Math”,90),(2,“Bob”,“Math”,98),……),所以当函数有多个返回值,我们就可以使用Tupple将函数的所有返回值都封装起来。但需要注意的是,使用Tupple封装的数据格式中都带有(),所以在打印或者输出文件时,我们需要将这些小括号去掉或者不输出。

9.加减运算

    scala 中使用+= 1 和-= 1来表示递增和递减,不存在++ 和--
    scala中可以使用* 实现Java中的x.multiply(x).multiply(x)的运算

10.scala的运算函数

   通过import scala.math._   就可以使用scala中的运算函数,比如sqrt() ,pow()--求平方
   注:scala中不存在静态方法,但是有个类似的特性叫单例对象;

11.变量声明

   Scala有两种变量声明方式,val和var。val就不能再赋值了。与之对应的,var可以在它生命周期中被多次赋值。

12.String操作函数

  1. //获取首字符
  2. "Hello"(0)
  3. "Hello".take(1)
  4. //获取尾字符
  5. "Hello".reverse(0)
  6. "Hello".takeRight(1)

相同的列表基本操作:take取前n个元素,drop舍弃前n个元素,head取第一个元素,tail取第一个元素后的剩余元素列表,init取除了最后一个元素的列表,last取最后一个元素。

13.返回值设置

   在scala中如果不设置返回值类型,可以直接省略Unit和=,直接在参数之后接花括号。

14.for (……) yield

   在循环时创建了一个和原始集合相同的新集合

15.Option、None、Some

   为了让所有东西都是对象的目标更加一致,也为了遵循函数式编程的习惯,Scala鼓励你在变量和函数返回值可能不会引用任何值的时候使用Option类型。在没有值的时候,使用None,这是Option的一个子类。如果有值可以引用,就使用Some来包含这个值。Some也是Option的子类。

16.mapValues

   def mapValues[U](f: (V) => U): RDD[(K, U)]
   同基本转换操作中的map,只不过mapValues是针对[K,V]中的V值进行map操作。
  1. val fileresult = sc.textFile("******")
  2. .map { line =>
  3. val arr = line.split(",")
  4. (arr(0), arr(1), arr(2))
  5. }
  6. .groupBy(_._1)
  7. .mapValues(tripple => column.map(key => tripple.find(_._2 == key).map(_._3).getOrElse("0")))
  8. .map(x => s"${x._1},${x._2}")

BigData进阶--Spark中的函数与符号的更多相关文章

  1. MATLAB中匿名函数与符号函数的转换

    符号函数举例: syms x y=x+1; y1=diff(y); %求导 匿名函数举例: z=@(x)(x(1)+2*x(2)); t=z([2 3]); %计算z在x=[2 3]处的值 z=@(x ...

  2. 关于spark中DatatFrame函数操作中isin方法的使用

    需求: 1.需要从一张mysql数据表中获取并筛选数据 2.通过spark将该表读进来,形成一个df:DataFrame,有一个集合 val list = List[String]("小李& ...

  3. Spark中Java函数的使用方法笔记

    1: map 函数map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD. 任何原RDD中的元素在新RDD中都有且只有一个元素与之对应. 2: mapPartitions函数</p ...

  4. hive中标准偏差函数stddev()详细讲解

    1.标准偏差概念 标准偏差(Std Dev,Standard Deviation) -统计学名词.一种度量数据分布的分散程度之标准,用以衡量数据值偏离算术平均值的程度.标准偏差越小,这些值偏离平均值就 ...

  5. Scala 深入浅出实战经典 第42讲:scala 泛型类,泛型函数,泛型在spark中的广泛应用

    王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...

  6. day11.1函数进阶 列表集合 字典中的函数变量,函数作为形参

    函数进阶 1.函数作为变量 a=123 name="gao" nums=[1,2,3] data=nums#指向同一个内存地址 #查看内存地址篇章 def func(): prin ...

  7. Spark中的IsNotNull函数怎么用

    Spark中的IsNotNull函数怎么用 在这里看到的这个函数,就是判断是否为空,但是开始不知道怎么用,后来找到了,要在View中用,也就是SparkSQL中.如下: spark.sql(" ...

  8. 在Spark中尽量少使用GroupByKey函数(转)

    原文链接:在Spark中尽量少使用GroupByKey函数 为什么建议尽量在Spark中少用GroupByKey,让我们看一下使用两种不同的方式去计算单词的个数,第一种方式使用reduceByKey  ...

  9. js进阶js中支持正则的四个常用字符串函数(search march replace split)

    js进阶js中支持正则的四个常用字符串函数(search march replace split) 一.总结 代码中详细四个函数的用法 search march replace split 二.js进 ...

随机推荐

  1. 洛谷 P1355 神秘大三角(计算几何基础)

    P1355 神秘大三角 题目提供者yeszy 标签 福建省历届夏令营 难度 普及/提高- 题目描述 判断一个点与已知三角形的位置关系. 输入输出格式 输入格式: 前三行:每行一个坐标,表示该三角形的三 ...

  2. 【csp模拟赛5】限制 (restrict.cpp)--数学

    自己看吧: 爆搜代码: //春水初涨-春林初盛-春风十里-不如你 //----hzwer // 这是啥子题,读不懂-- //题意有问题 -- #include<iostream> #inc ...

  3. Digit Division(排列组合+思维)(Gym 101480D )

    题目链接:Central Europe Regional Contest 2015 Zagreb, November 13-15, 2015 D.Digit Division(排列组合+思维) 题解: ...

  4. mac使用brew安装mysql报RROR 2002 (HY000): Can't connect to local MySQL server through socket '/tmp/mysql.sock' (2)

    使用mac安装mysql安装完后运行 mysql -uroot -p 报了 ERROR 2002 (HY000): Can't connect to local MySQL server throug ...

  5. [Linux]kali更新/etc/apt/sources.list

    vim /etc/apt/sources.list #中科大 deb http://mirrors.ustc.edu.cn/kali kali-rolling main non-free contri ...

  6. zstu 4237 马里奥的求救——(单调队列DP)

    题目链接:http://oj.acm.zstu.edu.cn/JudgeOnline/problem.php?id=4237 这题可以转化为每次可以走g~d+x步,求最大分数,且最大分数的步数最少. ...

  7. Leetcode题目238.除自身以外数组的乘积(中等)

    题目描述: 给定长度为 n 的整数数组 nums,其中 n > 1,返回输出数组 output ,其中 output[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积. 示例: ...

  8. 2159 -- Ancient Cipher

    Ancient Cipher Time Limit: 1000MS   Memory Limit: 65536K Total Submissions: 36074   Accepted: 11765 ...

  9. easyUI之validatebox验证框

    <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <html> <hea ...

  10. DPDK 网络加速在 NFV 中的应用

    目录 文章目录 目录 前文列表 传统内核协议栈的数据转发性能瓶颈是什么? DPDK DPDK 基本技术 DPDK 架构 DPDK 核心组件 应用 NUMA 亲和性技术减少跨 NUMA 内存访问 应用 ...