有关RDD的基础学习1
1.spark rdd为什么不能嵌套?
譬如 val rdd1=sc.parallel(range(1,100))
val rdd2=sc.parallel(range(1,100))
rdd1.map(x=>rdd.count())
因为rdd的构造器中rdd(@trancient sc:SparkContext),这个sc是不可序列化的,而rdd的map之类的操作,需要把参数序列化,
这样就会出问题,sc就成了null,会报空值异常.
为什么sc要设置为不要序列化? 因为sc本身就不能序列化,没有继承serializble接口.
scala中如何使用正则进行抽取字符串中想要的内容?使用模式匹配,例如:
val regex="localhost[(.*)]".r
val master="localhost[4]"
master match{
case regex(threads) => converttoInt(threads)
case _=> println("not found")
}
2.spark rdd 中的partitioner有什么用?
确定数据是如何被划分到partitions里面的,譬如说rdd.repartition就使用了这个类.
rdd内容是1,2,3,4,5,设置了2个分区,每一个分区的数据会是怎么样的?
查看代码你会发现是会分成1,2一组,3,4,5一组
那rdd的partitioner有什么作用呢?
你调用rdd.repartition的时候,数据就根据这个进行重新分组了.
还有如果是转换成新的rdd出现了shuffle的时候就使用这个partitioner.
如果你想把数据重新分组,分成大于3的一组,其他的为一组,如何做?
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.HashPartitioner object Test extends App {
//在windows平台上调试运行,需要设置hadoop的home
System.setProperty("hadoop.home.dir", "E:\\app\\hadoop"); val sparkConf = new SparkConf()
sparkConf.setMaster("local[2]").setAppName(Test.getClass.toString().dropRight(1))
val sc = new SparkContext(sparkConf) val rdd = sc.parallelize(Seq(1, 2, 3, 4, 5), 2)
.map(i => if(i>3) (1,i) else (0,i))
//.repartition(2)
.partitionBy(new HashPartitioner(2))
.map( {case (a,b)=>b }) println(rdd.toDebugString)
rdd.foreachPartition { p =>
p.foreach { l => println(l) }
println(p.hashCode())
} sc.stop()
}
有关RDD的基础学习1的更多相关文章
- Spark基础学习精髓——第一篇
Spark基础学习精髓 1 Spark与大数据 1.1 大数据基础 1.1.1 大数据特点 存储空间大 数据量大 计算量大 1.1.2 大数据开发通用步骤及其对应的技术 大数据采集->大数据预处 ...
- salesforce 零基础学习(五十二)Trigger使用篇(二)
第十七篇的Trigger用法为通过Handler方式实现Trigger的封装,此种好处是一个Handler对应一个sObject,使本该在Trigger中写的代码分到Handler中,代码更加清晰. ...
- 如何从零基础学习VR
转载请声明转载地址:http://www.cnblogs.com/Rodolfo/,违者必究. 近期很多搞技术的朋友问我,如何步入VR的圈子?如何从零基础系统性的学习VR技术? 本人将于2017年1月 ...
- IOS基础学习-2: UIButton
IOS基础学习-2: UIButton UIButton是一个标准的UIControl控件,UIKit提供了一组控件:UISwitch开关.UIButton按钮.UISegmentedContro ...
- HTML5零基础学习Web前端需要知道哪些?
HTML零基础学习Web前端网页制作,首先是要掌握一些常用标签的使用和他们的各个属性,常用的标签我总结了一下有以下这些: html:页面的根元素. head:页面的头部标签,是所有头部元素的容器. b ...
- python入门到精通[三]:基础学习(2)
摘要:Python基础学习:列表.元组.字典.函数.序列化.正则.模块. 上一节学习了字符串.流程控制.文件及目录操作,这节介绍下列表.元组.字典.函数.序列化.正则.模块. 1.列表 python中 ...
- python入门到精通[二]:基础学习(1)
摘要:Python基础学习: 注释.字符串操作.用户交互.流程控制.导入模块.文件操作.目录操作. 上一节讲了分别在windows下和linux下的环境配置,这节以linux为例学习基本语法.代码部分 ...
- CSS零基础学习笔记.
酸菜记 之 CSS的零基础. 这篇是我自己从零基础学习CSS的笔记加理解总结归纳的,如有不对的地方,请留言指教, 学前了解: CSS中字母是不分大小写的; CSS文件可以使用在各种程序文件中(如:PH ...
- Yaf零基础学习总结5-Yaf类的自动加载
Yaf零基础学习总结5-Yaf类的自动加载 框架的一个重要功能就是类的自动加载了,在第一个demo的时候我们就约定自己的项目的目录结构,框架就基于这个目录结构来自动加载需要的类文件. Yaf在自启动的 ...
随机推荐
- ChemDraw使用不了怎么办
ChemDraw作为一款专业级的化学绘图软件,不仅可以帮助用户绘制图像在数据计算方面也起了很大作用,因此,ChemDraw非常受用户的欢迎.但是我们在使用过程中难免会遇到各种问题,特别是对于新手用户, ...
- Redis分布式锁,基于StringRedisTemplate和基于Lettuce实现setNx
使用redis分布式锁,来确保多个服务对共享数据操作的唯一性一般来说有StringRedisTemplate和RedisTemplate两种redis操作模板. 根据key-value的类型决定使用哪 ...
- 解决error: Unable to find vcvarsall.bat【python 2.7/vs2010】
转自:http://blog.csdn.net/secretx/article/details/17472107 去下载安装VS2010(08版貌似也行,不过没必要用旧版,指不定哪个库又无法编译),给 ...
- 【IIS】IIS 7.0/7.5 绑定
window 7 IIS 7.0/7.5 默认站点不存在,甚至Http的绑定类型也无法选择,而绑定类型是空的,或者是别的.此时IIS无法正常创建IIS站点,而创建IIS站点的页面也不是通常的页面,此时 ...
- 用linux c求最大公约数
我写了两中函数,一个是辗转相除法一个是更相减损法,主要代码如下: /*辗转相除法*/int gcd(int a, int b) { ) { return b; } else { return gcd( ...
- JSONP使用
一.什么是JSONP jsonp是一种规则,它是利用创建html的script快的方式,将远端url放到src属性中,并以函数的形式执行远程返回值中的函数. jsonp的出现是为了解决浏览器同源策略的 ...
- LeetCode题目_Reverse Integer
最近在LeetCode上做题,写点东西记录一下,虽然自己做的都是些很水的题目,但是重在练手. 题号7:Reverse Integer,题目描述: Reverse digits of an intege ...
- Java中重载和重写
重载(Overloading) 方法重载是让类以统一的方式处理不同类型数据的一种手段.多个同名函数同时存在,具有不同的参数个数/类型.重载Overloading是一个类中多态性的一种表现. Java的 ...
- bug-sqlite3
[root@izj6c6b4i40od17ev77lhez Python-3.7.0]# python Python 3.7.0 (default, Sep 5 2018, 00:40:27) [GC ...
- awk经常使用字符串处理函数
gsub(regexp, replacement [, target]) Search target for all of the longest, leftmost, nonoverlapping ...