学习参考自 http://spark-internals.books.yourtion.com/markdown/4-shuffleDetails.html 1.  Shuffle read 边 fetch 边处理还是一次性 fetch 完再处理? 边 fetch 边处理. MapReduce shuffle 阶段就是边 fetch 边使用 combine() 进行处理,只是 combine() 处理的是部分数据.MapReduce 为了让进入 reduce() 的 records 有序,必须等…
1.列出安装Hadoop流程步骤 a) 创建hadoop账号 b) 更改ip c) 安装Java 更改/etc/profile 配置环境变量 d) 修改host文件域名 e) 安装ssh 配置无密码登录 f) 解压hadoop g) 配置hadoop  conf下面的配置文件 h) Hadoop namenode -format  格式化 i) Start 启动 2.列出hadoop集群启动中的所有进程和进程的作用 a) Namenode 管理集群  记录namenode文件信息 b) Seco…
一.类与对象 1.什么是类?类,顾名思义,就是具体相同属性的同一类事物的统称及抽象.对象,指是就是具体的抽象类的实例 以上的说法是不是看起来有点云里来雾里去呢.没错,专业的解释总是让人难以理解,这就是专家.其实举个简单的例子大家就能理解了如:牛马羊鸡鸭鹅,这些都是统称为 动物,没错吧.那动物就是上面所谓的类,而牛马羊鸡鸭鹅就是类中对应的实例,也就是对象.牛是对象,羊是对象,...现在明白了吧 python类是怎么定义和使用的,废话少说,上图,一目了然 2.类的成员:从上图可以看到,类包含了很多成…
combine和partition都是函数,中间的步骤应该只有shuffle! combine分为map端和reduce端,作用是把同一个key的键值对合并在一起,可以自定义的.combine函数把一个map函数产生的<key,value>对(多个key,value)合并成一个新的<key2,value2>.将新的<key2,value2>作为输入到reduce函数中这个value2亦可称之为values,因为有多个.这个合并的目的是为了减少网络传输. partitio…
Cow Uncle Time Limit: 4000/2000MS (Java/Others) Memory Limit: 128000/64000KB (Java/Others) SubmitStatus Problem Description South China Algorithm University (SCAU) 是一个生态环境优秀的校园.走在校道上,你可以看见牛羊猫狗鸡鸭鹅,等等. 牛在校道上走当然不是没人管的.放牛大叔通常会带N头大牛小牛去到一片宽阔的草地上吃草,草地上有M块大石…
Spark on Yarn面试篇04 1.MRV1有哪些不足? 1)可扩展性(对于变化的应付能力) a) JobTracker内存中保存用户作业的信息 b) JobTracker使用的是粗粒度的锁 2)可靠性和可用性 a) JobTracker失效会多事集群中所有的运行作业,用户需手动重新提交和恢复工作流 3)对不同编程模型的支持 HadoopV1以MapReduce为中心的设计虽然能支持广泛的用例,但是并不适合所有大型计算,如storm,spark 2.描述Yarn执行一个任务的过程? 1)客…
Spark Core面试篇01 随着Spark技术在企业中应用越来越广泛,Spark成为大数据开发必须掌握的技能.前期分享了很多关于Spark的学习视频和文章,为了进一步巩固和掌握Spark,在原有spark专刊基础上,新增<Spark面试2000题>专刊,题集包含基础概念.原理.编码开发.性能调优.运维.源代码以及Spark周边生态系统等.部分题集来源于互联网,由梅峰谷志愿者收集和整理,部分题集由梅峰谷志愿者结合生产实际碰到的问题设计出来,希望能给大家带来帮助. 一.简答题 1.Spark…
评论: 牛逼的业余书籍爱好者读书思路,指导思想. 2013/9/22         文本矩阵简述 V1.0http://www.douban.com/note/170688812/ 文/vivo  1 矩阵(matrix)是一个从线性代数里借用的概念,用来描述复杂的.可以从不同维度切分的文本系统,每一种拣选.组合原则即是一行,而被此原则选中的所有元素组成一列,组成矩阵的基本单位是一本本主题.风格.范围等一目了然的书籍,也可以是从所有文本里析取的其他抽象元素. 2 之所以论述文本,只因为它是人类…
http://www.aboutyun.com/thread-8927-1-1.html Mapreduce在hadoop中是一个比較难以的概念.以下须要用心看,然后自己就能总结出来了. 概括: combine和partition都是函数.中间的步骤应该仅仅有shuffle! 1.combine combine分为map端和reduce端,作用是把同一个key的键值对合并在一起,能够自己定义的. combine函数把一个map函数产生的<key,value>对(多个key,value)合并成一…
转自:http://blog.csdn.net/b1198103958/article/details/47169105 Hadoop里面的MapReduce编程模型,非常灵活,大部分环节我们都可以重写它的API,来灵活定制我们自己的一些特殊需求. 今天散仙要说的这个分区函数Partitioner,也是一样如此,下面我们先来看下Partitioner的作用: 对map端输出的数据key作一个散列,使数据能够均匀分布在各个reduce上进行后续操作,避免产生热点区. 大部分情况下,我们都会使用默认…