一.概要描述 shuffle是MapReduce的一个核心过程,因此没有在前面的MapReduce作业提交的过程中描述,而是单独拿出来比较详细的描述. 根据官方的流程图示如下: 本篇文章中只是想尝试从代码分析来说明在map端是如何将map的输出保存下来等待reduce来取. 在执行每个map task时,无论map方法中执行什么逻辑,最终都是要把输出写到磁盘上.如果没有reduce阶段,则直接输出到hdfs上,如果有有reduce作业,则每个map方法的输出在写磁盘前线在内存中缓存.每个map…
本自学笔记来自于Yutube上的视频Hadoop系列.网址: https://www.youtube.com/watch?v=-TaAVaAwZTs(当中一个) 以后不再赘述 自学笔记,难免有各类错误纰漏.请看者谨慎. Hadoop的使用还有大数据时代什么的就不说了.Hadoop不是一个单独的工具,而是一整个生态系统.包括一系列工具.所以首先要先介绍一下Hadoop相关的工具和各类概念,是以后经常会接触到的. 1. Hadoop Core a) HDFS  Hadoop分布式文件系统,Hadoo…
一.React简单介绍 1.React起源于Facebook内部项目,与2013年5月 2.是一个用于构建用户界面的JavaScript库 二.React特点 1.声明式设计-React采用声明范式,可以轻松描述应用 2.高效-React通过对DOM的模拟,最大限度地减少与DOM的交互 3.灵活- React可以与已知的库或框架很好的配合 4.JSX- JSX是JavaScript语法的扩展 5.组件-通过React构建组件,使得代码更加容易得到复用,能够很好的应用在大型项目的开发中 6.单向响…
一.写在前面的话: 上篇我们已经学会了如何安装JMeter和打开JMeter,那么这篇我们将对JMeter的图形界面做一个简单的介绍.大家只要简单的了解即可,无需死记硬背,在今后的学习和使用中慢慢熟悉即可. 二.打开JMeter: 1.打开和运行JMeter,出现JMeter的界面(直接上图): 2.根据上图简单介绍下: 1.菜单栏:File, Edit, Search, Run, Option, Help 六个菜单: 2.工具栏:操作的图标集合(后面使用中慢慢讲解) 3.左控制面板:Test…
学习docker已经有一段时间了,一直没有静下心来好好总结一下. 最近用docker搭了一整套Gitlab的持续集成环境.(会在下一篇中详细的讲解具体步骤,敬请期待) 感觉是时候写点东西和大家一起分享了,如果写的不好还请帮忙指正. 先从docker的一些官方网站说起. 1. www.docker.com 这个是docker的官网,经常参考的是Install&Docs,学会这里面的所有内容你就是docker使用的大师(...)了. 2. http://index.docker.io/ 介绍这个网站…
控件.组件.插件概念区分 说到控件,就不得不区分一些概念. 控件(Control):编程中用到的部件 组件(Component):软件的组成部分 插件(plugin): 应用程序中已经预留接口的组件 下面举些例子 Android的系统控件: Textview ImageView Button ... Android的四大组件 Activity Service Content Provider Broadcast Receiver 网页上常用插件莫过于flash了,用于视频加载播放. 控件说明 本…
1. MapReduce Architecture MapReduce是一套可编程的框架,大部分MapReduce的工作都能够用Pig或者Hive完毕.可是还是要了解MapReduce本身是怎样工作的,由于这才是Hadoop的核心,而且能够为以后优化和自己写做准备.   Job Client, 就是用户 Job Tracker和Task Tracker也是一种Master - Slave构建   工作流程(MapReduce Pipeline)   Job Client提交了MapReduce的…
1. HDFS Architecture 一种Master-Slave结构.包括Name Node, Secondary Name Node,Data Node Job Tracker, Task Tracker.JobTrackers: 控制全部的Task Trackers .这两个Tracker将会在MapReduce课程里面具体介绍.以下具体说明HDFS的结构及其功能. Name Node:控制全部的Data Node. 存储了整个文件系统的信息. 全部新建文件,删除,拷贝等,都会在此更新…
Yarn减轻了JobTracker的负担,对其进行了解耦…
一.MapReduce中有哪些常见算法 (1)经典之王:单词计数 这个是MapReduce的经典案例,经典的不能再经典了! (2)数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选.统计大数据集上的数据种类个数.从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重. (3)排序:按某个Key进行升序或降序排列 (4)TopK:对源数据中所有数据进行排序,取出前K个数据,就是TopK. 通常可以借助堆(Heap)来实现TopK问题. (5)选择:关系代数基…