一.数据处理类 package com.css.hdfs; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.URI; import java.net.URISyntaxException; import java.util.HashMap; import java.util.Map.Entry; import java.util…
Hadoop分布环境搭建步骤: 1.软硬件环境 CentOS 7.2 64 位 JDK- 1.8 Hadoo p- 2.7.4 2.安装SSH sudo yum install openssh-clients openssh-server 测试: ssh localhost 测试完事 exit命令退出 3.安装JAVA环境 sudo yum install java-1.8.0-openjdk java-1.8.0-openjdk-devel 配置:目录root/下面的bashrc文件结尾添加:…
本章来简单介绍下 Hadoop MapReduce 中的 Combiner.Combiner 是为了聚合数据而出现的,那为什么要聚合数据呢?因为我们知道 Shuffle 过程是消耗网络IO 和 磁盘IO 比较大的操作,如果我们能减少 Shuffle 过程的数据量,那就可以提升整个 MR 作业的性能.我在<大数据技术 - MapReduce的Shuffle及调优> 一文中写到 Shuffle 中会有两次调用 Combiner 的过程,有兴趣的朋友可以再翻回去看看.接下来我们还是以 WordCou…
第15章 大数据与MapReduce 大数据 概述 大数据: 收集到的数据已经远远超出了我们的处理能力. 大数据 场景 假如你为一家网络购物商店工作,很多用户访问该网站,其中有些人会购买商品,有些人则随意浏览后就离开. 对于你来说,可能很想识别那些有购物意愿的用户. 那么问题就来了,数据集可能会非常大,在单机上训练要运行好几天. 接下来:我们讲讲 MapRedece 如何来解决这样的问题 MapRedece Hadoop 概述 Hadoop 是 MapRedece 框架的一个免费开源实现. Ma…
一.Elasticsearch,Kibana简介: Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎.无论在开源还是专有领域, Lucene可以被认为是迄今为止最先进.性能最好的.功能最全的搜索引擎库. Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的 RESTful API 来隐藏Lucene的复杂性,从而让全文搜索变得简单. Elasticsearch支持分布式的实时文件存储以及实…
前言:上篇[大数据]-Elasticsearch5.3.1+Kibana5.3.1从单机到分布式的安装与使用<1>中介绍了ES ,Kibana的单机到分布式的安装,这里主要是介绍Elasticsearch5.3.1的一些概念.官方示例的基本数据导入,数据查询以及ES,kibana的功能组件的认识和熟悉. 一.Elasticsearch中的基本概念: Elasticsearch所涉及到的每一项技术都不是创新或者革命性的,全文检索,分析系统以及分布式数据库这些早就已经存在了.它的革命性在于将这些独…
转载请在页首明显处注明作者与出处 一:说明 此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6.4 此为mapreducer的第二章节 这一章节中有着 计算共同好友,推荐可能认识的人 上一篇:hadoop系列三:mapreduce的使用(一) 一:说明 二:在开发工具在运行mapreducer 2.1:本地模式运行mapreducer 2.2:在开发工具中运行在yarn中 三:mapredu…
第十五章 大数据与Maprudece 一.引言 实际生活中的数据量是非常庞大的,采用单机运行的方式可能需要若干天才能出结果,这显然不符合我们的预期,为了尽快的获得结果,我们将采用分布式的方式,将计算分布到不同的机器上.Mapreduce就是一个典型的分布式框架,Hadoop则是用java编写的一个Mapreduce实现. 分布式和并行的区别在于分布式它将数据分布到不同的机器上,而并行只是将数据分布到同一簇中的不同节点上,它们的区别主要体现在物理载体层面上. 二.Mapreduce简介 Mapre…
最近在学习大数据相关的东西,开这篇专题来记录一下学习过程.今天主要记录一下MapReduce执行流程解析 引子(我们需要解决一个简单的单词计数(WordCount)问题) 1000个单词 嘿嘿,1000单词还不简单,我们直接一句shell搞定 cat file | tr ' ' '\n' | sort | uniq -c | sort -rk1 | head -n 20 1000G 感觉良好,写个简单的程序也很好解决. 1000*1000G 有点懵逼了. 1000*1000*1000G 这时候就…
MapReduce MapReduce的基本定义及过程 搭建开发环境 代码实例及运行程序 MapReduce开发接口介绍 1. MapReduce的基本定义及过程 MapReduce是面向大数据并行处理的计算模型.框架和平台,其资源调度由Yarn完成,任务资源隐含了以下三层含义: 1)MapReduce是 一个基于集群的高性能并行计算平台(cluster Infrastructure). 2)MapReduce是 一个并行计算与运行软件框架(SoftWare Framework) 3)MapRe…