Hadoop以及组件介绍】的更多相关文章

一.背景介绍 在接触过大数据相关项目的时候常常都会听到Hadoop这个东西,简单来说,他是一个用分布式计算来处理大数据的开源软件,下面包含了许多的组件和子项目,这篇文章将会介绍Hadoop的原理以及一些组件的应用. 二.准备工作 1.确认储存规模 有很多的大数据项目其实数据量跟本没这么大,跟本不需要到使用Hadoop这类的大数据软件,所以,第一步应该是先确认数据量有多大,真的MySQL跑的太久再去使用Hadoop就好. 2.确认数据类型 除了结构化数据以外,现在有些大数据项目需要处理的是一些非结…
MapReduce原理 MapRedcue采用‘分而治之’的思想,对大规模数据集的操作,分发给一个主节点下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果.Mapreduce就是任务的分解,与结果的汇总 MapReduce任务机器有两个一个是jobTracker,另一个是TaskTracher,JobTracker用于调度的工作,TaskTracher用于执行工作,一个hadoop集群只有一个JobTracker. 在分布式计算中,MapReduce框架负责处理了并行编程中分布…
Hive架构图 Hive产生原因 1 关系型数据库以产生多年sql成熟 2 简化开发降低成本 3 java成员可编写udf函数 Hive是什么 Hive是基于hadoop的一个数据库工具,使用Hql作为接口,maprduce作为执行层 Hdfs作为储存层.设计的目的是让sql开发人员java技能较弱的人编写并查询海量数据 缺点执行效率低 Hive的访问 Hive ----odbc/jdbc----hiveserver2 Hive---hive Compiler 编译器 Optimizer 优化器…
Yarn的产生 mapReduc1.0 1单点故障 2扩展效率低 3资源利用率高 降低运维成本 方便数据共享 多计算框架支持 MapReduce Spark Storm Yarn的架构图 Yarn模块介绍 ResourceManger 负责集群资源的统一管理和调度 处理客户端请求 启动/监控ApplicationMaster 监控NodeManager 资源的分配与调度 NodeManager 负责单点资源的管理和使用 处理来自ResourceManager的命令 处理来自Application…
Hadoop 基本概念 一.Hadoop出现的前提环境 随着数据量的增大带来了以下的问题 (1)如何存储大量的数据? (2)怎么处理这些数据? (3)怎样的高效的分析这些数据? (4)在数据增长的情况下如何构建一个解决方案? 在大数据领域提出了两个概念 (1)分布式文件系统   用于存储大量的数据 (2)分布式计算框架MapReduce高效的分析数据 以上的两个概念组成一个名词 Hadoop 二.Hadoop的起源 谷歌发布了三篇论文 : GFS 分布式存储系统  ,  MapReduce  分…
在这个.NET组件的介绍系列中,受到了很多园友的支持,一些园友(如:数据之巅. [秦时明月]等等这些大神 )也给我提出了对应的建议,我正在努力去改正,有不足之处还望大家多多包涵.在传播一些简单的知识的同时,我自己也得到了一些提升,这个是我感觉到的最大的益处.知识需要传播,在传播的过程中去让学习的人去提升,在交流中的过程中去让思考的人去展望,我希望我也能在这个传播的过程中出一份力.由于自身能力有限,在编写博文时出现的错误和一些不到位的讲解,还望大家多多见谅. 上面卖完情怀,下面就该切入正题了.(自…
前面介绍了六种.NET组件,其中有一种组件是写文件的压缩和解压,现在介绍另一种文件的解压缩组件SharpZipLib.在这个组件介绍系列中,只为简单的介绍组件的背景和简单的应用,读者在阅读时可以结合官网的相关介绍和在本地实际操作. 相关的组件功能非常强大,在笔者的介绍中只是提及到简单的应用,需要了解更多的操作和特性,可以根据官网介绍,或者查看DLL文件的相关类和方法,以此来扩展相关的业务需要. SharpZipLib是一个完全在C#中为.NET平台编写的Zip,GZip,Tar和BZip2库.…
很多的软件项目几乎都包含着对文档的操作,前面已经介绍过两款操作文档的组件,现在介绍一款文档操作的组件NPOI. NPOI可以生成没有安装在您的服务器上的Microsoft Office套件的Excel报表,并且在后台调用Microsoft Excel ActiveX更有效率;从Office文档中提取文本,以帮助您实现全文索引功能(大多数时候,此功能用于创建搜索引擎): 从Office文档提取图像: 生成包含公式的Excel工作表. 一.NPOI组件概述: NPOI是完全免费使用: 涵盖Excel…
很多的软件项目中都会使用到定时任务.定时轮询数据库同步,定时邮件通知等功能..NET Framework具有“内置”定时器功能,通过System.Timers.Timer类.在使用Timer类需要面对的问题:计时器没有持久化机制:计时器具有不灵活的计划(仅能设置开始时间和重复间隔,没有基于日期,时间等):计时器不使用线程池(每个定时器一个线程):计时器没有真正的管理方案 - 你必须编写自己的机制,以便能够记住,组织和检索任务的名称等. 如果需要在.NET实现定时器的功能,可以尝试使用以下这款开源…
在生活中有一种东西几乎已经快要成为我们的另一个电子”身份证“,那就是二维码.无论是在软件开发的过程中,还是在普通用户的日常中,几乎都离不开二维码.二维码 (dimensional barcode) ,又称二维条码,是在一维条码的基础上扩展出的一种具有可读性的条码.设备扫描二维条码,通过识别条码的长度和宽度中所记载的二进制数据,可获取其中所包含的信息.相比一维条码,二维码记载更复杂的数据,比如图片.网络链接等. 今天介绍一种免费开源的二维码操作组件,ThoughtWorks.QRCode组件可以高…