Hadoop for .NET Developers(一):理解Hadoop

这些年来,大数据已经成为分析业界的兴奋源头。对于这个博客系列的目的,我将松散定义这个术语指的重点是从数据核心业务系统里数据来源的扩张 - 传统商业智能的范畴 - 包含新的(不管是在历史上被忽视或新的可用)数据源。

这是一届大数据的一个粗略的简化。但它固有的与已推动通过新的数据平台。这些新的数据工作的挑战。当我们的注意力是在Hadoop的,最广泛的认可,这些新的数据平台。大数据的这样一个有限的定义似乎就够了。

Hadoop是一个弹性的。分布式的,无模式的数据处理平台。是理想的。你有大量的数据集,单记录含有少量值。如日志文件,由于它提供了一个低的投入来进行数据訪问的解决方式。这也是对须要复杂分析和解释复杂数据一个良好的平台,比如XML或JSON文档,图像文件等,和/或可能受到可变的解释,比如客户推文(在JSON文件)。

此外,当你须要大规模的可扩展性超出了能够实现与传统的关系型数据库平台,Hadoop是一个绝佳平台。话虽如此,我没有找到这最后的方案是适用于我的很多客户(尽管它是适用于一些)。对于我工作以及绝大多数的人。Hadoop的灵活性和经济性往往是来探索这个平台最有说服力的理由。


Hadoop for .NET Developers(二):基础架构

Hadoop是一组相互关联的项目组件的实现。

核心组件是MapReduce的,用于处理作业的运行,和一个储存层。通常被实现作为Hadoop分布式文件系统(HDFS)。对于这篇文章的目的,我们将假定HDFS正在使用中。

Hadoop的组件是通过一系列被称为数据(或计算)节点的server来实现。这些节点是数据被存储和处理的地方。

的名称的节点server保留在环境中的数据节点。其数据被存储哪个节点上的轨道,并提供了数据的节点为一个单一实体。

这样的神秘表示被称为一个簇。

假设你所熟悉的RDBMS实现术语集群,请注意,不一定不论什么共享存储或节点之间的其它资源。 Hadoop集群是纯粹的逻辑。

Hadoop for .NET Developers的更多相关文章

  1. Hadoop 裡的 fsck 指令

    Hadoop 裡的 fsck 指令,可檢查 HDFS 裡的檔案 (file),是否有 corrupt (毀損) 或資料遺失,並產生 HDFS 檔案系統的整體健康報告.報告內容,包括:Total blo ...

  2. 设计与开发一款简单易用的Web报表工具(支持常用关系数据及hadoop、hbase等)

    EasyReport是一个简单易用的Web报表工具(支持Hadoop,HBase及各种关系型数据库),它的主要功能是把SQL语句查询出的行列结构转换成HTML表格(Table),并支持表格的跨行(Ro ...

  3. 64位centos 下编译 hadoop 2.6.0 源码

    64位os下为啥要编译hadoop就不解释了,百度一下就能知道原因,下面是步骤: 前提:编译源码所在的机器,必须能上网,否则建议不要尝试了 一. 下载必要的组件 a) 下载hadoop源码 (当前最新 ...

  4. [导入]Eclipse 导入/编译 Hadoop 源码

    http://www.cnblogs.com/errorx/p/3779578.html 1.准备工作 jdk: eclipse: Maven: libprotoc :https://develope ...

  5. Hadoop Eclipse开发环境搭建

        This document is from my evernote, when I was still at baidu, I have a complete hadoop developme ...

  6. Eclipse 导入 Hadoop 源码

    1.准备工作 jdk: eclipse: Maven: libprotoc :https://developers.google.com/protocol-buffers/ hadoop:http:/ ...

  7. Hadoop的shell脚本分析

    你会发现hadoop-daemon.sh用于启动单独的本机节点 而hadoop-daemons.sh 会批量的ssh到别的机器启动 前记: 这些天一直学习hadoop,学习中也遇到了许多的问题,主要是 ...

  8. 【转载】Hadoop可视化分析利器之Hue

    http://qindongliang.iteye.com/blog/2212619 先来看下hue的架构图:  (1)Hue是什么? Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基 ...

  9. hadoop中日志聚集问题

    遇到的问题: 当点击上面的logs时,会出现下面问题: 这个解决方案为: By default, Hadoop stores the logs of each container in the nod ...

随机推荐

  1. js 使用(不断更新...)

    1.JS 对象(Object)和字符串(String)互转 var jsObj = {}; jsObj.testArray = [1, 2, 3, 4, 5]; jsObj.name = 'CSS3' ...

  2. rsync同步操作命令

    在本地磁盘同步数据 将/home做个备份 # rsync -a --delete /home /backups -a 归档模式,表示以递归方式传输文件, -delete 删除那些接收端还有而发送端已经 ...

  3. jquery的append/prepend和after/before有什么区别呢?

    append <p> <span class="s1">s1</span> </p> <script> $(" ...

  4. NodeJS学习笔记 (21)事件机制-events(ok)

    模块概览 events模块是node的核心模块之一,几乎所有常用的node模块都继承了events模块,比如http.fs等. 模块本身非常简单,API虽然也不少,但常用的就那么几个,这里举几个简单例 ...

  5. bzoj 3408 热浪 最短路

    一道最短路的模板题,就当练习一下SPFA和dijkstra了 SPFA #include<bits/stdc++.h> using namespace std; struct edge{ ...

  6. Laravel核心解读--HTTP内核

    Http Kernel Http Kernel是Laravel中用来串联框架的各个核心组件来网络请求的,简单的说只要是通过public/index.php来启动框架的都会用到Http Kernel,而 ...

  7. PHP实现几种经典算法详解

    前言 在编写JavaScript代码的时候存在一些对于数组的方法,可能涉及的页面会很多,然后每次去写一堆代码.长期下去代码会特别的繁多,是时候进行一波封装了,话不多说开始书写优美的代码 代码已上传gi ...

  8. [SDOI2011]消防(树的直径)

    [SDOI2011]消防 题目描述 某个国家有n个城市,这n个城市中任意两个都连通且有唯一一条路径,每条连通两个城市的道路的长度为zi(zi<=1000). 这个国家的人对火焰有超越宇宙的热情, ...

  9. ArcGIS api for javascript——设置可见的比例

    描述 ArcGIS JavaScript API的1.2版本加入更多地图如何缓存,切片和地图服务的控制.本例展示了如何限制地图能够接收切片的比例等级.如果不想用户过分的放大或缩小,即使切片存在这些极端 ...

  10. 为什么Java里的Arrays.asList不能用add和remove方法?

    在平时的开发过程中,我们知道能够将一个Array的对象转化为List.这种操作,我们仅仅要採用Arrays.asList这种方法即可了.笔者前段时间一直用这种方法,有一天,我发现通过Arrays.as ...