入门阶段

出于兴趣,及工作中的简单有用,大约经过1个月的时间,完毕了对Hadoop的基本认知。



在这个月中我干了例如以下几件事



1、大体看了《Hadoop权威指南》。把里面的代码手工码了一遍,并写了8篇学习笔记

2、配置了Hadoop1和Hadoop2集群。都是用4台虚拟机

3、听了一些Hadoop视频



基本认知例如以下



Hadoop是一种大数据处理框架,这样的大数据框架所能处理的场景实际是很很有限的,仅仅能是键值对数据,仅仅能是一行一行的固定格式化的数据,这样的特性决定了它很适合用来处理日志类文件。进行数据分析和挖掘。

Hadoop的核心是HDFS和MapReduce。HDFS是一种分布式的文件系统,MapReduce就是上面说的键值对计算模型。每次MapReduce计算任务都有一个固定的任务运行流程。所以对于小量数据分析来说(比方几万行数据),MapReduce事实上一点都不快。用其它的编程方式处理,事实上瞬间就完毕了,MapReduce的这样的工作方式仅仅适合处理大数据,当然,Hadoop本身就是为大数据而生的。

Hive被我略过了。认知肤浅,先忽略。

Hbase所谓使用的变态数据插入场景,可能实际工作非常难遇到,而且Mongo更易用,我做搜索推荐时。实际是使用Mongo存储中间数据及计算结果。

Cassandra,被略过了,工作中使用redis。而且redis3.0開始。支持分片了,简单易用,性能高效。

Pig,当前没有意愿花时间去学这样一个脚本语言。对于有大量基于Hadoop进行查询分析业务的公司,可能有使用的必要。

Sqoop,没有使用,先忽略。

Zookeeper,这真是个好东西,非常多开源框架都使用Zookeeper作为开分布式协调中心。比方Dubbo、Otter等。

从学习成本角度。横向比較的话,我感觉Hadoop能够说和MySql之类是一个量级的产品,非常快会用。可是想进阶,想精通,就须要在理论的基础上,在应用中不断的实践了。

进阶阶段

通过大量的日常工作中的Hadoop的使用。能够达到进阶阶段。

工作使用较少,我还是入门水平。期望有大量使用的机会,早日进阶。也让我知道在进阶阶段,我会对Hadoop是如何的一个认知,再回来补充这篇日志

Hadoop认知--在不同的阶段的更多相关文章

  1. Hadoop配置文件

    部分内容参考:http://www.linuxqq.net/archives/964.html  http://slaytanic.blog.51cto.com/2057708/1100974/ ht ...

  2. 转载:Hadoop权威指南学习笔记

    转自:http://pieux.github.io/blog/2013-05-08-learn-hadoop-the-definitive-guide.html 1 前言 Hadoop的内部工作机制: ...

  3. 有关hadoop分布式配置详解

    linux配置ssh无密码登录 配置ssh无密码登录,先要安装openssh,如下: yum install openssh-clients 准备两台linux服务器或虚拟机,设置两台linux的ho ...

  4. Hadoop 2.4.0完全分布式平台搭建、配置、安装

    一:系统安装与配置 Hadoop选择下载2.4.0 http://hadoop.apache.org / http://mirror.bit.edu.cn/apache/hadoop/common/h ...

  5. hadoop 常用配置项

    core-site.xml  name value  Description   fs.default.name hdfs://hadoopmaster:9000 定义HadoopMaster的URI ...

  6. Hadoop配置项整理(mapred-site.xml)【转】

    本文转自:http://slaytanic.blog.51cto.com/2057708/1101360 name value Description hadoop.job.history.locat ...

  7. Hadoop配置文件-mapred-site.xml

    name value Description hadoop.job.history.location   job历史文件保存路径,无可配置参数,也不用写在配置文件里,默认在logs的history文件 ...

  8. hadoop 常用配置项【转】

    hadoop 常用配置项[转] core-site.xml  name value  Description   fs.default.name hdfs://hadoopmaster:9000 定义 ...

  9. [转]HBase高可用性的新阶段

    From:http://m.csdn.net/article_pt.html?arcid=2823943 Apache HBase是一个面向线上服务的数据库,其原生支持Hadoop的特性,使其成为那些 ...

随机推荐

  1. 450A - Jzzhu and Children 找规律也能够模拟

    挺水的一道题.规律性非常强,在数组中找出最大的数max,用max/m计算出倍数t,然后再把数组中的书都减去t*m,之后就把数组从后遍历找出第一个大于零的即可了 #include<iostream ...

  2. 新手推荐:IIS+PHP+MYSQL环境配置教程

    本文介绍刚开始接触php的朋友如何为自己的服务器配置php环境 首先我们要的工具: 1.IIS:这个当然是不能少的了,用系统自带的就好了,这里就不教大家怎么装了. 2.PHP:php-5.2.0-wi ...

  3. Qt多线程(有详细例子)

    Qt线程类 Qt 包含下面一些线程相关的类:QThread 提供了开始一个新线程的方法QThreadStorage 提供逐线程数据存储QMutex  提供相互排斥的锁,或互斥量QMutexLocker ...

  4. 用Python实现QQ找茬游戏外挂工具

    源地址:http://cpiz.net/blog/2012/03/a_qq_zhaocha_assistant_by_python/ (原创作品,转载请注明出处)好久没写技术相关的博文,这次写篇有意思 ...

  5. Gap 锁

    14.3.1 InnoDB Locking InnoDB 锁 本章节描述InnoDB 使用的锁类型: Shared and Exclusive Locks Intention Locks Record ...

  6. DB2错误码解释对照

    表 2. SQLSTATE 类代码 类  代码    含义 要获得子代码,  参阅...  00 完全成功完成 表 3  01 警告 表 4  02 无数据 表 5  07 动态 SQL 错误 表 6 ...

  7. [置顶] 深圳华为BSS公共部件 (BI 商业智能 Java Javascript)

    深圳华为BSS公共部件 部门招聘 招聘面试地点:大连,西安 工作地点:深圳 时间:2013年9月7日 联系方式:dawuliang@gmail.com 18675538182 有兴趣的同学,可以直接电 ...

  8. ThinkPHP配置项(六)

    原文:ThinkPHP配置项(六) 配置项--这只是部分的配置,后期会随时跟大家更新分享 1:修改URL分隔符 目录:thinkphp\Home\Conf\config.php打开配置文件代码中加上: ...

  9. [Android学习笔记]ShareSDK的使用

    ShareSDK使用方便,集成简单,正式客户端开发人员的首选组件 集成步骤,使用说明见官方文档: http://wiki.sharesdk.cn/Android_快速集成指南 记录: 直接使用官方De ...

  10. oracle数据库单个数据文件的大小限制

    之前没有仔细想过这个问题,因为总是不会用到,也没有犯过类似错误. 顺便提一下学习方法吧. 卤肉的学习方法是:常用知识点,熟悉理论并反复做实验,深入理解:不常用的知识点,相关内容都了解大概,遇到问题时想 ...