最近在学习Hadoop,很想把自己的一些学习遇到的问题以及解决方案分享出来,也碍于最近一堆忙不完的事,就把这事给搁了很久。

  那下面我就先来简单说下我为什么要学习Hadoop以及我学习Hadoop的一些感受吧。

  大家都知道,最近几年互联网的云计算、大数据、Hadoop等等这些都很炒的很火。我是一名学生,学校也赶上时髦了,也开了相关的数据挖掘、云计算等的课程。我是去年开始接触云计算方面的东西,了解了一些关于大数据处理、Hadoop的一些发展概况。总的体会就是,随着互联网的飞速发展,各行各业的数据也在急剧膨胀,未来一定是大数据的时代。因此,围绕这大数据存储、大数据处理等的发展前景也变得更加光明。

  然后,我选择学习Hadoop也是因为它在大数据存储、数据处理方面比较强大。其次,Hadoop技术已经在互联网领域得以广泛的应用,同时也得到研究界的普遍关注。国内外很多的互联网公司都在用Hadoop做一些数据处理分析什么的。

  学习Hadoop主要还是看好它的发展前景,我个人还是很看好这个分布式计算平台未来的前景的。目前很多大公司也在都在使用Hadoop,比如国内的阿里巴巴、百度、腾讯、国外的Yahoo、亚马逊、Facebook等都在使用Hadoop。事实证明这个分布式平台很有潜力的,虽然目前还是存在各种各样的不足和缺陷,但是有那么多人在为之付出,总是能够不断改进的。下面是Hadoop目前的一些应用情况:

Apache Nutch是Hadoop的源头,该项目始于2002年,是Apache Lucene 的子项目之一。至2004年,Google在OSDI上公开发表了题为“MapReduce: Simplified Data Processing on Large Clusters”的论文,受到启发的Doug Cutting等人开始实现MapReduce计算框架并与NDFS(Nutch Distributed File System)结合支持Nutch的主要算法。至2006年逐渐成为一套完整而独立的软件,起名为Hadoop。2008年初,Hadoop成为 Apache的顶级项目,应用到除Yahoo!以外的很多互联网公司。

  Hadoop主要提供了一套名为HDFS的分布式文件系统以及支持Map-Reduce的计算框架。此外,还提供构建在HDFS 和Map/Reduce之上的可扩展的数据仓库Hive,结构化数据库HBase,数据流高层语言Pig,高性能分布式协同服务ZooKeeper,以及 面向大规模分布式系统的数据收集软件Chukwa等。

如Yahoo!使用4000个节点的机群运行Hadoop,支持广告系统和 Web搜索的究;Facebook使用1000节点的机群运行Hadoop,存储日志数据,支持其上的数据分析和机器学习;百度用Hadoop处理每周 200TB的数据,进行搜索日志分析和网页数据挖掘工作;中移动研究院基于Hadoop开发了“大云”(BigCloud)系统,不但用于相关数据分析, 还对外提供服务;淘宝的Hadoop系统用于存储并处理电子商务的交易相关数据。国内的高校和科研院所基于Hadoop在数据存储、资源管理、作业调度、 性能优化、系统高可用性和安全性方面进行研究,相关研究成果多以开源形式贡献给Hadoop社区。

  在国内最早运用Hadoop技术的是互联网公司,因为Hadoop是开源软件,当时国内尚无针对Hadoop的交流平台,Hadoop in China志愿者社区正是在这样的形势下自然形成的。Hadoop in China大会是这个志愿者社区的窗口,其前身是Hadoop技术沙龙。第一次举办沙龙是在2008年11月23日,目的是为了让更多的Hadoop技术 爱好者能够互相认识,并能够在一起交流学术和技术心得。会议邀请了Yahoo!、Facebook、百度等互联网企业的资深技术人员到场讲解了 Hadoop技术的原理、应用和很多内部技术细节。经过两年多的努力,Hadoop in China大会已逐渐成为集技术研讨、交流和成果展示为一身的综合性技术交流平台,Hadoop in China 志愿者社区已成为国内推广Hadoop技术的重要力量之一。

原文链接:http://it.chinabyte.com/83/11520583.shtml

  这是我写的第一篇关于Hadoop的博文,在学习Hadoop的过程中遇到了很多的困难,在Hadoop搭建环境、实战开发过程中也出现过很多的问题。因此,以后我也会陆续的把自己之前学习Hadoop的过程中所遇到的问题以及解决方案的分享出来和大家一起研究学习。我相信积累是成长的必须过程。以后有空就多就经常去学习,思考,总结。万事开头难,不过今天算是迈出了第一步,千里之行始于足下,加油吧!

Hadoop之我见的更多相关文章

  1. 利用Hadoop实现超大矩阵相乘之我见(二)

    前文 在<利用Hadoop实现超大矩阵相乘之我见(一)>中我们所介绍的方法有着“计算过程中文件占用存储空间大”这个缺陷,本文中我们着重解决这个问题. 矩阵相乘计算思想 传统的矩阵相乘方法为 ...

  2. 利用Hadoop实现超大矩阵相乘之我见(一)

    前记 最近,公司一位挺优秀的总务离职,欢送宴上,她对我说“你是一位挺优秀的程序员”,刚说完,立马道歉说“对不起,我说你是程序员是不是侮辱你了?”我挺诧异,程序员现在是很低端,很被人瞧不起的工作吗?或许 ...

  3. Hadoop分布式部署——要点

    这里只记录几个要点,比较容易出问题的地方. 1.各服务器必须有相同的用户(便于使用相同的用户ssh登录)2.ssh互通,配置无密码登录ssh-keygen -t rsa,将id_rsa.pub的内容相 ...

  4. Hadoop 跨集群访问

    [原文地址] 跨集群访问 发表于 2015-06-01   |   简单总结下跨集群访问的多种方式. 跨集群访问HDFS 直接给出HDFS URI 我们平常执行hadoop fs -ls /之类的操作 ...

  5. java程序中获取kerberos登陆hadoop

    本文由作者周梁伟授权网易云社区发布. 一般我们在使用kbs登陆hadoop服务时都直接在shell中调用kinit命令来获取凭证,这种方式简单直接,只要获取一次凭证之后都可以在该会话过程中重复访问.但 ...

  6. Hadoop/Spark生态圈里的新气象

    令人惊讶的是,Hadoop在短短一年的时间里被重新定义.让我们看看这个火爆生态圈的所有主要部分,以及它们各自具有的意义. 对于Hadoop你需要了解的最重要的事情就是 ,它不再是原来的Hadoop. ...

  7. Hadoop 中利用 mapreduce 读写 mysql 数据

    Hadoop 中利用 mapreduce 读写 mysql 数据   有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP ...

  8. 初识Hadoop、Hive

    2016.10.13 20:28 很久没有写随笔了,自打小宝出生后就没有写过新的文章.数次来到博客园,想开始新的学习历程,总是被各种琐事中断.一方面确实是最近的项目工作比较忙,各个集群频繁地上线加多版 ...

  9. hadoop 2.7.3本地环境运行官方wordcount-基于HDFS

    接上篇<hadoop 2.7.3本地环境运行官方wordcount>.继续在本地模式下测试,本次使用hdfs. 2 本地模式使用fs计数wodcount 上面是直接使用的是linux的文件 ...

随机推荐

  1. [转载][HASS.IO] 【HASSOS安装】成功安装HASSOS 1.9(避开了大部分坑版)

    7月20日HA官方放出HASSOS说明时,我开始入坑HASSOS,经历了安装没流量.打开主页:8123没显示.HASS.IO边栏不显示.安装不了HASS.IO插件等问题之后,在8月6日总算避开了大坑进 ...

  2. PHP通用返回值设置

    遇到一个不错的php代码.记录一下. 在写php代码时,经常会遇到需要返回值的情况,可以统一设置一下返回值的格式.下面就是一个不错的例子. 配置类Return.conf.php <?php de ...

  3. Windbg简明教程(转)

    Windbg是Microsoft公司免费调试器调试集合中的GUI的调试器,支持Source和Assembly两种模式的调试.Windbg不仅可以调试应用程序,还可以进行Kernel Debug(新版本 ...

  4. [leetcode]Combinations @ Python

    原题地址:https://oj.leetcode.com/problems/combinations/ 题意:组合求解问题. 解题思路:这种求组合的问题,需要使用dfs来解决. 代码: class S ...

  5. GIST特征描述符使用

    来源:http://www.cnblogs.com/justany/archive/2012/12/06/2804211.html 一种场景特征描述 场景特征描述? 通常的特征描述符都是对图片的局部特 ...

  6. 一个可用来记录Isilon各个节点的CPU,网络,磁盘性能的命令

    通过查看命令isi statistics system的帮助信息,拼出了下面的命令. isi statistics system list --nodes=all --degraded --forma ...

  7. Visio中方向键不能移动物件而是滚动画布

    不知怎么的, 我的Visio中按方向键不能移动目标对象, 效果却是移动整个画布. 上网查了一下, 找到了原因. 因为不知怎么的错按了键盘上的Scroll Lock键, 再按一下就好了.     参考资 ...

  8. Java-Shiro(二):HelloWord

    新建项目&&配置pom.xml导入包 新建maven java project项目: 修改pom.xml: <project xmlns="http://maven.a ...

  9. SSAS知识回放之订单数据分析

    1:目标 基于已经做好的DW,利用SSAS实现一个多维数据模型的创建,通过浏览可以简单的实现订单数据的分析 2:步骤 2.1:添加数据源 如下图所示,创建一个数据仓库层的数据源连接 2.2:添加数据源 ...

  10. Dubbo-Fail to decode request due to: RpcInvocation

    使用Dubbo进行服务化,遇到如下错误: Caused by: com.alibaba.dubbo.remoting.RemotingException: Fail to decode request ...