[Hadoop入门] - 1 Ubuntu系统 Hadoop介绍 MapReduce编程思想

Ubuntu系统 (我用到版本号是140.4)

ubuntu系统是一个以桌面应用为主的Linux操作系统，Ubuntu基于Debian发行版和GNOME桌面环境。Ubuntu的目标在于为一般用户提供一个最新的、同时又相当稳定的主要由自由软件构建而成的操作系统，它可免费使用，并带有社团及专业的支持应。

作为Hadoop大数据开发测试环境，建议大家不要在windows上安装CgyWin来学习或研究，直接用Vmware+ubuntu来学习。

下载 www.vmware.com这里下载vmware， www.ubuntu.com这里下载ubuntu。

Hadoop介绍(我用到版本号是1.2.1)

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

MapReduce编程思想

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，和它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。

Hadoop能做什么？

很多人或许没接触过大量数据的开发，例如一个网站日访问量达几千万以上，网站服务器会产生大量的各种日志，某天上班老板问我想要统计一下什么区域的人访问网站最多，具体数据大概是多少？我曾经在一个Hadoop群里提问过，很多人说我写个程序就能实现，有人说我自己写一个分布式的系统来专门计算。能自己写一个出来当然能证明你的能力，但某一天老板又问我想知道什么年龄段的人访问最多，难道又写一个分布式的系统来计算？这是浪费人力物力的事情。而且就算写得很完美，也没经过市场用户的考查，存在不确定性。 hadoop就完全可以帮你实现各方面的问题，自己只需要编写一些特定的java业务流程代码就可以，稳定又可以不断的随着业务与数据的增大而扩大。hadoop常用在数据统计方面，例如在几十G文件中统计某一个单词出现几次，在无数个数字当中查找最大的值，通过你的程序收集的日志统计出各方营销的数据，帮助你实现市场定位与推广方向。

[Hadoop入门] - 1 Ubuntu系统 Hadoop介绍 MapReduce编程思想的更多相关文章

hadoop入门手册1：hadoop【2.7.1】【多节点】集群配置【必知配置知识1】
问题导读 1.说说你对集群配置的认识?2.集群配置的配置项你了解多少?3.下面内容让你对集群的配置有了什么新的认识? 目的目的1:这个文档描述了如何安装配置hadoop集群,从几个节点到上千节点.为 ...
[转]Hadoop集群_WordCount运行详解--MapReduce编程模型
Hadoop集群_WordCount运行详解--MapReduce编程模型下面这篇文章写得非常好,有利于初学mapreduce的入门 http://www.nosqldb.cn/1369099810 ...
hadoop入门手册2：hadoop【2.7.1】【多节点】集群配置【必知配置知识2】
问题导读 1.如何实现检测NodeManagers健康?2.配置ssh互信的作用是什么?3.启动.停止hdfs有哪些方式? 上篇: hadoop[2.7.1][多节点]集群配置[必知配置知识1]htt ...
hadoop入门手册5：Hadoop【2.7.1】初级入门之命令：文件系统shell2
问题导读 1.改变hdfs文件的权限,需要修改哪个配置文件?2.获取一个文件的或则目录的权限,哪个命令可以实现?3.哪个命令可以实现设置访问控制列表(ACL)的文件和目录? 接上篇:Hadoop[2. ...
hadoop入门手册4：Hadoop【2.7.1】初级入门之命令：文件系统shell1
问题导读1.Hadoop文件系统shell与Linux shell有哪些相似之处?2.如何改变文件所属组?3.如何改变hdfs的文件权限?4.如何查找hdfs文件,并且不区分大小写? 概述文件系统 ( ...
hadoop入门手册3：Hadoop【2.7.1】初级入门之命令指南
问题导读1.hadoop daemonlog管理员命令的作用是什么?2.hadoop如何运行一个类,如何运行一个jar包?3.hadoop archive的作用是什么? 概述 hadoop命令被bin ...
大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...
[Hadoop入门] - 2 ubuntu安装与配置 hadoop安装与配置
ubuntu安装(这里我就不一一捉图了,只引用一个网址, 相信大家能力) ubuntu安装参考教程: http://jingyan.baidu.com/article/14bd256e0ca52eb ...
hadoop入门（1）——hadoop概述
一.hadoop生态系统特点开源.社区活跃.涉及分布式存储和计算的整个生态系统.已得到企业界验证. hadoop1.0与2.0版本的比较: 1.0包含HDFS+MapReduce. 2.0包括HDF ...

随机推荐

JZs3c2440学习笔记一
1.连线串口线usb-com,USB下载线 2.驱动安装 USB-serial, dnw的sec s3c2410x test驱动安装(win7下安装方法搜索:百问网WIN7,64,dnw) 3.烧 ...
IQ一个人的智力和对科学知识的理解掌握程度。 EQ对环境和个人情绪的掌控和对团队关系的运作能力。 AQ挫折商一个人面对困境时减除自己的压力、渡过难关的能力。
IQ: Intelligence Quotient 智商一个人的智力和对科学知识的理解掌握程度. EQ: Emotional Quotient 情商一个人对环境和个人情绪的掌控和对团队关系的运作能 ...
mysql 选择性高
选择性高是指能够过滤掉更多不需要的记录.举例来说,在一个公司里,使用性别只能过滤掉一半的人,而使用姓名一般可以过滤掉99%以上的人,因为会有重名情况,而使用员工号,选出一个,其他的全部过滤掉.也就是说 ...
十种JAVA排序算法实例
一.冒泡(Bubble)排序复制代码代码如下: void BubbleSortArray() { for(int i=1;i<n;i++) { for ...
python一个注意的地方
https://www.zhihu.com/question/25874136 class test: l=[] def init(self): self.l=['1','2','7'] a1=tes ...
Android5.0新控件CardView的介绍和使用
CardView也是5.0的新控件,这控件其实就是一个卡片啦,当然我们自己也完全可以定义这样一个卡片,从现在的微博等社App中可以看到各式各样的自定义卡片,所以这个控件意义不是很大.suppor ...
Android开发面试经——4.常见Android进阶笔试题（更新中...）
Android开发(29) 版权声明:本文为寻梦-finddreams原创文章,请关注:http://blog.csdn.net/finddreams 关注finddreams博客:http:/ ...
mybatis动态SQL中的set标签的使用
set标记是mybatis提供的一个智能标记,我一般将其用在修改的sql中,例如以下情况: <update> update user <set> <if test=&qu ...
jackson annotations注解详解 (zhuan)
http://blog.csdn.net/sdyy321/article/details/40298081 ************************************** 官方WIKI: ...
检测到在集成的托管管道模式下不适用的 ASP.NET 设置。
 <system.webServer> <validation validateIntegratedModeConfigura ...

[Hadoop入门] - 1 Ubuntu系统 Hadoop介绍 MapReduce编程思想

[Hadoop入门] - 1 Ubuntu系统 Hadoop介绍 MapReduce编程思想的更多相关文章

随机推荐

热门专题