hadoop意外之旅－－巧合遇到一只大象

公司面临转型,所有开发也难免面临转型,开始选择自己想要走的方向进行研究. 说来也巧合,最近正好说搭个hadoop环境玩玩,结果遇到转型还被选为大数据小组组长.(尴尬) 开始一场遇到大象之旅,希望能在这条路上走得更远虽然还在入门,but,你有网络,你有论坛,还有什么找不到呢!…

本文基于Hadoop1.X 概述分布式文件系统主要用来解决如下几个问题: 读写大文件加速运算对于某些体积巨大的文件,比如其大小超过了计算机文件系统所能存放的最大限制或者是其大小甚至超过了计算机整个硬盘的容量的文件,这时需要将文件分割为若干较小的块,然后将这些块按照一定的规则分放在集群中若干台节点计算机里. 分布式文件系统的另一个作用是加速运算,在多台计算机上对每个子文件进行计算最后再汇总结果通常比在一台计算机上处理大量文件的运算要块.这种分而治之的思想倡导:与其追求造价昂贵的高性能计算机,…

Hadoop学习之旅三：MapReduce

MapReduce编程模型在Google的一篇重要的论文MapReduce: Simplified Data Processing on Large Clusters中提到,Google公司有大量的诸如Web请求日志.爬虫抓取的文档之类的数据需要处理,由于数据量巨大,只能将其分散在成百上千台机器上处理,如何处理并行计算.如何分发数据.如何处理错误,所有这些问题综合在一起,需要大量的代码处理,因此也使得原本简单的运算变得难以处理. 为了解决上述复杂的问题,Google设计一个新的抽象模型,使用这…

Hadoop学习之旅一：Hello Hadoop

开篇概述随着计算机网络基础设施的完善,社交网络和电商的发展以及物连网的推进,产生了越来越多的大数据,使得人工智能最近几年也有了长足的发展(可供机器学习的样本数据量足够大了),大数据的存储和处理也越来越重要,国家对此也比较重视(可上网搜索关键字"大数据白皮书"关键字,以了解详细情况),会长决定和年轻人也一块儿学习一下,于是报了网易云课堂的课程,不定时将学习到的东西整理为博客,此乃开篇. 学习大数据必先学习Hadoop,因为它是目前世界上最流行的分布式数据处理框架. Tips:所谓大数据…

hadoop学习之旅2

集群搭建文档1.0版本 1. 集群规划所有需要用到的软件: 链接:http://pan.baidu.com/s/1jIlAz2Y 密码:kyxl 2.0 系统安装 2.1 主机名配置 vi /etc/sysconfig/network NETWORKING=yes vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=ys02 vi /etc/sysconfig/network NETWORKING=yes vi /etc/sysconfig/ne…

hadoop学习之旅1

大数据介绍大数据本质也是数据,但是又有了新的特征,包括数据来源广.数据格式多样化(结构化数据.非结构化数据.Excel文件.文本文件等).数据量大(最少也是TB级别的.甚至可能是PB级别).数据增长速度快等. 针对以上主要的4个特征我们需要考虑以下问题: 数据来源广,该如何采集汇总?,对应出现了Sqoop,Cammel,Datax等工具. 数据采集之后,该如何存储?,对应出现了GFS,HDFS,TFS等分布式文件存储系统. 由于数据增长速度快,数据存储就必须可以水平扩展. 数据存储之后,该如何…

Leecode刷题之旅-C语言/python-136只出现一次的数字

/* * @lc app=leetcode.cn id=136 lang=c * * [136] 只出现一次的数字 * * https://leetcode-cn.com/problems/single-number/description/ * * algorithms * Easy (59.12%) * Total Accepted: 48.6K * Total Submissions: 82.2K * Testcase Example: '[2,2,1]' * * 给定一个非空整数数组,除…

CCA Spark and Hadoop 开发者认证技能点【2016只为hadoop达到巅峰】

Required Skills 技能要求: Data Ingest 数据消化: The skills to transfer data between external systems and your cluster. This includes the following: 在外部系统和集群之间转移数据的技能,包括以下几个: Import data from a MySQL database into HDFS using Sqoop 使用sqoop将数据从mysql导入HDFS Expor…

fatal error C1859 意外的预编译头错误,只需重新运行编译器(转)

微软的建议要解决此问题,请使用下列方法之一. http://support.microsoft.com/kb/976656/zh-cn 方法 1 禁用/analyze编译器选项,则它会被启用. 方法 2 开始清理生成. 方法 3 重新启动计算机. 方法 4 禁用创建/使用预编译头的编译器选项. 注意这些方法不能保证正常工作.即使您使用这些方法之一,您可能仍会遇到此问题. 我的解决方案,生成 ->仅用于项目->仅清理生成->清理解决方案, 生成 ->清理项目…

Hadoop学习笔记—11.MapReduce中的排序和分组

一.写在之前的 1.1 回顾Map阶段四大步骤首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排序和分组,默认情况下,是按照key进行排序和分组. 1.2 实验场景数据文件在一些特定的数据文件中,不一定都是类似于WordCount单次统计这种规范的数据,比如下面这类数据,它虽然只有两列,但是却有一定的实践意义. 3 3 3 2 3 1 2 2 2 1 1 1 (1)如果按照第一列升序排列,当…