准备主机 准备3台主机,名称作用如下: 昵称 Fully Qualified Domain Name IP 作用 Ubuntu-Parrot head1.parrot 192.168.9.126 Ambari控制中心,头结点(辅助) Ubuntu-Laiothrix head0.parrot 192.168.9.127 头节点(主) Ubuntu-Siskin data0.parrot 192.168.9.128 数据节点 使用hostname <fully.qualified.domain.n…
系列目录 写在前面 从Hadoop出现至今,大数据几乎就是Java平台专属一般.虽然Hadoop或Spark也提供了接口可以与其他语言一起使用,但作为基于JVM运行的框架,Java系语言有着天生优势.而且能找到的与大数据框架如Hadoop等使用介绍的文章也都以Java语言作为示例居多.许多C#er为了转投大数据怀抱也开始学习Java.微软为了拥抱大数据在这方面也做了许多,提供了一些工具及库使C#可以更好的与Hadoop等协同工作.本系列中我们一同学习如何以我们熟悉语言来使用Hadoop等大数据平…
在进行HDInsight的开发测试之前,搭建一个测试环境是很重要的. 由于微软与Hortonworks合作开发了HDInsgiht,如果不方便建立Azure账号使用Azure HDInsight进行开发测试(土豪可以直接选择使用Azure,的确很方便,不过HDInsight按分钟计费,走的都是真金白银),我们可以选择使用Hortonworks HDP作为本地开发测试环境.Hortonworks很人性化的提供了HDP SandBox方便本地测试环境的搭建,所提供的SandBox有三种格式,分别为V…
Azure平台提供了几乎全线产品的API,可以使用第三方工具来进行管理.对于.NET更是提供封装好了的库方便使用C#等语言实现Azure的管理. 我们使用创建HDInsight集群为例来介绍使用C#管理Azure. 由于HDInsight是按照集群存在的小时收费,所以对于集群的使用都是使用时创建,使用完成立马删除.删除比较好说,Azure Portal点一下按钮并确认就可以了.而创建就需要我们一步步的进行选择.如果我们需要定制集群的属性较多,一步步的选择不但麻烦还容易出错.而使用Azure Ma…
从今天开始,我就正式的走上大数据的道路了,如果说我为啥要去学习大数据,可能我的初衷是以后可以接触到人工智能方面的技术,后来在自学的过程中发现,学习人工智能,需要扎实的算法,以及对大量数据的处理,再者,渐渐的我想先系统的学习以下大数据这块的知识,从Java环境搭建到最后的机器学习,到深度学习,一步一个脚印的去实现,只有把基础打好了,后面的露才会好走,谁也不可能一口吃成胖子.马云的成功,在我看来,他发现了未来技术成长曲线,坚持自己想法,并与之去实现.从一开始的无人问津到后来的一个小举动引到各大媒体的…
今天我们就来学习一下maven,怎么说呢,maven更像是一种管理的工具,实现的原理是使用插件. 举个例子,比如说,一个公司需要做一个项目,这个项目又分成了很多的模块,每个模块又分成了许多的业务等等,这些需要许许多多的小组进行进行,最后再进行整合. 那么,就有一个很大的问题,IT技术发展这么快的时代里,每个人使用的jar包版本,使用的软件版本,等等,如果不一样的话,就算单个小模块可以进行,一旦整合就会出现各种各样的问题,那么如何避免或者说,尽量的最大程度上减少这种情况发生呢? 那就要用到Mave…
大数据应用日志采集之Scribe 安装配置指南 大数据应用日志采集之Scribe 安装配置指南 1.概述 Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用.它能从各种日志源收集日志,存储到一个中央存储系统上,便于进行集中统计分析处理.它为日志的”分布式收集,统一处理”提供了一个可扩展的,高容错的方案.scribe代码很简单,但是安装配置却很复杂,本文记录了作者实际的一次安装的过程,感觉真是不一般的琐碎,另外Scribe开源社区的版本已经是几年前的版本了,…
相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础软件的安装 CentOS6安装各种大数据软件 第四章:Hadoop分布式集群配置 CentOS6安装各种大数据软件 第五章:Kafka集群的配置 CentOS6安装各种大数据软件 第六章:HBase分布式集群的配置 CentOS6安装各种大数据软件 第七章:Flume安装与配置 CentOS6安装各…
什么是MapReduce 你想数出一摞牌中有多少张黑桃.直观方式是一张一张检查并且数出有多少张是黑桃. MapReduce方法则是: 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几张是黑桃,几张是红桃,然后把这两组数目汇报给你 3.你把所有玩家告诉你的两组数字分别加起来,得到最后的结论 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个…
从这节开始,进入对I/O流的系统学习,I/O流在往后大数据的学习道路上尤为重要!!!极为重要,必须要提起重视,它与集合,多线程,网络编程,可以说在往后学习或者是工作上,起到一个基石的作用,没了地基,房屋就算盖起来,风一吹就倒. 好了,废话不多说,进入正题:在学习I/O流之前,我们先掌握什么是异常和File 1.先看看异常的分类: 图1 异常的分类 从上图我们不难看出来,异常主要分为三大类:Error    Exception    RuntimeException 有朋友就要问了,上来就给我搞这…