在进行HDInsight的开发测试之前,搭建一个测试环境是很重要的. 由于微软与Hortonworks合作开发了HDInsgiht,如果不方便建立Azure账号使用Azure HDInsight进行开发测试(土豪可以直接选择使用Azure,的确很方便,不过HDInsight按分钟计费,走的都是真金白银),我们可以选择使用Hortonworks HDP作为本地开发测试环境.Hortonworks很人性化的提供了HDP SandBox方便本地测试环境的搭建,所提供的SandBox有三种格式,分别为V…
系列目录 写在前面 从Hadoop出现至今,大数据几乎就是Java平台专属一般.虽然Hadoop或Spark也提供了接口可以与其他语言一起使用,但作为基于JVM运行的框架,Java系语言有着天生优势.而且能找到的与大数据框架如Hadoop等使用介绍的文章也都以Java语言作为示例居多.许多C#er为了转投大数据怀抱也开始学习Java.微软为了拥抱大数据在这方面也做了许多,提供了一些工具及库使C#可以更好的与Hadoop等协同工作.本系列中我们一同学习如何以我们熟悉语言来使用Hadoop等大数据平…
准备主机 准备3台主机,名称作用如下: 昵称 Fully Qualified Domain Name IP 作用 Ubuntu-Parrot head1.parrot 192.168.9.126 Ambari控制中心,头结点(辅助) Ubuntu-Laiothrix head0.parrot 192.168.9.127 头节点(主) Ubuntu-Siskin data0.parrot 192.168.9.128 数据节点 使用hostname <fully.qualified.domain.n…
Azure平台提供了几乎全线产品的API,可以使用第三方工具来进行管理.对于.NET更是提供封装好了的库方便使用C#等语言实现Azure的管理. 我们使用创建HDInsight集群为例来介绍使用C#管理Azure. 由于HDInsight是按照集群存在的小时收费,所以对于集群的使用都是使用时创建,使用完成立马删除.删除比较好说,Azure Portal点一下按钮并确认就可以了.而创建就需要我们一步步的进行选择.如果我们需要定制集群的属性较多,一步步的选择不但麻烦还容易出错.而使用Azure Ma…
大数据测试之hadoop集群配置和测试   一.准备(所有节点都需要做):系统:Ubuntu12.04java版本:JDK1.7SSH(ubuntu自带)三台在同一ip段的机器,设置为静态IP机器分配:一台master,两台slave 主机信息是(hosts文件添加如下信息):192.168.88.123 h1192.168.88.124 h2192.168.88.125 h3其中第一项是内网IP ,第二项是主机名 各节点作用:h1:NameNode.JobTrackerh2:DataNode.…
相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础软件的安装 CentOS6安装各种大数据软件 第四章:Hadoop分布式集群配置 CentOS6安装各种大数据软件 第五章:Kafka集群的配置 CentOS6安装各种大数据软件 第六章:HBase分布式集群的配置 CentOS6安装各种大数据软件 第七章:Flume安装与配置 CentOS6安装各…
什么是MapReduce 你想数出一摞牌中有多少张黑桃.直观方式是一张一张检查并且数出有多少张是黑桃. MapReduce方法则是: 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几张是黑桃,几张是红桃,然后把这两组数目汇报给你 3.你把所有玩家告诉你的两组数字分别加起来,得到最后的结论 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个…
从这节开始,进入对I/O流的系统学习,I/O流在往后大数据的学习道路上尤为重要!!!极为重要,必须要提起重视,它与集合,多线程,网络编程,可以说在往后学习或者是工作上,起到一个基石的作用,没了地基,房屋就算盖起来,风一吹就倒. 好了,废话不多说,进入正题:在学习I/O流之前,我们先掌握什么是异常和File 1.先看看异常的分类: 图1 异常的分类 从上图我们不难看出来,异常主要分为三大类:Error    Exception    RuntimeException 有朋友就要问了,上来就给我搞这…
一.引言 5月8日,作为受邀嘉宾,参加了Intel与Cloudera在北京中国大饭店新闻发布会,两家公司宣布战略合作,该消息成为继Intel宣布放弃大数据平台之后的另外一个热点新闻.对于Intel的放弃早在预料之中,对于Intel与Cloudera合作也在意料之中,但是没有想到的是居然那么快.壮士断腕的Intel反倒让我看出几分勇气可嘉来,Cloudera的顺势而为,也被我所认同,Intel借助Cloudera的技术能力,Cloudera借用Intel的商务平台,然后彼此合作真的就能够成功?换句…
一.引言 基于Hive+Hadoop模式构建数据仓库,是大数据时代的一个不错的选择,本文以郑商所每日交易行情数据为案例,探讨数据Hive数据导入的操作实例. 二.源数据-每日行情数据 三.建表脚本 CREATE TABLE IF NOT EXISTS t_day_detail( id STRING, lastday FLOAT, today FLOAT, highest FLOAT, lowest FLOAT, today_end FLOAT, today_jisuan FLOAT, updow…