Ambari介绍1Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应.管理和监控.Ambari已支持大多数Hadoop组件,包括HDFS.MapReduce.Hive.Pig. Hbase.Zookeper.Sqoop和Hcatalog等. Apache Ambari 支持HDFS.MapReduce.Hive.Pig.Hbase.Zookeper.Sqoop和Hcatalog等的集中管理.也是5个顶级hadoop管理工具之一. 建议需对hadoop生态圈…
Hadoop生态圈-大数据生态体系快速入门篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.大数据概念 1>.什么是大数据 大数据(big data):是指无法在一定时间范围内用常规软件进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产. 大数据技术主要解决两个问题,即海量的存储和海量的数据的分析计算. 2>.数据存储单位介绍 按照顺序给出数据存储单位如:Bit,Byte,KB,MB,GB,T…
目前市场上常见的企业级大数据平台型的产品主流的有两个,一个是Cloudera公司推出的CDH,一个是Hortonworks公司推出的一套HDP,其中HDP是以开源的Ambari作为一个管理监控工具,CDH对应的是Cloudera Manager,国内也有像星环这种公司专门做大数据平台.我们公司最初是使用CDH的环境,近日领导找到我让我基于Ambari做一个公司自己的数据平台产品.最初接到这个任务我是拒绝的,因为已经有了很完善很成熟的数据平台产品,小公司做这个东西在我看来是浪费人力物力且起步太晚.…
    你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:14:39 作者:陈飚 “昔我十年前,与君始相识.” 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务. 2006年项目成立的一开始,“Hadoop…
为配合生产hadoop使用,在本地搭建测试环境,使用docker环境实现(主要是省事~),拉取阿里云已有hadoop镜像基础上,安装hive组件,参考下面两个专栏文章: 克里斯:基于 Docker 构建 Hadoop 平台 docker上从零开始搭建hadoop和hive环境 由于hadoop与hive等存在版本兼容问题,安装前可以先通过官网确认版本兼容情况: http://hive.apache.org/downloads.html 本次使用的各版本配置如下: Docker 19.03.8 J…
移动基于Percona XTRADB Cluster的大数据解决方式          一.移动的去IOE之旅      近期由于"棱镜门"事件的曝光.引起了国家对信息安全问题的注意.各大行业也开展起来去"IOE"的行动.对移动而言, 一方面是对信息安全的操心.还有一方面是对减少成本的考量.对开源体系架构的引入也成为一种现实的方案. 在互联网行业.MySQL的使用成为主流,但随着Oracle对Sun的收购,MySQL的控制权落入Oracle手中,对MySQL可能闭源…
Hadoop生态圈-Flume的组件之自定义Sink 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客主要介绍sink相关的API使用两个小案例,想要了解更多关于API的小技巧请参考官网:http://flume.apache.org/FlumeDeveloperGuide.html#client-sdk 一.自定义Sink的步骤 1>.编写自定义sink /* @author :yinzhengjie Blog:http://www.cnblogs.com/yinzh…
  Hadoop生态圈-Flume的组件之拦截器与选择器 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客只是配置的是Flume主流的Interceptors,想要了解更详细的配置信息请参考官网:http://flume.apache.org/FlumeUserGuide.html#flume-interceptors.   想必大家都知道Flume的组件有Source,channel和sink.其实在Flume还有一些更深层的东西,比如你知道soucre是如何将数据传…
摘要:2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,阿里巴巴高级技术专家吴永明为大家分享了MaxCompute,基于Serverless的高可用大数据服务,以及MaxCompute低计算成本背后的秘密. 以下内容根据演讲视频以及PPT整理而成. 一.什么是MaxCompute Big Data in Alibaba首先为大家介绍阿里巴巴大数据技术的一些相关背景.正如下图所示,阿里巴巴其实…
Hadoop使用ant+ivy组织工程,无法直接导入Eclipse中.本文将介绍如何基于Eclipse搭建Hadoop源码环境. 准备工作 本文使用的操作系统为CentOS.需要的软件版本:hadoop-1.0.4.jdk-1.6.0_43.ant-1.9.2.eclipse3.6. 安装与配置JDK 安装Eclipse 安装与配置Ant 下载Hadoop源码 以上工作就不细说了,这些没啥难度,注意要配置好jdk和ant的环境变量. 编译源码 进入hadoop项目的根目录,在bash中执行ant…