早在今年的上半年我应邀参加了由 Smartbi 主办的一个小型数据分析交流活动,在活动现场第一次了解到了民生银行的阿拉丁项目.由于时间关系,嘉宾现场分享的内容非常有限.凭着多年对行业研究和对解决方案的嗅觉与敏感性,意识到这个阿拉丁项目的完整性和独特性超出了以往我所接触过的所有 BI 领域的项目案例,很值得再次深入的探讨.学习与研究.对于很多公司在建设自身的 BI 或者大数据平台体系上,这个项目案例有很好的参考与借鉴意义.(另外一个我个人比较推崇的大数据建设的案例是美的的大数据平台建设案例.) 在…
Hadoop原理 分为HDFS与Yarn两个部分.HDFS有Namenode和Datanode两个部分.每个节点占用一个电脑.Datanode定时向Namenode发送心跳包,心跳包中包含Datanode的校验等信息,用来监控Datanode.HDFS将数据分为块,默认为64M每个块信息按照配置的参数分别备份在不同的Datanode,而数据块在哪个节点上,这些信息都存储到Namenode上面.Yarn是MapReduce2,可以集成更多的组件,如spark.mpi等.MapReduce包括Job…
Ambari介绍1Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应.管理和监控.Ambari已支持大多数Hadoop组件,包括HDFS.MapReduce.Hive.Pig. Hbase.Zookeper.Sqoop和Hcatalog等. Apache Ambari 支持HDFS.MapReduce.Hive.Pig.Hbase.Zookeper.Sqoop和Hcatalog等的集中管理.也是5个顶级hadoop管理工具之一. 建议需对hadoop生态圈…
1.容器里面安装spark,外面的程序(安装spark主机的容器)会连接不上集群.理由:这个组件用的akka,连接上集群,会提示: akka.ErrorMonitor: dropping message [class akka.actor.ActorSelectionMessage] for non-local recipient [Actor[akka.tcp://sparkMaster@localhost:50071/]] arriving at [akka.tcp://sparkMaste…
一.Hbase 1. HBase shell窗口进入 执行hbase shell 2. HBase表的创建 # 语法:create <table>, {NAME => <family>, VERSIONS => <VERSIONS>}# 例如:创建表user,有两个family name:id,f2,且版本数前者为3,后者为1 hbase(main)> create 'user',{NAME => 'id', VERSIONS => 3},…
启动 /opt/cm-5.14.0/etc/init.d/clouder-scm-server start /opt/cm-5.14.0/etc/init.d/clouder-scm-agent start…
版本信息 <version.hbase>2.1.0-cdh6.2.1</version.hbase> <version.hadoop>3.0.0-cdh6.2.1</version.hadoop> <version.hive.jdbc>2.1.1-cdh6.2.1</version.hive.jdbc> HDFS访问 private Configuration createHDFSConfiguration(String cluste…
1.1.启动集群 sbin/start-dfs.sh注:这个启动脚本是通过ssh对多个节点的namenode.datanode.journalnode以及zkfc进程进行批量启动的. 1.2.启动NameNode sbin/hadoop-daemon.sh start namenode1.3.启动DataNode sbin/hadoop-daemon.sh start datanode1.4. 启动 MR的HistoryServer sbin/mr-jobhistory-daemon.sh st…
在都是开源组件的前提下,一般需要我们多关注到组件和插件的版本和类型选择. 参考 https://zhuanlan.zhihu.com/p/370263573 https://www.bookstack.cn/read/prestodb-0.275-en/3a348d99bfaf1023.md   Ranger HIVE-PLUGIN SPARK-PLUGIN  PRESTO-PLUGIN 版本 建议2.1.0及以上 2.0版本的问题较多 使用自带的插件 ranger-2.1.0-hive-plu…
2016-07-29 14:13:23 钱曙光 阅读数 794 原文链接:https://blog.csdn.net/qiansg123/article/details/80124521 声明:本文为作者在CSDN技术公开课的分享原创整理,未经许可,禁止转载. 作者:郭炜,易观CTO,毕业于北京大学,曾任联想大数据总监.万达电商数据部总经理,曾在中金.IBM.Teradata公司担任大数据方向重要岗位.在智能硬件以及大数据分析领域具有丰富的理论和实践经验. 责编:钱曙光,关注架构和算法领域,寻求…