前言 2016年,Hadoop迎来了自己十周岁生日.过去的十年,Hadoop雄霸武林盟主之位,号令天下,引领大数据技术生态不断发展壮大,一时间百家争鸣,百花齐放.然而,兄弟多了不好管,为了抢占企业级市场,各家都迭代出自己的一套访问控制体系,不管是老牌系统(比如HDFS.HBase),还是生态新贵(比如Kafka.Alluxio),ACL(Access Control List)支持都是Roadmap里被关注最高的issue之一. 历史证明跳出混沌状态的最好方式就是--出台标准.于是,Hadoop…
介绍 Aapche Ranger是以插件的形式集成到HDFS中,由Ranger Admin管理访问策略,Ranger插件定期轮询Admin更新策略到本地,并根据策略信息进行用户访问权限的判定.Ranger集成HDFS的架构图如下: Ranger对HDFS访问控制的实现原理 HDFS本身是有访问控制机制的,即在身份认证机制之后通过查询ACLs来对用户的权限检查,该权限检查的实现代码是INodeAttributeProvider抽象类中接口AccessControlEnforcer的checkPer…
Hadoop生态圈-Ranger数据安全管理框架 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Ranger简介 Apache Ranger是一款被设计成全面掌握Hadoop生态系统的数据安全管理框架.它为Hadoop生态系统中众多的组件提供了一个统一的数据授权和管理界面.使得系统管理员只需面对Ranger一个系统,就能对Hadoop整个生态体系进行数据授权,数据管理与审计.详情请参考官网:http://ranger.apache.org/index.html. Rang…
Apache Hadoop 和Hadoop生态圈 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户能够在不了解分布式底层细节的情况下.开发分布式程序.充分利用集群的威力进行快速运算和存储. Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS. HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上.并且它提供高吞吐量(high throughput)来訪问应用程序的数据,适合那些有着超大…
原文地址:大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍   1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储. 具有可靠.高效.可伸缩的特点. Hadoop的核心是YARN,HDFS和Mapreduce 下图是hadoop生态系统,集成spark生态圈.在未来一段时间内,hadoop将于spark共存,hadoop与spark 都能…
Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储. 具有可靠.高效.可伸缩的特点. Hadoop的核心是YARN,HDFS和Mapreduce 下图是hadoop生态系统,集成spark生态圈.在未来一段时间内,hadoop将于spark共存,hadoop与…
Hadoop生态圈-单点登录框架之CAS(Central Authentication Service)部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.CAS简介 CAS(Central Authentication Service)是一款十分流行的单点登录框架.单点登录(Single Sign On,SSO)是服务于惬意业务整合的解决方案之一,SSO使得在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统. CAS从架构上粉我饿CAS Server和…
Hadoop生态圈-构建企业级平台安全方案 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 能看到这篇文章的小伙伴,估计你对大数据集群的部署对于你来说应该是手到擒来了吧.我之前分享过关于“离线方式部署Cloudera Manager5.15.1”和“离线方式部署Ambari2.6.0.0”的笔记.不管你的集群是使用CDH还是HDP亦或是使用的Apache Hadoop部署的,但是这样一套出事状态的服务只能被成为学习或者实验环境,他们还不足以担当起企业级大数据平台的重任.为什么这…
Hadoop生态圈-Zookeeper的工作原理分析 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.   无论是是Kafka集群,还是producer和consumer都依赖于Zookeeper集群保存一些mate信息,来保证系统可用性!这个特点会产生一个现象,即会产生大量的网络IO,所以说在企业生产环境中会单独开3到5台集群,这三台集群什么都不干,只开Zookeeper集群.所以说Zookeeper开放的节点一定要开网络监控告警,这是一个大数据运维的基本功! 一.Zookee…
Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储. 具有可靠.高效.可伸缩的特点. Hadoop的核心是YARN,HDFS和Mapreduce. 下图是hadoop生态系统,集成spark生态圈.在未来一段时间内,hadoop将于spark共存,hadoop…