Hadoop源码解析之: HBase Security

文不打算对这部分代码进行全面的解读，而是先对几个主要类的职能进行概述，然后再罗列一些有价值的重要细节。

第一部分：HBase Security 概述

HBase Security主要是基于User和User Group（Role）对表（或是更粒度的Family、Qualifer）进行安全检查（目前HBase Security暂不支持基于行的安全检查，但后续版本中会追加进来）。在authentication方面，它主要是通过Kerberos来完成的。这部分不是HBase Security实现的重点，HBase Security的大部分代码时在解决authorization的问题，也就是根据用户权限判定其是否有权访问某项资源。

HBase Security主要有这样几个重要的类：

org.apache.hadoop.hbase.security.access.AccessController

这是对所有访问进行拦截的入口，它既是MasterObserver又是RegionObserver，言下之意，它能拦截所有的操作。

org.apache.hadoop.hbase.security.access.AccessControlLists

这是专门负责对Permission进行读写（包括数据库和ZooKeeper）操作的类，你可以认为这一个DAO或是Repository

org.apache.hadoop.hbase.security.access.TableAuthManager

这是负责对用户进行权限检查的类，它主要有多个重载的authorize方法组成。同时，由于这个类的实例cache了所用的permission，因此它还有一些借助ZKPermissionWatcher进行同步本地与ZooKeeper数据的工作。

org.apache.hadoop.hbase.security.access.ZKPermissionWatcher

这是一个专门监视_acl_节点的一个ZooKeeper的Watcher. HBase Security在设计上为了考虑性能，会把所有的permission加载到内存中，但是如果permission发生变化，各节点需要同步这些变化，因此将所有的permission写入到ZooKeeper，然后再通过一个实时监控和更新permission。而ZKPermissionWatcher就是这负责这项工作的。

补充一句：从代码上看，TableAuthManager和ZKPermissionWatcher两个类耦合过于紧密，彼此互为对方的field. 此处的设计并不好，其实可以将两者合二为一，让TableAuthManager实现ZooKeeperListener。

第二部分：若干重要细节

以下是一些有价值的细节问题，有关于配置部署的，有关于代码实现的。

1. 打开安全检查的方式是注册一些安全相关的coprocessor, 具体做法是在所有节点的hbase-site.xml中加入以下内容重启集群, 其中指定rpc engine为SecureRpcEngine

是因为该引擎能传递remote client传递的用户凭证(如用户名..),安全检查是以用户提供的凭证为基础进行的.

<property>

      <name>hbase.rpc.engine</name>

      <value>org.apache.hadoop.hbase.ipc.SecureRpcEngine</value>

 </property>

 <property>

      <name>hbase.coprocessor.master.classes</name>

     <value>org.apache.hadoop.hbase.security.access.AccessController</value>

 </property>

 <property>

      <name>hbase.coprocessor.region.classes</name>

      <value>org.apache.hadoop.hbase.security.token.TokenProvider,org.apache.hadoop.hbase.security.access.AccessController</value>

</property>

2. 打开安全机制前,最好指定一个superuser, 否则在刚打开安全机制时,_acl_表为空,意味着任何用户都无法从事任何操作,所以需要使用superuser来为用户分配权限.指定superuser的方法是在hbase-site.xml中加入:

 <property>

    <name>hbase.superuser</name>

    <value>superuser-accout: such as root</value>

 </property>

3. 表的owner,也就是建表账户将自动拥有对该表的所有操作权限:RWXCA. 参见方法:

org.apache.hadoop.hbase.security.access.RowBasedAccessController.postCreateTable(...)

4. 用户或组的权限可以指定到 <table> <column family> <column qualifier> 三种不同的层次（粒度）上. 通过试验表明, 下层权限会自动继承上层权限!,.如给一个sample表R的权限,column family:cf也是R的权限,而qualifier:q是W的权限,那么用户即能读取也能写入cf:q.

5. 紧接第4点，考虑一种更为复杂的情况：

假定sample表有100个qualifier, 100个qualifier分属多个family,假定没有指定sample表级别的读权限，但是通过对多个family和family下的qualifier设定读权限，其中80个qualifier已经具备了读权限，那么，当该用户执行scan 'sample' 操作时，结果会如何呢？通过试验表明，所有具备读权限的qualifier都列出了，所有没有读权限的qualifier都被过滤掉了。这是一种合理的处理方式，而关于这部分的处理逻辑是通过在权限检查时通过
org.apache.hadoop.hbase.security.access.AccessControlFilter进行过滤实现的。这个Filter其实也非常简单，它是主要是通过
org.apache.hadoop.hbase.security.access.TableAuthManager.authorize(User, byte[], KeyValue, Action)进行最细度（精确的 qualifier)的检查，只有确定有权读写的qualifier才会通过检查，否则就被过滤掉。

6. Permission的Class Hierarchy:

Permission (包含了Action)

        |

        |--TablePermission (又包含了table,family,qualifier)

                    |

                    |--UserPermission(又包含了user)

7. 关于 cache:

AccessController在初始化的时候会load所有的permission,然后写到zookeeper里.参考:org.apache.hadoop.hbase.security.access.AccessController.initialize(RegionCoprocessorEnvironment)

同时, 一个ZooKeeper的监听器ZKPermissionWatcher会关注 ZooKeeper的任何变化,当Permission数据写入zookeeper时,方法org.apache.hadoop.hbase.security.access.ZKPermissionWatcher.nodeDataChanged(String)

会被触发,这个方法会负责把前面刚刚写入的Perssmion加载到缓存里!

Cache分为两类: 表级Cache和全局Cache. 表级Cache是一个以表名为Key,以这个表对应的<用户,权限>对为Value的Map, 而全局Cache 是指那些不针对某个具体表的全局Permission, 所以它的结构是一个<用户,权限>对组成的map. 关于全局Cache一个重要的细节是: 很显然, 所有的superuser是应该放在全局cache里,而且应被赋予所有权限.(参考:org.apache.hadoop.hbase.security.access.TableAuthManager.initGlobal(Configuration))

表级Cache:

TABLE_USER_CACHE: Map<TableName,Map<UserName,Permission>>
TABLE_GROUP_CACHE: Map<TableName,Map<UserName,Permission>>

全局Cache:

USER_CACHE:Map<USerName,Permission>
GROUP_CACHE: Map<TableName,Map<UserName,Permission>>

cache隶属于一个TableAuthManager实例, 而TableAuthManager是一个管理多个自身实例的单态, 它维护一个全局的map,这个map里一个ZooKeeperWatcher实例对应一个它的实例. 参考:org.apache.hadoop.hbase.security.access.TableAuthManager.get(ZooKeeperWatcher, Configuration)

8. ZooKeeperListener的典型应用案例:ZKPermissionWatcher

security的一个设计需求是:,所有region和master对应的coprocessor所依赖的authManager都需要加载所有的permission到cache里,通过内存中permission实例进行权限检查. security的实现方式是:当_acl_表对应的region open的时候,加载所有的permission(参考AcessController(L720-L723),当所有的permission加载之后,就把它们再写到zookeeper节点上,参考
org.apache.hadoop.hbase.security.access.AccessController.initialize(RegionCoprocessorEnvironment).

而由于所有的 authManager 实例都含有一个ZKPermissionWatcher,这是一个ZooKeeperListener, 当zookeeper节点上的数据发生变化时,这个watcher的nodeCreated方法会被触发,进而重新加载permission数据!

9. 关于AccessController和TableAuthManager与ZooKeeperWatcher的实例数量

对于AccessController来说,做为MasterObserver时, 会创建一个实例.作为BaseRegionObserver来说, 一个region(不是region server)会创建一个是实例!而TableAuthManager与ZooKeeperWatcher的实例是一一对应的,参考:

org.apache.hadoop.hbase.security.access.TableAuthManager.get(ZooKeeperWatcher, Configuration)

而ZooKeeperWatcher的实例自来于Master或Region启动( MasterObserver 的start方法和BaseRegionObserver的postOpen)时从MasterServices或RegionServerServices中取得的ZooKeeper的实例!而这个ZooKeeper实例是一个server(node)对应一个. 所以对于同一个regionserver上的所有region,引用的是同一个zookeeper实例.

Hadoop源码解析之: HBase Security的更多相关文章

Hadoop源码解析之: TextInputFormat如何处理跨split的行
我们知道hadoop将数据给到map进行处理前会使用InputFormat对数据进行两方面的预处理: 对输入数据进行切分,生成一组split,一个split会分发给一个mapper进行处理. 针对每个 ...
Hadoop源码解析 1 --- Hadoop工程包架构解析
1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台.Google的大牛们用了下面5篇文章,介绍了它们的计算设施. GoogleCluster: http:// ...
Hadoop源码解析之 rpc通信 client到server通信
rpc是Hadoop分布式底层通信的基础,无论是client和namenode,namenode和datanode,以及yarn新框架之间的通信模式等等都是采用的rpc方式. 下面我们来概要分析一下H ...
Spring Security 访问控制源码解析
上篇 Spring Security 登录校验源码解析分析了使用Spring Security时用户登录时验证并返回token过程,本篇分析下用户带token访问时,如何验证用户登录状态及权限问 ...
Spring Security 解析(七) —— Spring Security Oauth2 源码解析
Spring Security 解析(七) -- Spring Security Oauth2 源码解析在学习Spring Cloud 时,遇到了授权服务oauth 相关内容时,总是一知半解,因 ...
Spring Security源码解析一：UsernamePasswordAuthenticationFilter之登录流程
一.前言 spring security安全框架作为spring系列组件中的一个,被广泛的运用在各项目中,那么spring security在程序中的工作流程是个什么样的呢,它是如何进行一系列的鉴权和 ...
zookeeper集群搭建及Leader选举算法源码解析
第一章.zookeeper概述一.zookeeper 简介 zookeeper 是一个开源的分布式应用程序协调服务器,是 Hadoop 的重要组件. zooKeeper 是一个分布式的,开放源码的分 ...
Flink 源码解析 —— 源码编译运行
更新一篇知识星球里面的源码分析文章,去年写的,周末自己录了个视频,大家看下效果好吗?如果好的话,后面补录发在知识星球里面的其他源码解析文章. 前言之前自己本地 clone 了 Flink 的源码,编 ...
Flink 源码解析 —— 深度解析 Flink 是如何管理好内存的？
前言如今,许多用于分析大型数据集的开源系统都是用 Java 或者是基于 JVM 的编程语言实现的.最着名的例子是 Apache Hadoop,还有较新的框架,如 Apache Spark.Apach ...

随机推荐

LeeCode(Database)-Duplicate Emails
Write a SQL query to find all duplicate emails in a table named Person. +----+---------+ | Id | Emai ...
关于Oracle SQL/82标准和SQL/92标准
在ORACLE9i之前,oracle语法基础是SQL/86标准,9i及之后的版本中支持SQL/92标准.基表信息:products.purchases和product_types SQL> se ...
jQuery中$.getJSON的返回值问题
在使用$.getJSON获得数据库的返回值后,想将该值return传给其他函数.结果遇到问题. $.getJSON(url, data, function(result) { return resul ...
Python 初学
一. 前言不怕各位园友笑话,今年年初时,我才知道有一个叫python的编程语言,听说它很大强大,而我只会用c#,正想好好再学一门新语言,还有人分享自己的经验时说,使用python制作的脚本,再做持续 ...
ios 项目被拒绝各种理由
. Terms and conditions(法律与条款) 1.1 As a developer of applications for the App Store you are bound by ...
SpringMVC(一) —— 入门
SpringMVC原理图: 步骤: 首先用户发送请求.——>DispatcherServlet,前端控制器收到请求后自己不进行处理,而是委托给其他的解析器进行处理,作为统一访问点,进行全局的流程 ...
AngularJS 深入理解 $scope 转载▼
AngularJS 深入理解 $scope 转载▼ (2015-04-07 14:09:50) $scope 的使用贯穿整个 AngularJS App 应用,它与数据模型相关联,同时也是表达 ...
RecyclerView实现ViewPager效果
RecyclerView实现ViewPager效果,以及横向的ListView效果.效果图如下: Github: https://github.com/hpu-spring87/recyclervie ...
海康SDK编程指南(C#二次开发版本)
海康SDK编程指南目前使用的海康SDK包括IPC_SDK(硬件设备),Plat_SDK(平台),其中两套SDK都需单独调用海康播放库PlayCtrl.dll来解码视频流,返回视频信息和角度信息.本文 ...
NPOI导出多张图片到Excel
常用NPOI导出数据到excel,但没有试过如何导出图片.NPOI最大的特点就是不依赖于Excel组件,服务端不需要安装Excel.在单元格中插入图片主要是用HSSFClientAnchor对象.他有 ...

Hadoop源码解析之: HBase Security

Hadoop源码解析之: HBase Security的更多相关文章

随机推荐

热门专题