Hadoop集群上存储数据,同时基于MapReduce计算框架可以实现计算任务,那么无论是从数据保护的角度,还是从提交计算任务占用资源的角度来看,都需要存在一种权限管理与分配机制,能够很好地限制哪些人可以在HDFS上存储数据,哪些人可以利用集群的资源来处理特
Hadoop集群上存储数据,同时基于MapReduce计算框架可以实现计算任务,那么无论是从数据保护的角度,还是从提交计算任务占用资源的角度来看,都需要存在一种权限管理与分配机制,能够很好地限制哪些人可以在HDFS上存储数据,哪些人可以利用集群的资源来处理特定的计算任务。当然,如果能够非常完美地解决这些问题是最好的。当前Hadoop本身提供的权限管理功能还不能满足普遍的需要,或者我们从Hadoop已有的一些简单或复杂的认证机制选择适合自己所在组织机构需要的,或者我们在外围开发一些权限管理系统与Hadoop整合作为补充。
对比Kerberos认证(Authentication)配置方式与SLA授权(Service Level Authorization)方式,Kerberos配置相当复杂,而且还要依赖于外部的密钥分发中心KDC(Key Distribution Center)服务器,如果KDC出现问题,那么就会导致依赖于KDC认证的整个Hadoop集群无法使用,鉴于此,对于一些相对小的开发团队来说还是更倾向于粗粒度的Hadoop SLA授权机制。
Hadoop SLA基于Hadoop的各种服务(基于协议来划分)与Linux系统的用户、用户组来实现。Hadoop通过制定接口协议的方式来实现节点之间服务调用的逻辑,这样每一个协议所指定的一组服务就是一个认证单元,再基于底层Linux系统的用户和用户组来限制用户(可能是节点服务)有权限执行某一种协议所包含的操作集合,下面我们看一下Hadoop中的各种协议:
协议名称 | 范围 | 说明 |
ClientProtocol | HDFS | 用户代码基于DistributedFileSystem与NameNode交互,可以操作Hadoop的Namespace,以及打开/关闭文件流操作。 |
ClientDatanodeProtocol | HDFS | 客户端与DataNode交互协议,用来实现数据库恢复(Block Recovery)。 |
DatanodeProtocol | HDFS | DataNode与NameNode通信的协议,DataNode基于此协议向NameNode发送block report,以及DataNode当前状态信息(如负载情况)。 |
InterDatanodeProtocol | HDFS | DataNode之间进行通信的协议,用来更新Block副本(replica)信息,如时间戳、长度等信息。 |
NamenodeProtocol | HDFS | SecondaryNameNode与NameNode进行通信的协议,用来获取NameNode的状态信息,如进行checkpoint的edits与fsimage。 |
AdminOperationsProtocol | HDFS | HDFS管理操作协议。 |
RefreshUserMappingsProtocol | HDFS、MR | 用来刷新缓存中用户与用户组映射关系信息,因为无论是操作HDFS,还是运行MapReduce Job,都会用到用户信息。 |
RefreshAuthorizationPolicyProtocol | HDFS、MR | 用来更新认证策略(Authorization Policy)配置,对应于配置文件/etc/hadoop/hadoop-policy.xml,控制执行hdfs dfsadmin -refreshServiceAcl和yarn rmadmin -refreshServiceAcl的权限。 |
HAServiceProtocol | HDFS | HDFS HA操作协议,用来管理Active NameNode与Stand-by NameNode状态。 |
ZKFailoverController | HDFS | ZooKeeper Failover控制器操作权限,用于HDFS HA。 |
QJournalProtocol | HDFS | QuorumJournalManager与JournalNode之间通信的协议,用于HDFS HA,用来同步edits,并协调Active NameNode与Stand-by NameNode状态。 |
HSClientProtocol | HDFS | 客户端与MR History Server之间通讯的协议,用来查看Job历史信息。 |
ResourceTracker | YARN | ResourceManager与NodeManager之间通信的协议。 |
ResourceManagerAdministrationProtocol | YARN | ResourceManager管理操作协议。 |
ApplicationClientProtocol | YARN | YARN客户端(Application)与ResourceManager通信的协议,包括Job提交、Job取消,查询Application状态信息等。 |
ApplicationMasterProtocol | YARN | ApplicationMaster与ResourceManager之间进行通信的协议,包括AM向RM发送注册或注销请求(获取或释放资源)。 |
ContainerManagementProtocol | YARN | ApplicationMaster与NodeManager之间进行通信的协议,包括启动/停止Container调用请求。 |
LocalizationProtocol | YARN | NodeManager与ResourceLocalizer之间进行通信的协议。 |
TaskUmbilicalProtocol | MR | Map/Reduce Task进程与后台父进程(向MR ApplicationMaster请求创建Map/Reduce Task)之间进行通信的协议。 |
MRClientProtocol | MR | MR JobClient与MR ApplicationMaster之间进行通信的协议,包括查询Job状态等。 |
上表中是基于SLA划分的不同服务级别,要想使SLA认证生效,首相需要在Hadoop配置文件/etc/hadoop/core-site.xml中增加如下配置内容:
<property> <name>hadoop.security.authorization</name> <value>true</value> </property>
该配置属性hadoop.security.authorization默认是false,如果集群已经运行,修改了该配置需要重新启动Hadoop集群。然后需要进行SLA认证的详细配置,修改配置文件/etc/hadoop/hadoop-policy.xml,该配置文件中的配置项与对应的SLA协议之间的对应关系如下表所示:
配置项 | 协议名称 |
security.client.protocol.acl | ClientProtocol |
security.client.datanode.protocol.acl | ClientDatanodeProtocol |
security.datanode.protocol.acl | DatanodeProtocol |
security.inter.datanode.protocol.acl | InterDatanodeProtocol |
security.namenode.protocol.acl | NamenodeProtocol |
security.admin.operations.protocol.acl | AdminOperationsProtocol |
security.refresh.usertogroups.mappings.protocol.acl | RefreshUserMappingsProtocol |
security.refresh.policy.protocol.acl | RefreshAuthorizationPolicyProtocol |
security.ha.service.protocol.acl | HAServiceProtocol |
security.zkfc.protocol.acl | ZKFailoverController |
security.qjournal.service.protocol.acl | QJournalProtocol |
security.mrhs.client.protocol.acl | HSClientProtocol |
security.resourcetracker.protocol.acl | ResourceTracker |
security.resourcemanager-administration.protocol.acl | ResourceManagerAdministrationProtocol |
security.applicationclient.protocol.acl | ApplicationClientProtocol |
security.applicationmaster.protocol.acl | ApplicationMasterProtocol |
security.containermanagement.protocol.acl | ContainerManagementProtocol |
security.resourcelocalizer.protocol.acl | LocalizationProtocol |
security.job.task.protocol.acl | TaskUmbilicalProtocol |
security.job.client.protocol.acl | MRClientProtocol |
配置SLA权限,实际上是增加ACL(配置用户或用户组)基本格式要求如下:
- 如果既有用户,又有用户组,配置内容格式:user1,user2 group1,group2
- 如果只有用户组,配置内容前面增加一个空格: group1,group2
- 配置内容为*,表示所有用户都具有对应的服务操作权限
下面,我们给定如下的需求:
- hadoop用户作为Hadoop集群的管理员角色,可以执行任何操作
- 为了防止其他用户使用hadoop用户,使hadoop用户归属于用户组g_super_adm,使属于该组的用户具有集群管理员权限
- 只有hadoop用户具有修改SLA认证权限的配置
- Storm集群使用storm用户运行Topology,将实时数据写入HDFS,storm用户只具有操作HDFS权限
- 用户组g_dfs_client具有操作HDFS权限
- 用户组g_mr_client具有在Hadoop上运行MapReduce Job的权限
- 用户stater只具有操作HDFS和运行MapReduce Job的权限
通过进行配置实践,来满足上述要求。修改配置文件/etc/hadoop/hadoop-policy.xml中的部分配置项,具体修改的内容如下所示:
<property> <name>security.client.protocol.acl</name> <value>stater,storm g_super_adm,g_dfs_client</value> <description>ACL for ClientProtocol, which is used by user code via the DistributedFileSystem. The ACL is a comma-separated list of user and group names. The user and group list is separated by a blank. For e.g. "alice,bob users,wheel". A special value of "*" means all users are allowed. </description> </property> <property> <name>security.refresh.policy.protocol.acl</name> <value>hadoop</value> <description>ACL for RefreshAuthorizationPolicyProtocol, used by the dfsadmin and mradmin commands to refresh the security policy in-effect. The ACL is a comma-separated list of user and group names. The user and group list is separated by a blank. For e.g. "alice,bob users,wheel". A special value of "*" means all users are allowed. </description> </property> <property> <name>security.job.client.protocol.acl</name> <value>stater g_super_adm,g_mr_client</value> <description>ACL for MRClientProtocol, used by job clients to communciate with the MR ApplicationMaster to query job status etc. The ACL is a comma-separated list of user and group names. The user and group list is separated by a blank. For e.g. "alice,bob users,wheel". A special value of "*" means all users are allowed. </description> </property>
其他的配置属性值保持默认值不变即可。为了保证整个Hadoop集群配置相同,需要将修改的配置文件同步到整个集群的所有节点上。
然后,为了使上述配置内容生效,需要执行如下命令:
hdfs dfsadmin -refreshServiceAcl yarn rmadmin -refreshServiceAcl
修改SLA认证配置,不需要重启服务,根据修改内容执行上述命令就可以生效。
后面参考链接中,有些关于Hadoop SLA的文档内容貌似没有随着Hadoop版本升级而更新,与实际Hadoop发行版本中配置文件的内容有一定差别,可以参考,具体以实际版本的情况为准。
参考链接
- http://hadoop.apache.org/docs/r2.2.0/hadoop-project-dist/hadoop-common/ServiceLevelAuth.html
- http://hadoop.apache.org/docs/r2.2.0/hadoop-auth/Configuration.html
本文出自:http://shiyanjun.cn, 原文地址:http://shiyanjun.cn/archives/994.html, 感谢原作者分享。

1.1.1.1上网认证系统登录方法:1、搜索校园网无线信号并连接;2、打开浏览器,在弹出的身份验证界面选择“自助服务”;3、输入用户名和初始密码进行登录;4、完善个人信息并设置为强密码即可。

Java错误:Hadoop错误,如何处理和避免当使用Hadoop处理大数据时,常常会遇到一些Java异常错误,这些错误可能会影响任务的执行,导致数据处理失败。本文将介绍一些常见的Hadoop错误,并提供处理和避免这些错误的方法。Java.lang.OutOfMemoryErrorOutOfMemoryError是Java虚拟机内存不足的错误。当Hadoop任

JWT(JSONWebToken)是一种轻量级的认证和授权机制,它使用JSON对象作为安全令牌,可以在多个系统之间安全地传输用户身份信息。而ThinkPHP6是一种基于PHP语言的高效、灵活的MVC框架,它提供了许多有用的工具和功能,其中就包括JWT认证机制。在本文中,我们将介绍如何使用ThinkPHP6进行JWT认证,以保障Web应用程序的安全性和可靠

微信公众号认证和不认证的区别在认证标识、功能权限、推送频率、接口权限和用户信任度等方面。详细介绍:1、认证标识,认证公众号会获得官方颁发的认证标识,即蓝色V标志,这个标志可以增加公众号的可信度和权威性,让用户更容易辨别真实的官方公众号;2、功能权限,认证公众号相比未认证的公众号拥有更多的功能和权限,例如认证公众号可以申请开通微信支付功能,实现在线支付和商业化运营等等。

KC认证是为了使消费者能更清楚地了解所购买的产品上标示的认证标志,是一个国家统一认证标志,用以减轻产品生产厂家负担的各种认证费用。韩国技术标准院(KATS)2008年8月20日宣布于2009年7月至2010年12月开始实行KC认证。

随着大数据时代的到来,数据处理和存储变得越来越重要,如何高效地管理和分析大量的数据也成为企业面临的挑战。Hadoop和HBase作为Apache基金会的两个项目,为大数据存储和分析提供了一种解决方案。本文将介绍如何在Beego中使用Hadoop和HBase进行大数据存储和查询。一、Hadoop和HBase简介Hadoop是一个开源的分布式存储和计算系统,它可

随着数据量的不断增大,传统的数据处理方式已经无法处理大数据时代带来的挑战。Hadoop是开源的分布式计算框架,它通过分布式存储和处理大量的数据,解决了单节点服务器在大数据处理中带来的性能瓶颈问题。PHP是一种脚本语言,广泛应用于Web开发,而且具有快速开发、易于维护等优点。本文将介绍如何使用PHP和Hadoop进行大数据处理。什么是HadoopHadoop是

Java大数据技术栈:了解Java在大数据领域的应用,如Hadoop、Spark、Kafka等随着数据量不断增加,大数据技术成为了当今互联网时代的热门话题。在大数据领域,我们常常听到Hadoop、Spark、Kafka等技术的名字。这些技术起到了至关重要的作用,而Java作为一门广泛应用的编程语言,也在大数据领域发挥着巨大的作用。本文将重点介绍Java在大


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

ドリームウィーバー CS6
ビジュアル Web 開発ツール

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター
