# Hadoop 集成 Kerberos:安全数据处理的保障
在大数据时代,数据的安全性与隐私已经成为了企业和组织管理中最重要的任务之一。Hadoop 作为主流的分布式计算框架,虽然功能强大,但若缺乏合适的安全机制,其框架内部的数据流动可能遭受恶意攻击。为此,集成 Kerberos 认证机制使得 Hadoop 集群中的数据访问得到了极大的保障。
## 什么是 Kerberos?
Kerber            
                
         
            
            
            
            # Kerberos与Hadoop的集成
在现代大数据生态中,数据的安全性与访问控制变得愈加重要。Hadoop作为一个广泛使用的分布式计算框架,其数据集群的安全管理需要依赖于强有力的身份验证机制。Kerberos就是这样一个为数据提供安全保障的认证协议。本文将探讨如何将Kerberos与Hadoop集成,并通过示例代码加以说明。
## 什么是Kerberos?
Kerberos是一个网络身份            
                
         
            
            
            
            cdh版本的hadoop在对数据安全上的处理通常采用Kerberos+Sentry的结构。kerberos主要负责平台用户的权限管理,sentry则负责数据的权限管理。
 下面我们来依次了解一下:Kerberos包含一个中心节点和若干从节点,所有节点的Kerberos认证信息都要与中心节点的规则配置文件/etc/krb5.conf保持一致。安全认证均需通过中心节点,配置了安全认证的用户可以登录到集            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-11 21:02:37
                            
                                215阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            0x0 背景由于CDH默认的权限管理机制过于简单,不能够保证HADOOP集群的安全性,因此,引入了Kerberos作为安全管理服务。0x1 安装kerberos服务CDH提供了关于整合kerberos服务的向导,在整合kerberos之前,必须要有kerberos服务。下面,介绍一下如何安装kerberos服务。 1. 安装kerberos server和kdc(Key Distribution            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-17 22:08:07
                            
                                697阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            官网参考:https://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-common/SecureMode.html2、创建Hadoop系统用户为Hadoop开启Kerberos,需为不同服务准备不同的用户,启动服务时需要使用相应的用户。须在所有节点创建以下用户和            
                
                    
                        
                                                            
                                                                        
                                                                推荐
                                                                                        原创
                                                                                    
                            2022-02-19 13:55:44
                            
                                10000+阅读
                            
                                                        
                                点赞
                            
                                                                                    
                                4评论
                            
                                                 
                 
                
                             
         
            
            
            
            # Hadoop集成Kerberos实践指南
## 引言
Hadoop是一个开源的分布式计算框架,而Kerberos是一个网络认证协议。将Hadoop和Kerberos集成可以增强Hadoop集群的安全性。本文将指导你如何实现Hadoop集成Kerberos的过程。
## 流程
下面是实现Hadoop集成Kerberos的流程图:
```mermaid
flowchart TD
    A[            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-12-30 10:29:44
                            
                                116阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            集群规划主机名hadoop101hadoop102hadoop103hadoop104IP192.168.111.101192.168.111.102192.168.111.103192.168.111.104组件nn1 datanode zookeeper rangerdatanode zookeeperdatanode zookeepernn2 mysql KDC  前置条件准备四台            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-07 03:34:50
                            
                                224阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            IP、主机名规划  hadoop集群规划:hostnameIPhadoop备注hadoop1110.185.225.158NameNode,ResourceManager,DFSZKFailoverController,JournalNode hadoop2110.185.225.166NameNode,ResourceManager,DataNode,NodeMan            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-13 14:20:19
                            
                                102阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            公司里要给Hadoop配置Kerberos,记录一下过程中遇到的问题。共有三台服务器:Hadoop102,Hadoop103,Hadoop104Hadoop节点分布如下(后续配置Kerberos的一些文件夹时要严格按照自身Hadoop集群中的节点情况,我这里只是举个例子):Hadoop102:        DataNode,        NameNode,        ResourceMan            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-09 07:28:06
                            
                                100阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            继续说一下Kerberos与Hadoop的集成。 其实这个话题在网上已经很普遍了,没什么太新鲜的。就是顺带说一下吧,Hadoop账号的集成与管理。 之前已经装了kdc和kadmin,所以接下来就需要创建hadoop相关的账号了。 首先需要用kadmin进入kerberos管理prompt,这里需要输            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2020-07-14 17:02:00
                            
                                372阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            Hive简介:         Hive是基于Hadoop的一个数据仓库管理工具,可以将结构化的数据文件映射为数据库表,提供sql查询统计功能(Hive 定义了简单的类 SQL 查询语言,称为 HQL),其底层实现是:将SQL语句转换为MapRecuce程序任务执行对应的查询功能(Yarn集群启动)。 为什么要使用hive?             
                
         
            
            
            
            【Apache】Hadoop 3.2.1集群集成Kerberos系列文章传送门参考资料1. 创建HDFS相关的Kerberos账户并导出keytab文件1.1 master节点1.2 slave1节点1.3 slave2节点2. 修改HDFS配置文件2.1 yarn-env.sh2.2 mapred-env.sh2.3 core-site.xml2.4 hdfs-site.xml2.5 yarn            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-03 16:51:10
                            
                                171阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录前言一、配置 SASL 认证证书二、修改集群配置文件1.hdfs添加以下配置 2.yarn添加以下配置3.hive添加以下配置4.hbase添加以下配置 三、kerberos相关命令四、快速测试五、问题解决1、Caused by: java.io.IOException: Failed on local exception: java.io.IOException            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-18 22:13:06
                            
                                915阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            kerberos 安装通过yum安装即可,组成KDCyum install krb5-server krb5-libs krb5-workstation配置KDC及说明/var/kerberos/krb5kdc/kdc.conf[kdcdefaults]
 kdc_ports = 88
 kdc_tcp_ports = 88
[realms]
 HADOOP.COM = {
  # master            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-02 11:00:15
                            
                                104阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Kerberos作用简单来说安全相关一般涉及以下方面:用户认证(Kerberos的作用)、用户授权、用户管理.。而Kerberos功能是用户认证,通俗来说解决了证明A是A 的问题。认证过程(时序图)核心角色/概念KDC:密钥分发巾心,负责管理发放票据,记录授权。Realm: Kerberos管理领域的标识。principal:Kerberos 下的用户可以称为 Principal,当每添加一个用户            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-28 11:26:53
                            
                                82阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # 搭建Centos Hadoop集群并集成Kerberos教程
## 一、整个流程概述
首先我们将整个搭建Centos Hadoop集群并集成Kerberos的流程总结如下:
```mermaid
flowchart TD
    A(准备工作)
    B(安装Hadoop)
    C(集成Kerberos)
    D(测试)
    A --> B
    B --> C            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-07-03 06:58:00
                            
                                53阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1 概述 从安全角度分析,Hadoop缺乏一个安全打的认证机制,以确保试图在集群上执行操作的用户恰是所声称的安全用户。但是,Hadoop的文件许可模块只提供一种简单的认证机制,以决定各个文件对特定文件的访问权限。”  上面一段话描述的安全问题,我也遇到了,对于启用权限的伪分布式hadoop环境,写文件的时候不提供用户信息,则访问出错,但是在写文件的api中加上启动hadoop的用户信息,则顺利            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-01 09:54:31
                            
                                82阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Spark+Hadoop集群搭建:(三)在Hadoop集群上安装Spark1 Scala安装1.1 下载安装包1.2 解压1.3 迁移目录1.4 配置环境变量1.5 启动scala2 安装Spark2.1 下载安装包2.2 解压2.3 迁移目录2.4 配置环境变量3 PySpark3.1 安装Python3.2 启动PySpark4 构建Spark Standalone Cluster运行环境4            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-16 12:43:50
                            
                                86阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            kerberos相关:  kadmin.local  //以超管身份进入kadmin
kadmin    //进入kadmin模式,需输入密码
kdb5_util create -r JENKIN.COM -s    //创建数据库
service krb5kdc start    //启动kdc服务
service kadmin start    //启动kadmin服务
servic            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-12 13:40:56
                            
                                97阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Hadoop 安装有如下三种方式:
单机模式:安装简单,几乎不用做任何配置,但仅限于调试用途;
伪分布模式:在单节点上同时启动 NameNode、DataNode、JobTracker、TaskTracker、Secondary Namenode 等 5 个进程,模拟分布式运行的各个节点;
完全分布式模式:正常的 Hadoop 集群,由多个各司其职的节点构成。前提条件安装java (不想去官网下载            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-26 10:00:44
                            
                                162阅读
                            
                                                                             
                 
                
                                
                    