linux集群管理

构建超大型Linux集群的好处很简单。 Hadoop,OpenStack,虚拟机管理程序和高性能计算(HPC)安装程序使您可以在商用硬件上构建并轻松简单地处理节点故障。 大规模学习和管理Linux管理涉及基本的日常任务。 但是,在将生产计划和扩展到数千个节点群集时,它可以占用您的生活,包括周末和节假日。

在传输和静止状态下加密与人相关的数据的特定要求已在其他地方进行了广泛讨论,因此在此不再赘述。 相反,我们将集中精力进行准备工作,以使审核不受Linux管理团队的支持。

1.基础知识:将您的集群连接到世界

试图在具有第二公司LAN接口上的管理员访问权限的独立网络上构建集群是很诱人的。 像过去的Oracle数据库一样,Hadoop和HPC集群倾向于使用单个用户标识(UID)帐户(例如“ hadoop”)执行集群中所有正在运行的任务。

审计不仅需要证明如何存储个人数据,还需要证明如何对数据进行操作,汇总或匿名化,其中包括谁可以创建,更改或登录这些特定于应用程序的帐户。 那就是您和您的管理员团队。

2.不要让软件安装者创建帐户或Linux组

首先使用您喜欢的配置管理器或身份管理器在每个群集节点(或目录)上创建所需的帐户。 如果Hadoop帐户和组已经存在,则集群软件安装程序将使用这些帐户和组。 我们想要这种行为的原因有很多,如下面的三个步骤中所述。

3.维护UID / GID一致性到处

为了以后的可追溯性,请确保您的组织具有一致的UID /组标识(GID)策略-一种在系统内标识个人和组的方法。 对于群集的软件,唯一的应用程序UID和GID需要适合整个组织基础结构中的矩阵,而不仅仅是您的群集中。

4. Sudo,不是Sudon't

如果您要手动将sudoers文件分发到群集中或管理特定于站点的脚本环境,则取决于您和您的团队,以证明您确切知道群集节点47上sudoers文件在几个星期内处于什么状态。过去。 这是我们所有人都不能做的头痛。

为了实现自我保护,您的团队需要制定一种策略,以使其受到集中管理并受版本控制。 这可以通过在节点OS设置过程中使用诸如Ansible之类的工具或为自动部署对计算机映像进行版本控制来实现。

5.将群集附加到组织的SIEM

群集会产生大量的日志文件。 例如,Hadoop的Hortonworks发行版在几分钟内生成数百或数千条“ su hadoop”消息。 安全信息和事件管理(SIEM)平台(无论是否开放源代码)都是一种理解相关事件的绝妙方法。 SIEM系统可以更快地识别,分析和恢复安全事件。 例如:

  • David使用多因素身份验证(MFA)通过VPN从家里登录了公司网络。
  • David SSH进入了生产Jumpstart服务器
  • David SSH进入群集节点47,然后SUed到根
  • David将Hadoop帐户的UID从10011更改为13011
  • 集群在节点47上以Hadoop帐户的身份运行138个SU作业,直到18:00

操作系统,应用程序或群集管理器的日志查看器可能只显示这张图片的一部分。 将所有内容发送给SIEM更安全,更完整,并且坦率地成为另一个团队创建报告的责任。 审核员实际上更喜欢手动模式,即与Linux管理团队分开的人来证明发生了什么。

6.获得正确的培训和工具

您的团队不知所措的一个重要迹象是,团队成员在每个审核周期中需要花费四天以上的时间来帮助审核员。 某些东西坏了和/或不明显。 您的理想时间最多为两天(如果可能的话,则为一日)。 获得足够的培训对于提高生产率至关重要。

例如,如果您的集群处理人员数据,则针对将要运行集群操作的每种合规性机制进行一些针对操作的培训。 确保进行考试-获得特定要求版本的认证不仅对您的履历有好处。 它可以快速审核您的团队。

最后,当纯开放源码无法通过审核时,知道何时要求您的老板为商业工具打开钱包。 如果处理人员数据,则所有工具都需要维护合同。 开源供应商有商业发行是有充分的理由的,并且公司为什么要为维护付费。 首先,请问您的老板是否愿意在审核期间休假。 我想我们都知道答案。

7.牢记审核员的需求

节省时间的操作技术对于优化效率非常有用,但是在进行审核时维护记录很重要。

Ansible 。

您有什么技巧可以避免审计师的愤怒? 请在评论中分享您的想法。

翻译自: https://opensource.com/article/17/9/7-ways-linux-cluster-admin

linux集群管理