并非所有数据都是平等的。在当今复杂的数字世界中,试图以同等的力量保护每一个数据资产既不可行也不明智。由于手头有数 TB 甚至 PB 的数据,数据安全团队需要变得更加复杂 - 他们需要数据分类。
数据分类是保护关键和敏感数据的关键。通过对数据进行分类,您可以对实际重要的数据应用有效的安全措施。这对于保护数据免受未经授权的访问和破坏以及确保完全符合行业法规和标准至关重要。
在本文中,我们将探讨不同的数据分类方法,包括它们的优势和潜在挑战,并探讨如何使用这些方法来实现您的业务目标。
数据分类过程
对数据进行分类是一个巨大的挑战,特别是考虑到企业通常处理大量数据。
您可以采取以下几个简单步骤来确保正确处理:
- 定义目标。在启动数据分类过程之前,请务必首先在特定业务需求的上下文中确定安全目标。问问自己:这是干什么用的?我要解决的挑战是什么?例如,如果您的主要目标是遵守隐私法规,则应定期评估您的公司受哪些法律和法规的约束,并确定保护数据和避免处罚所需的步骤。需要注意的常见法规是HIPAA,GDPR,CCPA,CPRA和PCI DSS。
- 评估范围并确定优先级。如果大规模处理数据,数据分类似乎是一项巨大的挑战。但通过一些战略思维,分类可以减少到可管理的维度。通过一组有意义的标准(如风险、价值或法规要求)评估数据,将使您能够将资源和安全措施集中在最敏感和最有价值的信息上。这可以大大缩小数据分类的范围,使其成为一项针对性强且可行的任务。
- 确定组织中的相关利益干系人。明确谁需要加入公司内部,包括安全、GRC 和工程部门。确保映射他们的需求、通信方法和现有工作流,以及他们期望如何在工作流程中使用数据分类。
- 实施数据分类过程。设置并执行最适合您的体系结构和业务目标的分类方法。这意味着要解决一些技术问题,例如 – 我是扫描静态数据还是动态数据?我是否根据上下文或内容对数据进行分类?下一节将深入探讨这些注意事项。
- 自动化。使用自动化的第三方安全软件(如数据安全状况管理 (DSPM) 解决方案)简化分类过程可能会有所帮助。这些不仅可以减轻您手动执行繁重且容易出错的分类任务的负担,还可以帮助您发现数据安全漏洞并支持修复。
- 与现有工作流集成。了解利益干系人的需求和目的后,可以将分类引擎与当今的工作方式集成,以最大程度地减少摩擦。例如,这可能包括为 GDPR 审计自动生成 RoPA。
- 从工作中获益。现在您的关键数据正在分类,是时候将其转化为价值了。从安全角度来看,您可以定义明确的策略来保护敏感数据,包括基于角色的权限,用于管理如何处理不同的数据资产。从预算角度来看,您可以为数据保留和存储创建策略,为每种数据类型确定适当的存储位置和保留期。
- 更新定义。建议定期重新评估和更新分类策略,以确保敏感数据始终受到保护。
数据分类方法
分类是一个大主题,在安全工具箱中实施分类之前,需要考虑很多事项。
在本节中,我们将介绍要考虑的两件大事 – 不同类型的数据分类方法和要分类的数据类型。
- 基于上下文的分类与基于内容的分类
数据分类有两种不同的风格。为了掌握数据安全性,重要的是要知道它们是什么以及它们之间的区别。
第一种类型是基于上下文的。基于上下文的分类不是直接查看文件或数据对象包含的内容,而是从上下文信息(如元数据)派生数据类型,包括历史记录、属性、资产所有者和环境。例如,如果在名为“电子邮件地址”的列中找到数据,则数据将被归类为电子邮件地址。尽管此类信息很有价值,但从元数据中得出的结论可能不准确,从而使分类本身具有极大的误导性。
另一方面,基于内容的分类通过直接观察数据来确定数据类型。例如,此方法可以高度确定数据资产是名称、电子邮件、地址还是信用卡号,即使标记不正确也是如此。例如,如果信用卡号位于“注释”字段下。
您可能会惊讶地发现,大多数解决方案仅根据上下文执行分类。这里需要注意的另一个微妙的一点是,如果不查看动态数据,就无法获得上下文。以合理的成本可靠获取动态数据的唯一方法是通过有效负载在运行时分析数据(与公有云日志相反,例如 AWS 流日志)。
因此,如果要确保正确且经济高效地识别和分类敏感数据,则应与将基于内容的分类与基于上下文的分类配对的供应商合作,并确保后者通过有效负载执行。否则,您将面临增加成本、错过重要信号以及将易受攻击的数据暴露在泄漏和泄露的风险。
- 结构化与非结构化数据分类
数据有不同的形状,但大致可以分为两大类:
结构化数据:采用“键值”格式:CSV、JSON、Excel 文件等。
非结构化数据:自由文本、图像(可能包括自由文本)、视频、文档等。
这里需要注意的重要一点是,结构化和非结构化数据的数据分类本质上非常不同,并非所有分类解决方案都可以处理非结构化数据。
底线是这样的 - 如果您认为非结构化数据中可能潜伏着敏感数据,那么确保您的分类工具可以检测和分类它们非常重要。即使您认为这不适用于您 - 考虑到当数据由某些应用程序处理时,它可以从结构化更改为非结构化,反之亦然。因此,对非结构化数据进行分类几乎总是一件值得投资的好事。
数据分类的好处
花时间将数据分类工具实施到数据安全操作中可能需要一些工作,但它具有一些显着的优势。
- 清晰度。通过数据分类,可以查看您拥有的数据、处理和存储数据的位置以及访问方式。通过根据敏感度确定数据的优先级,组织可以围绕应保护哪些数据以及如何处理数据建立明确的边界。通过分类,可以更轻松地保护动态环境中的敏感信息,尤其是当数据在云和本地之间流动或与外部服务共享时。
- 合规性。如果您要满足法规要求、维护客户信任并避免巨额罚款,则必须进行可靠的数据分类。通过根据敏感度对数据进行分类,组织可以设置有效的治理策略,确保机密信息依法受到保护。
- 节省成本。数据分类允许公司采取有针对性的数据安全方法,战略性地投资于风险最大的保护措施,并识别和丢弃不再需要的数据。此外,对数据进行分类时,安全团队可以更快地发现漏洞并修复危及敏感数据的问题。
- 更好的决策。按敏感度或业务价值对数据进行分类有助于为决策提供信息并减少管理数据所需的时间。例如,分类可以帮助发现和消除陈旧或冗余的数据,并在存储上设置更智能的保留策略。
数据分类的挑战
将数据分类纳入数据保护策略时,需要注意一些重大陷阱。让我们来看看其中的一些以及如何处理它们。
- 成本控制
由于每天生成大量数据,分配足够的时间和资源来收集、分类、监控和维护它们很快就会变得昂贵和复杂,尤其是在处理遗留数据时。相互竞争的优先事项和有限的预算会进一步加剧这一问题。
为了应对这一挑战,组织可以采用自动化方法,消除劳动密集型任务和随之而来的人为错误。此外,组织可以优先对最敏感的信息进行分类,并实施防止收集不必要数据的策略,从而节省时间并有效控制成本。
- 过度依赖工程团队
仅依靠 IT 和工程团队进行数据分类可能会造成瓶颈、税务团队并导致错误。由于分类过程的复杂性及其技术要求,这种做法可能长期不可持续。
自动化也可以在这里派上用场。它可以加快分类过程,提高其准确性,并消除安全和工程团队之间可能建立的紧张关系。
- 不一致的策略和格式
不同部门和团队选择的政策和格式不一致可能会导致混乱和错误,从而导致信息丢失、分类不良和资源浪费。
为了防止此问题,组织应建立跨部门一致遵守的标准化策略和格式。
自动化工具可以通过实施预定义的策略和格式来帮助维护此标准。定期监测、更新和审查也有助于确保这些政策和格式保持相关性和有效性。
- 分类不正确或缺少上下文
标签不完整、数据排序不当、上下文缺失或信息重复和模棱两可——所有这些都可能导致数据分类不佳。反过来,这可能导致关键的监督。例如,个人姓名可能被认为敏感度较低,但如果它们出现在健康或财务记录中,则应将其标记为敏感和机密。
为了应对这些挑战,组织应特别注意如何收集数据,确保它考虑到元数据和缺失的链接,以及如何完成它们。
自动化工具可以使用机器学习算法来缓解异常、更新策略、修复格式并经济高效地监控数据收集,从而进一步帮助实现这一目标。
流量安全的数据分类引擎
DSPM解决方案提供基于上下文和内容的自动数据分类。它旨在发现和分类结构化和非结构化数据,无论这些数据流向何处 - 无论是在本地、云中还是传输到外部服务和影子数据库时。
引擎通过实时分析数据有效负载对数据进行分类。这意味着不仅分类更准确,而且您知道的不仅仅是数据类型。通过分析数据有效负载,您还可以获得上下文:数据是如何生成的,由谁以及何时生成。例如,您可以了解电子邮件列表的上下文:列表是由内部人员、承包商生成的还是购买的?
基于其高度准确的分类引擎,该平台允许您对这些数据进行精确控制,因此您可以收到任何违规行为的警报,快速响应安全事件,遵守法规,并将您的安全状况提升到新的高度。
结论
每过一刻,您照顾的数据量就会增加。如果没有适当的数据分类策略,企业可能会暴露敏感信息并面临严重的法律和声誉后果。
如果要设置实际完成其工作的规则和安全控制,则必须拥有强大的数据分类引擎。如果您没有牢牢掌握流经系统的数据类型,则几乎不可能遵守法规并降低风险。
好消息是,您不必自己完成所有这些工作。有优秀的第三方工具可以为您完成工作。但是,如果您沿着这条路走下去,有几件重要的事情需要注意。
在与声称对数据进行分类的外部供应商签订合同之前,要评估的三件大事是:
- 分类解决方案的准确性如何?(即它是否可以处理非结构化数据,它是否使用内容和上下文)。
- 解决方案是否自动化,它与您的工作流程的集成程度如何?
- 该解决方案是仅对数据进行分类,还是还附带了可以增强组织安全状况并提供可靠警报的工具?
数据分类可以提高数据管理效率,加速数据检索和访问,支持信息提取和分析,促进数据挖掘和机器学习任务,以及帮助知识发现和应用。这些好处都有助于我们更好地利用数据,并从中获取价值和洞察。