数据资产管理系统架构设计图 数据资产管理系统 开源_数据资产管理系统架构设计图

当ChatGPT一月新增一亿用户时,人们无限感叹于AI的神奇力量,似乎宇宙的尽头就是AI。然而,只有深入研究AI或者从事AI相关工作的人,才深有体会的事,那就是每一个牛鼻的AI模型背后都有一坨又一坨一言难尽的数据。

随着数据即土地、劳动力、资本、技术之后,成为第五要素,随着数字化及数字化转型在全球如火如荼的开展,随着数字孪生及元宇宙在全世界范围广泛兴起,越来越多的企业开始采用人工智能、机器学习和大数据分析去挖掘数据的价值。然而,当企业深入推进数据驱动价值的进程时,他们意识到,要开始实现数字化及数字化转型,实现数据驱动业务,之前出现过得一切信息化技术,以及之后可能出现的一切信息技术,都无法提供神奇的解决方案,可以在一夜之间改变企业的一切。事实上,技术只是达到目标的手段,唯有对组织的文化、技术架构和运营模式进行根本性的、长期性的持续变革,才有可能在可见的未来实现想要的目标。

尽管如此,在众多信息技术的背后,需要一个关键组件,那就是数据目录(数据资产管理平台、元数据平台)。它将企业的数据组织在一个地方,并允许企业使用元数据对其进行标记,让更多的团队和人员可以更有效地发现和管理数据。

在12款开源数据资产(元数据)管理平台选型分析(一)中,我们讨论了4款开源数据资产管理平台。本文作为该系列的第二篇文章,将继续分析Open metadata、Open Data Discovery、Magda、CKAN 4款开源数据资产管理平台。

数据资产管理系统架构设计图 数据资产管理系统 开源_开源元数据平台_02

Open Metadata

数据资产管理系统架构设计图 数据资产管理系统 开源_开源元数据平台_03

开源地址:https://github.com/open-metadata/OpenMetadata 1.9K star
OpenMetadata是元数据的开放标准,为端到端元数据管理解决方案提供了基础能力。提供数据发现、数据治理、数据协同、数据质量和可观测性的所有必要组件。

与Open Data Discover类似,其UI非常美观,其操作和使用逻辑,也符合业务人员的习惯。

Open Metadata的优点:

  • 提供在线体验Demo环境,有助于推广拉新
  • UI界面美观漂亮,界面操作逻辑符合国人使用习惯
  • 项目年轻,能够在已有的众多数据资产项目中吸取经验
  • 集成了数据质量模块
  • 支持开放数据标准,感觉也没啥用,国内玩不转
  • 基于数据可观测的新理念设计

Open Metadata的不足:

  • 项目处于起步阶段,国人参与不多
  • 与Open Data Discovery的区分度不是特别大
  • 产品还在快速开发中
  • 中文资料少的可怜

相关介绍:https://sandbox.open-metadata.org/ 百闻不如一见,百见不如一干。

选型建议:项目处于早期,国内生态还未起来。有尝新意识和乐于折腾精神的人,可以去跟踪、研究。生产环境搭建使用,需要做好前、后端问题,都去深挖源码的准备。

商用版本:collate(https://www.getcollate.io/)是Open Metadata的SaaS版本。

Open Data Discovery

数据资产管理系统架构设计图 数据资产管理系统 开源_数据治理_04


开源地址:https://github.com/opendatadiscovery/odd-platform 692 star

Open Data Discover是一个开源的数据发现和可观测性平台。它旨在通过使数据更易于发现、管理、可观察、可靠和安全,帮助数据驱动企业实现数据民主化。由于ODD支持开放数据标准,因此数据团队能够在各种数据工具之间进行更高效的数据交换。

说实在,平台的UI确实非常漂亮。它的摄取是基于规范的。但是,该平台正在开发中,因此一些功能仍在开发中。

Open Data Discovery的优点:

  • 提供在线体验Demo环境,有助于推广拉新
  • UI界面美观漂亮,界面操作逻辑符合国人使用习惯
  • 项目年轻,能够在已有的众多数据资产项目中吸取经验
  • 集成了数据质量模块
  • Datahub有的一些优秀功能都做了规划
  • 支持开放数据标准,感觉也没啥用,国内玩不转
  • 提供了调度工作流告警接口
  • 基于数据可观测的新理念设计
  • ML是第一等公民,这个是对赌未来的AI发展预期

Open Data Discovery的不足:

  • 项目处于起步阶段,社区还不太活跃
  • 与Datahub大量功能重叠
  • 中文资料少的可怜
  • 产品的定位?

相关介绍:https://demo.oddp.io/ 百闻不如一见,百见不如一干。

选型建议:项目处于早期,国内生态还未起来。有尝新意识和乐于折腾精神的人,可以去跟踪、研究。生产环境搭建使用,需要做好前、后端问题,都去深挖源码的准备。

Magda

数据资产管理系统架构设计图 数据资产管理系统 开源_数据资产管理系统架构设计图_05


开源地址:https://github.com/magda-io/magda 408 star

Magda是一个数据目录系统,提供数据编目、增强、搜索、跟踪和排序等功能。支持内部、外部数据源,支持大数据及小数据处理,支持通过文件、数据库或API的方式对外提供数据资产服务。

目标用户:数据技术人员,例如数据分析师、数据科学家和数据工程师。
价值目标:为数据技术人员,提供历史数据版本管理、重复数据检测等辅助功能,提高数据查询、管理的效率及质量。

Magda的优点:

  • 轻量、简单的数据目录管理平台
  • 支持数据预览
  • 功能聚焦,独立部署
  • 界面朴素简洁
  • 支持地图数据

Magda的不足:

  • 功能单一,与下面的CKAN一样,定位于数据编目,数据展示及共享
  • 海量数据传输,性能有问题
  • 不支持现代大数据同步、集成
  • 功能相对单一

相关介绍:https://demo.dev.magda.io/ 百闻不如一见,百见不如一试。

选型建议:现在的数据中台、数据资产平台都会包含类似的数据门户,Magda的功能会被集成,企业基本上比较少的场景会单独使用。

CKAN

数据资产管理系统架构设计图 数据资产管理系统 开源_数据资产管理_06

开源地址:https://github.com/ckan/ckan 3.7K star
CKAN是世界领先的开源数据门户平台,用于制作开放数据网站的工具。CKAN使发布、共享和处理数据变得容易。这是一个数据管理系统,它为编目、存储和访问数据集提供了强大的平台,具有丰富的前端、完整的API(用于数据和目录)、可视化工具等。

上面的描述,是直接百度翻译CKAN github主页的描述。用大白话说,CKAN就是一个工具,可以帮助您把个人或者企业的数据集通过网站的方式展示出去。其他人可以浏览、检索、预览、编目、下载。CKAN非常适合国家、地方政府、研究机构、学校和其他组织用于开放数据。

CKAN的优点:

  • Python主要开发语言,上手入门似乎不是问题哈
  • 历史悠久,有大量的政府、研究组织用来开放公开数据
  • 使用简单、独立部署
  • 功能聚焦,中小规模数据编目、开发、预览及下载

CKAN的不足:

  • 聚焦于数据门户,即编目组织数据、提供数据预览及下载。
  • 海量数据传输,性能有问题
  • 不支持现代大数据同步、集成
  • 功能相对单一

相关介绍

选型建议:现在的数据中台、数据资产平台都会包含类似的数据门户,CKAN的功能会被集成,企业基本上比较少的场景会单独使用。政府、学校等机构有不少应用场景。

小结

本文介绍的4款开源数据资产管理平台中,Open Data Discovery与Open Metadata功能相近,定位也相同,发展路径和发展趋势也大同小异同,他们的界面美观性非常不错、功能丰富程度很有想象力,未来可期。有研发实力的组织和团队可以尝鲜试用,持续跟进。CKAN和Magda功能相近,定位相似,都是聚焦于数据资产管理的最后一公里,将数据编目好、让非数据技术人员,快速的检索、查找、预览及下载数据,如果没有复杂的数据加工、集成、处理流程,只是共享一些质量较好的、中小规模的数据,可以考虑CKAN和Magda。