当ChatGPT一月新增一亿用户时,人们无限感叹于AI的神奇力量,似乎宇宙的尽头就是AI。然而,只有深入研究AI或者从事AI相关工作的人,才深有体会的事,那就是每一个牛鼻的AI模型背后都有一坨又一坨一言难尽的数据。
随着数据即土地、劳动力、资本、技术之后,成为第五要素,随着数字化及数字化转型在全球如火如荼的开展,随着数字孪生及元宇宙在全世界范围广泛兴起,越来越多的企业开始采用人工智能、机器学习和大数据分析去挖掘数据的价值。然而,当企业深入推进数据驱动价值的进程时,他们意识到,要开始实现数字化及数字化转型,实现数据驱动业务,之前出现过得一切信息化技术,以及之后可能出现的一切信息技术,都无法提供神奇的解决方案,可以在一夜之间改变企业的一切。事实上,技术只是达到目标的手段,唯有对组织的文化、技术架构和运营模式进行根本性的、长期性的持续变革,才有可能在可见的未来实现想要的目标。
尽管如此,在众多信息技术的背后,需要一个关键组件,那就是数据目录(数据资产管理平台、元数据平台)。它将企业的数据组织在一个地方,并允许企业使用元数据对其进行标记,让更多的团队和人员可以更有效地发现和管理数据。
在12款开源数据资产(元数据)管理平台选型分析(一)中,我们讨论了4款开源数据资产管理平台。本文作为该系列的第二篇文章,将继续分析Open metadata、Open Data Discovery、Magda、CKAN 4款开源数据资产管理平台。
Open Metadata
开源地址:https://github.com/open-metadata/OpenMetadata 1.9K star
OpenMetadata是元数据的开放标准,为端到端元数据管理解决方案提供了基础能力。提供数据发现、数据治理、数据协同、数据质量和可观测性的所有必要组件。
与Open Data Discover类似,其UI非常美观,其操作和使用逻辑,也符合业务人员的习惯。
Open Metadata的优点:
- 提供在线体验Demo环境,有助于推广拉新
- UI界面美观漂亮,界面操作逻辑符合国人使用习惯
- 项目年轻,能够在已有的众多数据资产项目中吸取经验
- 集成了数据质量模块
- 支持开放数据标准,感觉也没啥用,国内玩不转
- 基于数据可观测的新理念设计
Open Metadata的不足:
- 项目处于起步阶段,国人参与不多
- 与Open Data Discovery的区分度不是特别大
- 产品还在快速开发中
- 中文资料少的可怜
相关介绍:https://sandbox.open-metadata.org/ 百闻不如一见,百见不如一干。
选型建议:项目处于早期,国内生态还未起来。有尝新意识和乐于折腾精神的人,可以去跟踪、研究。生产环境搭建使用,需要做好前、后端问题,都去深挖源码的准备。
商用版本:collate(https://www.getcollate.io/)是Open Metadata的SaaS版本。
Open Data Discovery
开源地址:https://github.com/opendatadiscovery/odd-platform 692 star
Open Data Discover是一个开源的数据发现和可观测性平台。它旨在通过使数据更易于发现、管理、可观察、可靠和安全,帮助数据驱动企业实现数据民主化。由于ODD支持开放数据标准,因此数据团队能够在各种数据工具之间进行更高效的数据交换。
说实在,平台的UI确实非常漂亮。它的摄取是基于规范的。但是,该平台正在开发中,因此一些功能仍在开发中。
Open Data Discovery的优点:
- 提供在线体验Demo环境,有助于推广拉新
- UI界面美观漂亮,界面操作逻辑符合国人使用习惯
- 项目年轻,能够在已有的众多数据资产项目中吸取经验
- 集成了数据质量模块
- Datahub有的一些优秀功能都做了规划
- 支持开放数据标准,感觉也没啥用,国内玩不转
- 提供了调度工作流告警接口
- 基于数据可观测的新理念设计
- ML是第一等公民,这个是对赌未来的AI发展预期
Open Data Discovery的不足:
- 项目处于起步阶段,社区还不太活跃
- 与Datahub大量功能重叠
- 中文资料少的可怜
- 产品的定位?
相关介绍:https://demo.oddp.io/ 百闻不如一见,百见不如一干。
选型建议:项目处于早期,国内生态还未起来。有尝新意识和乐于折腾精神的人,可以去跟踪、研究。生产环境搭建使用,需要做好前、后端问题,都去深挖源码的准备。
Magda
开源地址:https://github.com/magda-io/magda 408 star
Magda是一个数据目录系统,提供数据编目、增强、搜索、跟踪和排序等功能。支持内部、外部数据源,支持大数据及小数据处理,支持通过文件、数据库或API的方式对外提供数据资产服务。
目标用户:数据技术人员,例如数据分析师、数据科学家和数据工程师。
价值目标:为数据技术人员,提供历史数据版本管理、重复数据检测等辅助功能,提高数据查询、管理的效率及质量。
Magda的优点:
- 轻量、简单的数据目录管理平台
- 支持数据预览
- 功能聚焦,独立部署
- 界面朴素简洁
- 支持地图数据
Magda的不足:
- 功能单一,与下面的CKAN一样,定位于数据编目,数据展示及共享
- 海量数据传输,性能有问题
- 不支持现代大数据同步、集成
- 功能相对单一
相关介绍:https://demo.dev.magda.io/ 百闻不如一见,百见不如一试。
选型建议:现在的数据中台、数据资产平台都会包含类似的数据门户,Magda的功能会被集成,企业基本上比较少的场景会单独使用。
CKAN
开源地址:https://github.com/ckan/ckan 3.7K star
CKAN是世界领先的开源数据门户平台,用于制作开放数据网站的工具。CKAN使发布、共享和处理数据变得容易。这是一个数据管理系统,它为编目、存储和访问数据集提供了强大的平台,具有丰富的前端、完整的API(用于数据和目录)、可视化工具等。
上面的描述,是直接百度翻译CKAN github主页的描述。用大白话说,CKAN就是一个工具,可以帮助您把个人或者企业的数据集通过网站的方式展示出去。其他人可以浏览、检索、预览、编目、下载。CKAN非常适合国家、地方政府、研究机构、学校和其他组织用于开放数据。
CKAN的优点:
- Python主要开发语言,上手入门似乎不是问题哈
- 历史悠久,有大量的政府、研究组织用来开放公开数据
- 使用简单、独立部署
- 功能聚焦,中小规模数据编目、开发、预览及下载
CKAN的不足:
- 聚焦于数据门户,即编目组织数据、提供数据预览及下载。
- 海量数据传输,性能有问题
- 不支持现代大数据同步、集成
- 功能相对单一
相关介绍:
选型建议:现在的数据中台、数据资产平台都会包含类似的数据门户,CKAN的功能会被集成,企业基本上比较少的场景会单独使用。政府、学校等机构有不少应用场景。
小结
本文介绍的4款开源数据资产管理平台中,Open Data Discovery与Open Metadata功能相近,定位也相同,发展路径和发展趋势也大同小异同,他们的界面美观性非常不错、功能丰富程度很有想象力,未来可期。有研发实力的组织和团队可以尝鲜试用,持续跟进。CKAN和Magda功能相近,定位相似,都是聚焦于数据资产管理的最后一公里,将数据编目好、让非数据技术人员,快速的检索、查找、预览及下载数据,如果没有复杂的数据加工、集成、处理流程,只是共享一些质量较好的、中小规模的数据,可以考虑CKAN和Magda。