编者按:2021年10月20日云栖大会·云计算产业升级峰会上,阿里巴巴资深技术专家、阿里云对象存储负责人罗庆超撰写的《对象存储实战指南》正式发布。罗庆超在企业存储和云存储领域有着丰富的技术与产品经验,曾就职于世界500强以及知名跨国公司的存储团队,负责高端存储阵列的数据路径架构设计和开发,作为海量存储首席架构师,负责文件存储、对象存储以及下一代分布式云存储的架构设计和实现,同时在灾备及数据管理领域亦有多年开发和运维经验。在相关技术研究领域支持并参与了多本行业专业书籍的编写工作,这次亲自撰写的书籍背后,是他从业多年的积累和思考。

云计算是新一代的IT 技术,也是数字化转型的新基础设施。有了云计算平台后,大数据得以迅猛发展,怎样获取、存储、处理、应用数据,是一整套方法论,也要有一整套的工具。

对象存储因云而生,是面向各种计算应用的存储资源池,提供弹性的服务化能力。

随着各行业数字化的蓬勃发展和企业数字化的转型,数据迎来爆炸式增长,2020 年全球产生的数据预估是 59ZB,2025 年预计达到 175ZB。

尽管产生了大量的数据,但只有大约 10% 的数据被存储了下来,大约只有 5% 的数据被分析过,低成本、易管理、易分析的存储需求驱动了对象存储的产生和发展。

对象存储是云计算数据存储底座

对象存储 NFS 区别 对象存储实战指南_阿里云

云计算本质就两件事:

一是用分布式技术替代了集中化技术,取代了原有的小型机、大型机、集中式存储、集中式数据库等,这是互联网公司崛起带来的一个显著现象。分布式技术极大地提升了运行效率,把IT 设施更加统一化和一致化,被产品化之后就成了如今的云计算;
二是云本身也发生了很大的变化,把所有计算资源整合成计算资源池,所有存储资源整合成存储资源池,通过数据在计算资源池和存储资源池之间流动产生价值。
对象存储提供简单易扩展的名字空间,它通过RESTful 接口提供了在任何时间、任何地点、任何互联网设备进行上传和下载数据的能力。

通过分布式存储技术的加持,跨数据中心和跨地域的容错能力,对象存储具备低成本、高可靠和易扩展的优势。对象存储在合规性、安全性、管理、生态、数据湖等领域不断发展,满足业务的需求,促进业务的创新。

随着云计算的发展,对象存储已成为事实标准的云存储。自动驾驶汽车、智能手机、平板电脑、IoT 设备等可以通过移动网络便捷地访问对象存储,公共云、混合云的计算服务器也可以通过专有网络 VPC访问对象存储。不同网络流入的数据都能存储在对象存储相同的资源池中,从而自然而然成为云计算的数据存储底座。

对象存储前世今生

1956 年IBM 发布350 DiskStorage Unit,它是第一代真正意义上的磁盘存储。它的体积约为2 个中等大小的冰箱,只能存放3.75 MB 数据。2020 年的20TB硬盘容量是第一代硬盘的560 万倍,尺寸也只有普通人手掌大小。

尽管盘的技术在飞速发展,但它无法解决单块盘出现故障带来的数据丢失问题。为此业界引入了廉价磁盘冗余阵列(RAID)技术,并逐步演化为存储区域网络(SAN),提供高可靠、高可用、高性能的块存储。

块存储只能提供线性地址空间,本身不具备数据管理能力,无法直接存放一张图片、一首音乐、一段视频,需要在它之上格式化文件系统来满足。但文件系统不擅长数据共享,从而演进到网络附加存储(NAS),服务器通过挂载指定NAS的网络IP地址访问共享文件夹,实现数据的高效共享。

网络附加存储随着保存文件的不断增多,海量文件管理成为难题,对象存储技术诞生就是为了解决该问题,它通过桶和对象的平坦模式组织数据,实现横向海量扩展。

对象存储 NFS 区别 对象存储实战指南_对象存储_02

存储始终围绕着高可靠、高可用、高扩展、易用性等需求不断演进,对象存储是存储技术不断迭代、持续发展的结果,直至演化为云计算至关重要的基础产品服务,本书深入浅出地将对象存储发展历史做了阐述。

此书内容覆盖哪些技术原理

对象存储作为典型的分布式系统,包含协调和复制、命名和同步、容错和数据完整性,以及元数据索引设计方面的技术原理。

对象存储 NFS 区别 对象存储实战指南_big data_03

本书对比了业界典型的协调技术,如 View stamp Replication、PAXOS、RAFT等,并分析了阿里云的女娲协调服务,同时也介绍了 Primary 复制的技术原理。通过这些技术,支撑分布式系统实现高可用、高可靠。

为了实现对象存储的全球扩展,采用 DNS 设计对象存储不同地域的域名,并且通过域名支撑了对象存储的全球加速功能。

作为大规模分布式系统,对象存储采用容错技术实现组件失效后的高效恢复,从而保证了错误发生时的快速切换。作为数据存储系统,对象存储必须要保证数据完整性,也就是写入的数据,只要不删除就能始终一样,即使百年过去,更换了多个数据中心、淘汰了数代的盘和机器,遭遇了无数的错误,它一直在那里,保持原状。

对象存储 NFS 区别 对象存储实战指南_对象存储_04

对象存储是个海量存储,需要支撑万亿级以上的对象访问,因此元数据索引设计至关重要,通过分析NoSQL、分布式 KV 技术,来讨论如何支撑大规模的元数据管理。

此书内容覆盖哪些实战内容

对象存储 NFS 区别 对象存储实战指南_big data_05

基于对象存储构建应用,首先需要做好基础配置。将数据搬到对象存储,要合理使用在线、离线迁移服务,同时根据企业安全合规要求设置账户认证、访问授权、数据加密、日志监控、沙箱防护、合规管理能力,为了保证数据不丢不错,需要恰当设置同城冗余、跨地域复制、异地多活、版本控制等特性,从而让数据在对象存储的安全保护环境下保存。

然后根据企业应用的需求选择功能运用,掌握桶和对象的创建、删除、查看等基本功能,并根据需求合理运用访问域名、传输加速、上传优化、下载优化、单连接限速、对象元信息、标签功能、选取内容、生命周期管理、静态网站托管等优化功能。

接着基于海量存储的文件做数据处理挖掘数据价值,可以使用原生图片处理的压缩、缩放、切割、旋转、亮度、水印等功能实现云上的图片PS,基于视频还可以使用原生视频处理的截帧功能,以及利用集成数据处理的文档预览、人脸识别、图片识别高级功能。

最后为了支撑生态集成,还可以采用各种应用场景的最佳实践。例如,通过网页上传场景下的小程序上传,App 直传场景下的数据直传、数据直传回调,大数据分析场景下与MaxCompute(阿里云数据分析服务)、DLA(Data Lake Analytics,阿里云开源数据分析服务)、开源Impala、开源Spark 等整合的最佳实践,可以更好地掌握对象存储相关功能和应用场景,从而更加顺畅地使用对象存储。

未来趋势会带来什么样的影响

对象存储 NFS 区别 对象存储实战指南_对象存储_06

通过对数据湖、混合云、移动网络 5G、人工智能场景的分析,提取新场景带来的存储核心需求。数据湖存储要求海量扩展、安全管理、高带宽,支持HDFS 替换;混合云场景的存储则需要云上、云下一体化体验,小型化部署,智能运维;移动网络5G场景的存储则要实现“端-边-中心”联动,设备端在高速网络下的传输设计;人工智能场景的存储,非常强调高带宽、高并发,以及支持元数据管理功能。

同时,从计算、网络、存储的技术趋势分析,特别是 HDD、SSD、掉电不丢失内存(AEP)的技术趋势,提出存储核心挑战,计算算力的大力提升、网络带宽的飞速发展,和存储每TB的性能降低相比,出现趋势上的矛盾,必须要做好计算、网络、存储的均衡设计。

阅读这本书你可以收获什么

掌握存储发展历史
通过块存储、文件存储、对象存储的技术演进史,了解技术发展背后的问题驱动。

理解分布式系统技术原理
深入浅出地分析分布式领域的单点技术原理,特别是存储系统最关键的数据完整性。

实战对象存储 OSS 配置管理
实操入门上手、数据迁移、安全合规、数据保护以及应用场景最佳实践,助你成为使用云计算对象存储服务的合格管理员。

前瞻对象存储未来发展新趋势
介绍对象存储支持的业界新趋势,了解新赛道的场景需求、技术方案。