ytsaurus yandex 开源的 大数据平台

支持的特性

  • 对租户,包含看了mapreduce,sql 查询引擎,job 调度,面向oltp 的key value 存储
  • 可靠以及稳定,无单点故障,自动复制,更新不丢失数据
  • 可扩展,支持百万级别的cpu 以及千级别的GPU,支持EB 级别的HDD,SSD,NVME,RAM,10000 级别的节点,服务自动缩放
  • 丰富的功能,mapreduce 模型,分布式acid 支持,sdk 以及api 支持,安全的计算存储分离,用户友好的ui
  • 基于clickhouse 的CHYT,集成JDBC 以及ODBC 驱动,快速查询
  • 基于apache spark 的SPYT,支持方便的ETL 处理 ,支持不同集群的隔离,可以方便的与现有解决方案集成

使用场景

  • 批处理使用mapreduce 以及SPYT
  • 即席查询,基于CHYT 的快速查询
  • OLTP,低延迟的事物key value 存储
  • 机器学习,管理GPU 集群,进行模型学习训练
  • 元数据存储,元数据可靠存储,以及支持分布式协调服务
  • ETL pipeline基于apache spakr sql, mapreduce 等

参考组件

ytsaurus yandex 开源的大数据平台_mapreduce

 

 

组件简单说明:
cypress 分布式存储系统以及元数据存储
yql, sql 方便的查询,支持udf,窗口函数
chyt 运行clickhouse
spyt 运行 apache spark

说明

ytsaurus 目前从介绍以及官方的一些使用数据看还是比较吸引人的,值得研究学习下,同时官方文档也是比较全的

参考资料

https://github.com/ytsaurus/ytsaurus

https://ytsaurus.tech/

https://medium.com/yandex/ytsaurus-exabyte-scale-storage-and-processing-system-is-now-open-source-42e7f5fa5fc6