架构简介
TBDS 是基于腾讯多年海量数据处理经验,对政企客户提供的可靠、安全、易用的大数据处理平台。整个TBDS架构,上层主要是提供给用户使用的应用层,用户在上层通过页面进行用户管理,库表管理及全链路的应用开发。中间平台层主要提供各类大数据组件,供开发者运行各类大数据程序。用户将开发好的应用在全局工作流平台Lhotse上进行任务调度,通过任务把数据接入后再经过实时计算平台Oceanus或者离线MR任务处理,最后落地存储在HDFS上。更为详细的产品介绍参考官网链接:https://cloud.tencent.com/product/tbds
平台数据类型
TBDS平台的数据我们可以划分为三类:平台元数据,用户业务数据,平台日志及监控数据。
元数据类主要包括:用户帐号、授权信息、项目信息、工作流配置等。
业务数据主要包括:API/客户端写入、工作流导入、页面上传、业务产生等。
日志及监控数据主要包括:审计日志,服务日志,组件监控数据,硬件监控数据等。
客户调研及前期工作
TBDS平台涵盖丰富的大数据相关组件。但是,每个客户的业务需求场景不同,有可能部分组件客户并未使用,所以首先了解清楚客户实际的使用场景,可以减少一些不必要的迁移工作。在这次迁移工作的前期,我们与客户及研发经过多次讨论,再根据下面制定的信息收集表,详细掌握了客户在TBDS平台上的使用方式,常用组件,业务数据类型等。
A)客户都是使用Hive进行离线的数据分析,只使用到平台中的Hive及HDFS组件,客户的业务逻辑并未有使用到诸如Hbase,Kafka等组件
B)客户的业务数据均存储在HDFS上,包括客户的程序脚本
C)客户要求老平台的帐号,权限,工作流等配置信息需要迁移,这部分数据存储在Mysql和Ldap上
D)Hermes和Kafka只有监控数据,无用户业务数据无需迁移
数据仓库构建
大数据处理套件完整覆盖数据抽取、转换、加载、建模、分析、报表呈现、数据治理等数仓建设环节,用户可借助大数据套件在公有云、私有云、非云化环境快速建设 TB 到 PB 级的企业数据仓库和数据集市,搭建专属的大数据应用。使用 TBDS,用户可显著降低基于企业数据仓库的数据应用开发周期、开发成本,还可降低数据仓库、数据处理、数据应用的运维成本。
实时流数据处理
用户可基于 TBDS 快速开发本行业在实时流式场景下的大数据处理、分析的应用程序,以实现对企业实时业务的风险监控与告警,以占据大数据时代的优势地位。流式数据处理可用于金融行业的风险管控、物联网的海量传感器数据处理、工业生产线的实时故障预警、病人特征数据实时分析、实时交通流量分析、互联网实时流量分析等应用场景。
数据探索挖掘
通过腾讯大数据处理套件所提供的强大数据分析与探索挖掘能力,用户可快速对企业在 PB 级规模下的大数据进行可视化的数据分析探索,在纷繁复杂的商业数据中快速获取数据洞察力,占领商业先机。用户还可通过 TBDS 所提供的强大机器学习能力对企业数据进行深度挖掘,进一步发掘海量数据中蕴藏的无限价值。
关注公众号 soft张三丰