业务场景分为两大类:

  • 第一类:西瓜和头条传统的Feed流,频道等推荐场景,每天数亿 DAU 规模
  • 虽然都是推荐,但是底层都是对实时特征提取的依赖

1、统计最近一天,每个用户每一分钟对每一个作者的播放量和点赞量。

2、统计最近一天,每个用户点赞的所有作者,或者是点赞作者的TOPK列表

????上面这两种在抖音直播的用户场景还是非常多的(大家有没有思路Flink 在字节推荐实时特征体系的落地实践_Flink

Flink 在字节推荐实时特征体系的落地实践_Flink_02

生产规模:

统计类型的特征数量:计数特征 3k+,窗⼝特征1k+

  • ⽣产提出了更加复杂的需求,例如⽀持各种窗⼝计算 、TOPK 计算、多维聚合操作等,在现有特征服务体系下难以⾼效迭代
     

Flink 在字节推荐实时特征体系的落地实践_Flink_03

 

Flink 在字节推荐实时特征体系的落地实践_Flink_04

下面????是整个架构图,“轻在线,重离线”,在线不做复杂的逻辑计算,复杂逻辑让离线做。

  • 数据源层:接入不同的数据源,且做统一的数据抽象meta管理,也就是统一schema化。

Flink 在字节推荐实时特征体系的落地实践_大厂实时数仓_05

Flink 在字节推荐实时特征体系的落地实践_大厂实时数仓_06