业务场景分为两大类:
- 第一类:西瓜和头条传统的Feed流,频道等推荐场景,每天数亿 DAU 规模
- 虽然都是推荐,但是底层都是对实时特征提取的依赖
1、统计最近一天,每个用户每一分钟对每一个作者的播放量和点赞量。
2、统计最近一天,每个用户点赞的所有作者,或者是点赞作者的TOPK列表
????上面这两种在抖音直播的用户场景还是非常多的(大家有没有思路)
生产规模:
统计类型的特征数量:计数特征 3k+,窗⼝特征1k+
- ⽣产提出了更加复杂的需求,例如⽀持各种窗⼝计算 、TOPK 计算、多维聚合操作等,在现有特征服务体系下难以⾼效迭代
下面????是整个架构图,“轻在线,重离线”,在线不做复杂的逻辑计算,复杂逻辑让离线做。
- 数据源层:接入不同的数据源,且做统一的数据抽象meta管理,也就是统一schema化。