推荐系统,都有哪些方案解决冷启动问题,百万级用户的推荐系统,一般用什么样的框架?
周开拓: 推荐系统冷启动是个很大的话题,可能这里只能给大家一些简单的例子。冷启动分为用户的冷启动和整个推荐系统的冷启动,
整个推荐系统的冷启动就是在搭建推荐系统之前,我能否已经收集了一些用户行为的数据,如果有的话,可以构造一些弱一点的模型,
比如说用 CF、SVD、热度这样的方法对内容做一些初步的排序和筛选,同时配合一些简单的基于 query 的策略,
比如最新、最热、最多评价等等先构造一个差一点但是比随机强很多的推荐列表。如果数据基础更好,也可以用其他场景的数据来构造 label、样本来进行建模。
而用户的冷启动,归根结底就是在用户进入产品之后,尽快有效地获取他的信息,一方面可以通过产品的手段来实现,一方面可以通过第三方数据合作的方式来实现,
比如说这个人如果是微博注册的话,如果你能够收集到一些公开的微博数据,就会对冷启动很有帮助。关于架构的话,刚才已经介绍很多了,您可以参考。
《基于分类模型的广告推荐方法研究_李哲》这篇文章介绍了协同过滤算法的两大主要问题:1、冷启动问题 2、数据稀疏 。
解决办法:
Item-based CF的冷启动问题:可以利用物品的内容信息,比如分词、关键字排名,或者使用基于内容的推荐
User-based CF的冷启动问题:
1、提供非个性化的推荐,如:热门的排行榜,等用户充足了再改为个性化推荐
2、根据用户的注册信息,如:兴趣爱好、或从其他网站导入行为数据(微博登录的用户,可以分析微博信息)
3、选择合适的物品启动用户兴趣,如:在用户首次登陆时,让用户选择感兴趣的话题(sina weibo)