阅读背景:

             1 : 您需要知道什么是NetFlix? 

             2 : 推荐系统的基本概念?

             3 :  推荐系统的实时化。


    阅读目的:

               精确的了解目前推荐系统的分层结构:确立各个层次之间精细划分。

            

系统被分为3部分, online,nearLine和离线部分(offLine)。Online和nearLine部分一起认为是实时部分。

离线部分就是传统的个性化推荐系统的主体,定期将大量存储的数据拿出来进行批处理运算,然后对模型进行建立与更新,这里就不详细介绍了。

nearLine部分,是将用户产生的事件,利用流式计算得到一些中间结果,这些中间结果一方面发送给online部分用于实时更新推荐模型,另一方面将中间结果存储起来,例如存储在MemCached、Cassandra、MySql等可以快速查询的存储中作为备份。在NetFlix的系统中,他们的流式计算是通过一个叫做NetFlix.Manhattan来实现的,它是一个类似于Storm的实时流式计算框架,只是针对他们自己的应用有一定的特异性,不是通用的实时计算框架。

然后是online部分。这一部分利用离线部分的主体模型并考虑nearLine部分的实时数据对模型进行增量更新,然后可以得到一个实时的推荐模型,进而根据用户的行为来对用户进行实时推荐。

个性化推荐系统架构的关键问题,就是如何以无缝方式实现在线和离线计算过程,说到底,也是算法的设计,如何将算法的计算步骤合理分配到各个部分,使得得到的模型既可以非常准确,又可以快速计算出来以满足实时性的要求。

    

   图片超过上传限制: 待补: