百度沈国龙:BML百度大规模机器学习云平台实践

百度基础架构部高级架构师沈国龙分享了题为《BML百度大规模机器学习云平台实践》的演讲。

百度、FreeWheel、新浪微博、京东和猎聘推荐系统架构简介_百度


他提到大数据的处理流程包括六个模块:数据、手机、存储、变形、分析、业务场景。并且,他分享了百度大数据处理基础架构,主要讲解了百度大规模机器学习算法框架ELF(Essential Learning Framework)和百度机器学习云BML(Baidu Machine Learning)。ELF框架在设计上汲取了常见计算框架Hadoop、Spark、MPI的精华,拥有和Hadoop一样简单的编程模式,比Spark更快的性能,以及比MPI更易用的接口,并且将计算过程进行托管,提供了包括多轮数据迭代处理、异步更新、并行通信等功能,让用户不在考虑底层的实现细节,专注算法自身逻辑,还拥有性能一流的参数服务器(Parameter Server),可用于存储万亿规模参数。其特点总结为易用、高效。

他通过广告点击率建模应用介绍了百度机器学习。点击率建模的应用算法包括逻辑回归和GBDT + FFM,数据是各种用户点击日志。百度机器学习逻辑回归算法的特点是:支持数百T样本数据训练,千亿特征,千亿样本,支持连续值/离散值;支持L-BFGS和SGD两种算法求解。他提到把不含隐层的浅层学习模型转换为含多个隐层的深度学习模型的原因是:浅层需要观察特征,对特征工程压力很大,深度学习模型从根本上解决了特征的问题。

他总结了机器学习成功的要素:一、数据。包括数据收集和多套数据的打通,清晰、明确、“洁净”的数据源、Online & Offline数据的结合;二、系统。快速、低成本的实现,支持规模快速扩张的高效算法库,AB Test和模型迭代机制;三、评价标准。覆盖率、置信度、差异性、采纳率、新颖性、隐私性、预测Auc、NDCG、收入波动、人工使用体验等指标,对整体系统的影响。

百度、FreeWheel、新浪微博、京东和猎聘推荐系统架构简介_数据_02


最后,他介绍了广告推荐系统的流程。首先把数据日志、移动端日志、CRM、Marketing System与互联网数据进行打通。然后,提供各种数据工具进行分析、统计、挖掘。接下来,训练模型并发布预测服务。然后,通过智能Retargeting挽留老用户、发掘新用户,进行推广。

FreeWheel李旸:基于大数据的新兴视频广告测量实践

FreeWheel技术副总裁李旸分享了题为《FreeWheel基于大数据的新兴视频广告测量实践》的演讲。他主要从以下三个方面进行了分享:新兴视频广告测量方式、用户性别年龄预测、广告完成率预测。

百度、FreeWheel、新浪微博、京东和猎聘推荐系统架构简介_百度_03


他提到广告测量的挑战仍然是广告的实际效果很难被测量,而且市场里还没有建立起行之有效的被广告主和媒体都接受的广告测量方式。目前大多数都采用基于用户反馈进行测量。新兴视频广告测量方式包括三种:数字收视率、广告完成、可见曝光。数字收视率测量流程为:一、创建广告订单;二、注册该广告订单;三、播放视频;四、请求广告;五、发送beacon;六、返回前日投放结果。该方法面临的挑战是投放时预测用户年龄性别,年龄预测和性别预测的方法是完全类似的,一个直观的思路是把它想象成有监督分类问题,把前面的观看历史和静态信息当成一个特征,就可以知道用户的性别到底是什么,但问题是缺少有效的样本标注手段。

分析用户年龄性别的一个比较有用的特征是之前视频和网页的观看历史。基于名称和简短描述,提取两个特征,即Genre和Topic。对每个Genre训练一个SVM模型,获得特征为2-gram词表在正负样本中出现的次数的比值。利用LDA提取了100个Topic。Topic提取特征可以作为前面Genre模型很好的补充,把这两个结合作为一个网页或者视频特征的描述。

百度、FreeWheel、新浪微博、京东和猎聘推荐系统架构简介_数据_04


有了训练和特征,剩下就是做分类。采用不同的模型,发现计算用户的性别概率的准确率有时候比较低,这种现象有两方面原因:一方面是训练本身就不是百分之百准确;当有些用户观看率比较少的时候用这个模型计算也不是太准确。解决这个问题的办法是使用相似用户平滑进行优化,具体使用SVD分解,把用户在两千个网页上的浏览行为,映射到200维的特征空间,根据向量的距离,计算新用户和之前哪些新用户比较相似,提取比较相似的用户,取一个平均值,作为一部分的预测结果,再把这个结果和通过模型算出来的结果做加权平均,用这种方法得出最终平滑预测的结果。

广告完成率预测。广告完成率,是给定广告、用户、当前请求环境的条件下去预测广告完成事件可能出现的一个条件概率,它实际上是典型的回归问题,回归特征主要来自于三个维度,广告和用户。

新浪微博姜贵彬:大数据驱动下的微博社会化推荐

新浪微博算法技术总监姜贵彬分享了题为《大数据驱动下的微博社会化推荐》的演讲。他主要从以下几个方面进行了分享:推荐的角色与定位、大数据与推荐的关系、数据驱动下的微博推荐、商业推荐。

推荐的角色与定位。他认为微博的核心目标是提升关系构建量、内容传播速度和商业化营收。推荐手段包括大数据分析、兴趣协同、行为触发。推荐扮演了加速器和调控器的角色。加速器是指加速优质信息传播、加速高价值关系构建、加速用户成长。调控器是指优化用户关系网络结构、调控和引爆信息的定向传播。

百度、FreeWheel、新浪微博、京东和猎聘推荐系统架构简介_百度_05


大数据与推荐的关系。他认为数据量大是大数据的前提条件,这个爆炸式的数据增长,是深度和广度的增加,是数据多样性的提升。大数据的意义在于可以通过这些数据获取到原来数据中无法获取到的东西,对一些事情的认知会更加的全面、立体。相比于一般数据,他认为大数据效果随采样率降低而显著降低,大数据分析要求较高的采样率,推荐是典型的大数据问题,大数据是推荐系统的基石。

百度、FreeWheel、新浪微博、京东和猎聘推荐系统架构简介_数据_06


数据驱动下的微博推荐。他认为社会化的概念是去中心化、非对等性、社会化分工。他提到从信息层面微博数据特点是碎片化、UGC与媒体共存、简短、传播速度快、丰富。微博由点到面的关系网络结构,使微博具有非常强的信息传播能力。这个特点是把双刃剑,带来优势也会引发问题:传播速度过快,会让旧的信息很快被淹没掉,不管它是高价值的,还是低价值的,从而怎么样让优质信息沉淀下来,获得更多的曝光机会,是推荐需要去考虑和解决的问题。他认为产品设计应该顺应用户行为、自然流畅,先从最有效的推荐场景入手。关于推荐系统的架构,他提到应用层将场景特征传入在线服务,进行流量切分、算法策略选择和排序。该系统分为初选和终选。在算法实践上,他主要介绍了算法体系、协同过滤、相关性推荐、预估模型、时序混合、模型融合。

商业推荐。算法优化目标是在一层曝光量的前提下获得更多的实际曝光量和互动数。

京东万昊:大数据技术在京东广告中的应用

京东数字营销大数据高级总监万昊分享了题为《大数据技术在京东广告中的应用》的演讲。他主要分享了三个方面:大数据不仅仅在于数据大,更重要的在于对数据的洞察;广告中最重要的大数据应用在于定向;京东的大数据的三赢。

百度、FreeWheel、新浪微博、京东和猎聘推荐系统架构简介_百度_07


数据洞察是指数据里挖掘出的能够应用于产品、提升效果的规律。定向是指广告商希望哪些用户看到自己的广告,但更重要的是猜测自己产品的用户应该具有哪些特征,最直接的是找到潜在用户。搜索词定向是定向搜索了相应关键词的用户。购物行为定向那些看过或者买过特定商品、品牌、店铺、类目的用户。

百度、FreeWheel、新浪微博、京东和猎聘推荐系统架构简介_数据_08




Java后端架构,关注获取更多技术分享

百度、FreeWheel、新浪微博、京东和猎聘推荐系统架构简介_大数据_09

欢迎加入互联网后端架构