本文參考CCF YOCSEF的“大数据时代的机器学习报告会”的相关内容


张长水:大数据时代的机器学习 VS 传统机器学习

从机器学习角度看,“大数据”指的是数据量大,数据本身不够精确。数据混杂,数据自然产生。机器学习对大数据的处理的两个挑战:

  • 数据量大导致计算困难
  • 分布在不同server上的数据存在一定联系。这些数据基本上不满足“独立同分布”如果,传统的模型和算法非常难适应。

大数据时代给机器学习带来新的机遇:
  • 在某些应用条件下。高维空间中的局部数据变得稠密。这个现象能够为分类器的设计提供更丰富的信息。甚至使分类器在性能上接近理论极限性能。
  • 大数据使样本空间原本“空旷”的区域出现样本。这也为提升分类器性能提供潜在基础。


于剑:从认知角度看待大数据
该报告从认知角度分析数据与知识的联系。眼下机器学习的知识主要是概念,传统的小数据非常难反映领域的复杂知识,大数据提供了学习复杂知识的机会。在大数据时代,未来的机器学习能够超越概念学习。进入复杂知识学习时代。


李沐:深度学习在统计机器学习领域的应用
深度学习在图像,视频领域已经取得非常大的进展。可是在自然语言处理方面。还有非常多的问题须要解决。包含怎样用深度学习的方法处理:
  • 双词语对齐
  • 层次化机器翻译解码
  • 主题建模
  • 提升机器翻译质量
  • ...
当前该领域的一些进展:
  • 自己主动编码机和Recursive自己主动编码机用于实现从单词和短语到实空间的映射
  • 上下文相关的DNN-HMM模型可以自己主动发现双语语料中短语和单词的相似性。从而实现词语对齐
  • Recursive Recurrent Neural Network (R2NN)能将不同信息集成起来。建立树结构的翻译候选集

 徐盈辉:大规模机器学习在阿里电子商务中的应用
当前,阿里数据平台事业部的server上。积攒下超过100PB的多元异构数据。电子商务环境下的机器学习课题包含:
  • 点击率预估
  • 转换率预估
  • 个性化搜索
  • 个性化推荐
  • 商品自己主动聚类
  • 销量预測

李沐:大规模分布式机器学习系统及其应用
该报告主要介绍由百度,Google以及CMU合作建立的开源计算平台---參数server(Parameter Server)。

该项目产生的背景是因为工业领域产生的数据已达到千亿样本,百亿特征。这导致对于复杂的非线性多分类任务。模型參数的计算量是很巨大的。这就须要通过分布式系统来解决问题。

须要探索在不同机器上分配计算负荷、共享内存计算模型、并行化学习策略以及减少通讯开销的策略和方法。


PS:人物介绍
张长水:清华大学教授
于剑:北京交通大学教授
李沐:微软亚洲研究院研究员,百度深度学习研究院少帅学者
徐盈辉:淘宝搜索算法高级研发专家