本文參考CCF YOCSEF的“大数据时代的机器学习报告会”的相关内容。
张长水:大数据时代的机器学习 VS 传统机器学习
从机器学习角度看,“大数据”指的是数据量大,数据本身不够精确。数据混杂,数据自然产生。机器学习对大数据的处理的两个挑战:
- 数据量大导致计算困难
- 分布在不同server上的数据存在一定联系。这些数据基本上不满足“独立同分布”如果,传统的模型和算法非常难适应。
- 在某些应用条件下。高维空间中的局部数据变得稠密。这个现象能够为分类器的设计提供更丰富的信息。甚至使分类器在性能上接近理论极限性能。
- 大数据使样本空间原本“空旷”的区域出现样本。这也为提升分类器性能提供潜在基础。
- 双词语对齐
- 层次化机器翻译解码
- 主题建模
- 提升机器翻译质量
- ...
- 自己主动编码机和Recursive自己主动编码机用于实现从单词和短语到实空间的映射
- 上下文相关的DNN-HMM模型可以自己主动发现双语语料中短语和单词的相似性。从而实现词语对齐
- Recursive Recurrent Neural Network (R2NN)能将不同信息集成起来。建立树结构的翻译候选集
- 点击率预估
- 转换率预估
- 个性化搜索
- 个性化推荐
- 商品自己主动聚类
- 销量预測
该项目产生的背景是因为工业领域产生的数据已达到千亿样本,百亿特征。这导致对于复杂的非线性多分类任务。模型參数的计算量是很巨大的。这就须要通过分布式系统来解决问题。
须要探索在不同机器上分配计算负荷、共享内存计算模型、并行化学习策略以及减少通讯开销的策略和方法。