作者:Lucky和小白

在机器学习领域,总是看到“算法的鲁棒性”这类字眼,比如这句–L1范数比L2范数鲁棒。

“鲁棒”的英文是robustness,其是一个特别大的研究领域。最权威的著作当属稳健统计的2本厚书 文献[1]和[2],有志之士可作研究。

本人的硕士论文对算法鲁棒性有所涉及,并偏向聚类算法的鲁棒性,但也只是学到了一点皮毛,考虑到网上的相关博文极少,故在此记录一番。

Huber从稳健统计的角度系统地给出了鲁棒性3个层面的概念:

一是模型具有较高的精度或有效性,这也是对于机器学习中所有学习模型的基本要求;

二是对于模型假设出现的较小偏差,只能对算法性能产生较小的影响;   

	主要是:噪声(noise)

三是对于模型假设出现的较大偏差,不可对算法性能产生“灾难性”的影响。  

	主要是:离群点(outlier)

聚类算法的鲁棒性:

1)  定义
    对于聚类算法而言,鲁棒性意味着聚类结果不应受到模型中存在的数据扰动、噪声及离群点的太大影响。

2)  综述文章
     文献[4] [5]

提升对离群点数据鲁棒性的方法

1)lp范数,0<p<=1

文献[6]
文献[7]  给出了 一种鲁棒化PCA的方法,采用了L1范数。本人在博文[机器学习]Lasso,L1范数,及其鲁棒性中分析了L1范数相对于L2范数的鲁棒性,引用了文献[7]。

2)采取鲁棒的数据模型

被广泛使用的数据模型:
机器学习 鲁棒性检验 算法鲁棒性是什么意思_机器学习 鲁棒性检验

u–干净簇中心向量,e–噪声向量。

上述数据模型改造为:
机器学习 鲁棒性检验 算法鲁棒性是什么意思_参考文献_02
o–outlier。采用该数据模型,再在目标函数中引入关于o的惩罚项(如L1,L2范数),可提高算法鲁棒性。

参考文献:聚类 – 文献[8], PCA – 文献[9]

未来发展:

TomDietterich教授表达了对人工智能鲁棒性的特别关注,参考文献[3] – 一篇顶会的ppt。

参考文献:

[1] Huber P J. Robust Statistics[J]. 1981. Wiley, New York.

[2] Hampel F R, Ronchetti E M, Rousseeuw P J, et al. Robust statistics: the approach based on influence functions[J]. 1986. Wiley, New York.

[3] http://web.engr.oregonstate.edu/~tgd/talks/dietterich-aaai-presidents-address-final.pdf

[4] Luis Angel García-Escudero, Alfonso Gordaliza, Carlos Matrán, et al. A review of robust clustering methods[J]. Advances in Data Analysis and Classification, 2010, 4(2-3):89-109.

[5] Dave R N, Krishnapuram R. Robust clustering methods: a unified view[J]. IEEE Transactions on Fuzzy Systems, 2002, 5(2):270-293.

[6] Nie F, Wang H, Cai X, et al. Robust Matrix Completion via Joint Schatten p-Norm and lp-Norm Minimization[C]// IEEE, International Conference on Data Mining. IEEE, 2013:566-574.

[7] Meng D, Zhao Q, Xu Z. Improve robustness of sparse PCA by L1-norm maximization[J]. Pattern Recognition, 2012, 45(1): 487-497.

[8] Forero P A, Kekatos V, Giannakis G B. Robust clustering using outlier-sparsity regularization[J]. IEEE Transactions on Signal Processing, 2012, 60(8): 4163-4177.

[9] Mateos G, Giannakis G B. Robust PCA as bilinear decomposition with outlier-sparsity regularization[J]. IEEE Transactions on Signal Processing, 2012, 60(10): 5176-5190.