异常检测(Anomaly Detection)

Problem Motivation

这是机器学习算法的一个常见应用。这种算法的一个有趣之处在于:它虽然主要用于非监督学习问
题,但从某些角度看,它又类似于一些监督学习问题。

什么是异常检测呢?为了解释这个概念,让我举一个例子吧:

假想你是一个飞机引擎制造商,当你生产的飞机引擎从生产线上流出时,你需要进行 QA(质量控制测试),而作为这个测试的一部分,你测量了飞机引擎的一些特征变量,比如引擎运转时产生的热量,或者引擎的振动等等。

ml-9-1-异常检测(Anomaly Detection)_python

这样一来,你就有了一个数据集,从 x (1) 到 x (m) ,如果你生产了 m 个引擎的话,你将这些数据绘制成图表,看起来就是这个样子:

ml-9-1-异常检测(Anomaly Detection)_机器学习_02

这里的每个点、每个叉,都是你的无标签数据。这样,异常检测问题可以定义如下:我们假设后来有一天,你有一个新的飞机引擎从生产线上流出,而你的新飞机引擎有特征变量x test 。所谓的异常检测问题就是:我们希望知道这个新的飞机引擎是否有某种异常,或者说,我们希望判断这个引擎是否需要进一步测试。因为,如果它看起来像一个正常的引擎,那么我们可以直接将它运送到客户那里,而不需要进一步的测试。

给定数据集 x (1) ,x (2) ,…,x (m) ,我们假使数据集是正常的,我们希望知道新的数据 x test 是不
是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测
试数据的位置告诉我们其属于一组数据的可能性 p(x)。

ml-9-1-异常检测(Anomaly Detection)_大数据_03

上图中,在蓝色圈内的数据属于该组数据的可能性较高,而越是偏远的数据,其属于该
组数据的可能性就越低。

这种方法称为密度估计,表达如下:

ml-9-1-异常检测(Anomaly Detection)_人工智能_04

欺诈检测:

X (i) = 用户的第 i 个活动特征

模型 p(x) =我们其属于一组数据的可能性

通过 p(x)<ε 检测非正常用户。

异常检测主要用来识别欺骗。例如在线采集而来的有关用户的数据,一个特征向量中可能会包含如:用户多久登录一次,访问过的页面,在论坛发布的帖子数量,甚至是打字速度等。尝试根据这些特征构建一个模型,可以用这个模型来识别那些不符合该模式的用户。

再一个例子是检测一个数据中心,特征可能包含:内存使用情况,被访问的磁盘数量,CPU 的负载,网络的通信量等。根据这些特征可以构建一个模型,用来判断某些计算机是不是有可能出错了。

Gaussian Distribution高斯分布

高斯分布,也称为正态分布。回顾高斯分布的基本知识。
通常如果我们认为变量 x 符合高斯分布 x~N(μ,σ 2 )则其概率密度函数为:

ml-9-1-异常检测(Anomaly Detection)_python_05

我们可以利用已有的数据来预测总体中的 μ 和 σ 2 的计算方法如下:

ml-9-1-异常检测(Anomaly Detection)_机器学习_06

高斯分布样例:

ml-9-1-异常检测(Anomaly Detection)_机器学习_07

注:机器学习中对于方差我们通常只除以 m 而非统计学中的(m-1)。这里顺便提一下,在实际使用中,到底是选择使用 1/m 还是 1/(m-1)其实区别很小,只要你有一个还算大的训练集,在机器学习领域大部分人更习惯使用 1/m 这个版本的公式。这两个版本的公式在理论特性和数学特性上稍有不同,但是在实际使用中,他们的区别甚小,几乎可以忽略不计。

Algorithm算法

应用高斯分布开发异常检测算法。
异常检测算法:

对于给定的数据集 x (1) ,x (2) ,…,x (m) ,我们要针对每一个特征计算 μ 和 σ 2 的估计值。

ml-9-1-异常检测(Anomaly Detection)_人工智能_08

一旦我们获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算 p(x):

ml-9-1-异常检测(Anomaly Detection)_大数据_09

当 p(x)<ε 时,为异常。
下图是一个由两个特征的训练集,以及特征的分布情况:

ml-9-1-异常检测(Anomaly Detection)_机器学习_10

下面的三维图表表示的是密度估计函数,z 轴为根据两个特征的值所估计 p(x)值:

ml-9-1-异常检测(Anomaly Detection)_人工智能_11

选择一个 ε,将 p(x)=ε 作为我们的判定边界,当 p(x)>ε 时预测数据为正常数据,否则则为异常.

Developing and Evaluating an Anomaly Detection System开发和评价一个异常检测系统

异常检测算法是一个非监督学习算法,意味着我们无法根据结果变量 y 的值来告诉我们数据是否真的是异常的。我们需要另一种方法来帮助检验算法是否有效。当我们开发一个异常检测系统时,我们从带标记(异常或正常)的数据着手,我们从其中选择一部分正常数据用于构建训练集,然后用剩下的正常数据和异常数据混合的数据构成交叉检验集和测试集。

例如:我们有 10000 台正常引擎的数据,有 20 台异常引擎的数据。 我们这样分配数
据:

  • 6000 台正常引擎的数据作为训练集

  • 2000 台正常引擎和 10 台异常引擎的数据作为交叉检验集

  • 2000 台正常引擎和 10 台异常引擎的数据作为测试集

具体的评价方法如下:

  1. 根据测试集数据,我们估计特征的平均值和方差并构建 p(x)函数
  2. 对交叉检验集,我们尝试使用不同的 ε 值作为阀值,并预测数据是否异常,根据 F 1
    值或者查准率与查全率的比例来选择 ε
  3. 选出 ε 后,针对测试集进行预测,计算异常检验系统的 F 1 值,或者查准率与查全
    率之比
    选择一个 ε,将 p(x)=ε 作为我们的判定边界,当 p(x)>ε 时预测数据为正常数据,

之前我们构建的异常检测系统也使用了带标记的数据,与监督学习有些相似,下面的对
比有助于选择采用监督学习还是异常检测:

两者比较:

ml-9-1-异常检测(Anomaly Detection)_学习_12

Choosing What Features to Use选择特征

对于异常检测算法,我们使用的特征是至关重要的,下面谈谈如何选择特征:异常检测假设特征符合高斯分布,如果数据的分布不是高斯分布,异常检测算法也能够工作,但是最好还是将数据转换成高斯分布,例如使用对数函数:x = log(x+c),其中 c 为非负常数; 或者 x=x c ,c 为 0-1 之间的一个分数,等方法。

ml-9-1-异常检测(Anomaly Detection)_学习_13

误差分析:

一个常见的问题是一些异常的数据可能也会有较高的 p(x)值,因而被算法认为是正常的。这种情况下误差分析能够帮助我们,我们可以分析那些被算法错误预测为正常的数据,观察能否找出一些问题。我们可能能从问题中发现我们需要增加一些新的特征,增加这些新特征后获得的新算法能够帮助我们更好地进行异常检测。

异常检测误差分析:

ml-9-1-异常检测(Anomaly Detection)_学习_14

我们通常可以通过将一些相关的特征进行组合,来获得一些新的更好的特征(异常数据的该特征值异常地大或小),例如,在检测数据中心的计算机状况的例子中,我们可以用 CPU负载与网络通信量的比例作为一个新的特征,如果该值异常地大,便有可能意味着该服务器是陷入了一些问题中。

Multivariate Gaussian Distribution多元高斯分布

假使我们有两个相关的特征,而且这两个特征的值域范围比较宽,这种情况下,一般的高斯分布模型可能不能很好地识别异常数据。其原因在于,一般的高斯分布模型尝试的是去同时抓住两个特征的偏差,因此创造出一个比较大的判定边界。

下图中是两个相关特征,洋红色的线(根据 ε 的不同其范围可大可小)是一般的高斯分布模型获得的判定边界,明显绿色的 X 所代表的数据点很可能是异常值,但是其 p(x)值却仍然在正常范围内。多元高斯分布将创建像图中蓝色曲线所示的判定边界。

ml-9-1-异常检测(Anomaly Detection)_人工智能_15

在一般的高斯分布模型中,我们计算 p(x)的方法是: 通过分别计算每个特征对应的几率然后将其累乘起来,在多元高斯分布模型中,我们将构建特征的协方差矩阵,用所有的特
征一起来计算 p(x)。

我们首先计算所有特征的平均值,然后再计算协方差矩阵:

ml-9-1-异常检测(Anomaly Detection)_人工智能_16

注:其中 μ 是一个向量,其每一个单元都是原特征矩阵中一行数据的均值。最后我们计
算多元高斯分布的 p(x):

ml-9-1-异常检测(Anomaly Detection)_机器学习_17

|Σ|是定矩阵,在 Octave 中用 det(sigma)计算
Σ1 是逆矩阵,下面我们来看看协方差矩阵是如何影响模型的:

ml-9-1-异常检测(Anomaly Detection)_机器学习_18

上图是 5 个不同的模型,从左往右依次分析:

  1. 是一个一般的高斯分布模型
  2. 通过协方差矩阵,令特征 1 拥有较小的偏差,同时保持特征 2 的偏差
  3. 通过协方差矩阵,令特征 2 拥有较大的偏差,同时保持特征 1 的偏差
  4. 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的正相关
  5. 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的负相关

多元高斯分布模型与原高斯分布模型的关系:

可以证明的是,原本的高斯分布模型是多元高斯分布模型的一个子集,即像上图中的第
1、2、3,3 个例子所示,如果协方差矩阵只在对角线的单位上有非零的值时,即为原本的
高斯分布模型了。

原高斯分布模型和多元高斯分布模型的比较:

ml-9-1-异常检测(Anomaly Detection)_大数据_19

原高斯分布模型被广泛使用着,如果特征之间在某种程度上存在相互关联的情况,我们
可以通过构造新新特征的方法来捕捉这些相关性。

如果训练集不是太大,并且没有太多的特征,我们可以使用多元高斯分布模型。

Anomaly Detection using the Multivariate Gaussian Distribution使用多元高斯分布进行异常检测

关于多元高斯分布,看到的一些建立的各种分布模型,当
你改变参数,μ和Σ。在这段视频中,让我们用这些想法,并应用它们制定一个不同的异常
检测算法。

要回顾一下多元高斯分布和多元正态分布:

ml-9-1-异常检测(Anomaly Detection)_机器学习_20

分布有两个参数,μ和Σ。其中μ这一个 n 维向量和Σ的协方差矩阵,是一种 n 乘 n 的
矩阵。而这里的公式 X 的概率,如按μ和参数化Σ,和你的变量μ和Σ,你可以得到一个范
围的不同分布一样,你知道的,这些都是三个样本,那些我们在以前的视频看过了。

因此,让我们谈谈参数拟合或参数估计问题:

这其实只是当我们使用 PCA 算法时候,有Σ时写出来。所以你只需插入上述两个公式,
这会给你你估计的参数μ和你估计的参数Σ。所以,这里给出的数据集是你如何估计μ和Σ。
让我们以这种方法而只需将其插入到异常检测算法。那么,我们如何把所有这一切共同开发一个异常检测算法?

ml-9-1-异常检测(Anomaly Detection)_python_21

首先,我们把我们的训练集,和我们的拟合模型,我们计算 P(x),要知道,设定μ和描述的
一样Σ。

ml-9-1-异常检测(Anomaly Detection)_学习_22

如图,该分布在中央最多,越到外面的圈的范围越小。
并在该点是出路这里的概率非常低。
原始模型与多元高斯模型的关系如图:
其中:协方差矩阵Σ为:

ml-9-1-异常检测(Anomaly Detection)_机器学习_23

ml-9-1-异常检测(Anomaly Detection)_python_24