赤池信息量准则是由日本统计学家赤池弘次创立的,以熵的概念基础确定。

赤池信息量准则 ( Akaike information criterion)-统计学术语_AIC

 

 

 

赤池信息量准则,即Akaike information criterion、简称AIC,是衡量统计模型拟合优良性的一种标准,是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

历史

Akaike 信息准则是由统计学家Hirotugu Akaike制定的。它最初被命名为“信息标准”。Akaike 在 1971 年的一次研讨会上首次用英文宣布;研讨会论文集于 1973 年出版。然而,1973 年的出版物只是对这些概念的非正式介绍。第一个正式出版物是 1974 年 Akaike 的一篇论文。截至 2014年10 月,这篇 1974 年的论文在Web of Science 上的引用次数超过 14,000 次:使其成为有史以来被引用次数最多的研究论文第 73 位。

 

如今,AIC 已经变得足够普遍,以至于经常在不引用 Akaike 1974 年论文的情况下使用它。事实上,有超过 150,000 篇学术文章/书籍使用 AIC(由Google Scholar评估)。

 

AIC 的初始推导依赖于一些强有力的假设。Takeuchi (1976)表明假设可以变得更弱。然而,竹内的作品是用日语写的,多年来在日本以外的地方并不广为人知。

 

AICc 最初由Sugiura (1978)提出用于线性回归(仅)。这激发了Hurvich & Tsai (1989) 的工作,以及同一作者的几篇进一步的论文,这些论文扩展了 AICc 可以应用的情况。

 

Burnham & Anderson (2002) 的著作是对信息论方法的第一次一般性阐述。它包括竹内工作的英文介绍。这本书让 AIC 的使用量大大增加,现在它在Google Scholar上的引用次数超过 48,000 次。

 

赤池称他的方法为“熵最大化原理”,因为该方法建立在信息论中的熵概念之上。事实上,在统计模型中最小化 AIC 等效于最大化热力学系统中的熵。换句话说,统计学中的信息论方法本质上是应用热力学第二定律。因此,AIC 源于路德维希·玻尔兹曼( Ludwig Boltzmann)关于熵的工作 。有关这些问题的更多信息,请参见Akaike (1985)和Burnham & Anderson (2002,第 2 章)。

 

公式:

 

在一般的情况下,AIC可以表示为:

 

AIC=(2k-2L)/n

 

参数越少,AIC值越小,模型越好

 

样本数越多,AIC值越小,模型越好

 

 这和调整的R方思路一致,即对变量多的模型加重惩罚力度

 

它的假设条件是模型的误差服从独立正态分布。

 

其中:k是所拟合模型中参数的数量,L是对数似然值,n是观测值数目。

 

AIC的大小取决于L和k。k取值越小,AIC越小;L取值越大,AIC值越小。k小意味着模型简洁,L大意味着模型精确。因此AIC和修正的决定系数类似,在评价模型是兼顾了简洁性和精确性。

 

具体到,L=-(n/2)*ln(2*pi)-(n/2)*ln(sse/n)-n/2.其中n为样本量,sse为残差平方和

 

表明增加自由参数的数目提高了拟合的优良性,AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是AIC值最小的那一个。赤池信息准则的方法是寻找可以最好地解释数据但包含最少自由参数的模型。

 

 

AICc和AICu

 

在样本小的情况下,AIC转变为AICc:

 

AICc=AIC+[2k(k+1)/(n-k-1)

 

当n增加时,AICc收敛成AIC。所以AICc可以应用在任何样本大小的情况下(Burnham and Anderson, 2004)。

 

McQuarrie 和 Tsai(1998: 22)把AICc定义为:

 

AICc=ln(RSS/n)+(n+k)/(n-k-2),

 

他们提出的另一个紧密相关指标为AICu:

 

AICu=ln[RSS/(n-k)]+(n+k)/(n-k-2).

 

 

QAIC

 

QAIC(Quasi-AIC)可以定义为:

 

QAIC=2k-1/c*2lnL

 

其中:c是方差膨胀因素。因此QAIC可以调整过度离散(或者缺乏拟合)。

 

在小样本情况下, QAIC表示为:

 

QAICc=QAIC+2k(2k+1)/(n-k-1)

 

一些统计软件计算不可靠

一些统计软件将报告 AIC 的值或对数似然函数的最大值,但报告的值并不总是正确的。通常,任何不正确都是由于省略了对数似然函数中的常数。例如,n 个 独立的相同正态分布的对数似然函数是

 

赤池信息量准则 ( Akaike information criterion)-统计学术语_人工智能_02

——这是在获得 AIC 值时最大化的函数。一些软件,然而,省略了常数项( n /2)  ln(2 π ),因此报告了对数似然最大值的错误值,因此也报告了 AIC。如果所有模型的残差都是正态分布的,此类错误对于基于 AIC 的比较无关紧要:因为这样错误就会抵消。然而,一般而言,常数项需要包含在对数似然函数中。 因此,在使用软件计算 AIC 之前,通常最好在软件上运行一些简单的测试,以确保函数值正确。

 

版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

欢迎学习更多风控建模相关知识《python金融风控评分卡模型和数据分析微专业课》

https://edu.51cto.com/sd/f2e9b

赤池信息量准则 ( Akaike information criterion)-统计学术语_统计_03