非参数回归模型

对回归函数f()的具体形式不做任何假定或是只做一些简单的光滑性要求,依靠观测数据寻求f()的特征

非参数光滑方法

权函数估计

基于局部加权的思想,利用周围的点拟合某点处回归函数的值。
假设要估计半监督线性回归_参数空间对应的半监督线性回归_样条_02半监督线性回归_回归_03对应的权函数为半监督线性回归_样条_04,则加权估计为:
半监督线性回归_多项式_05
常用的包括核估计方法、局部多项式估计方法

最小二乘法

利用参数空间逼近无穷维参数空间,基于不同的逼近思想构造参数空间的基函数,将未知函数(无穷维参数)的估计问题转为(有限个)未知参数的估计问题,从而利用最小二乘法得到估计。

样条方法

  • 多项式回归的一种推广。利用分段不同阶数的多项式拟合数据,使得两个多项式函数在knots处可以允许不连续的导数,这样使得估计的回归函数更具有灵活性。
  • 半监督线性回归_参数空间_06为固定节点,这些节点将实直线划分为多个区间。以三次样条为例,有连续二阶导,并且在每个区间内都是三次多项式。所有的三次样条函数形成一个J+4维的线性空间。
  • 常见三次样条基:
  1. 幂基:半监督线性回归_半监督线性回归_07
  2. B-spline
  • 设选定的三次样条基为半监督线性回归_半监督线性回归_08,则三次样条函数为:
    半监督线性回归_多项式_09
    上面的未知参数半监督线性回归_参数空间_10可以通过极小化
    半监督线性回归_回归_11
    得到。
  • J被称为光滑参数,基由节点唯一确定。随着节点数目减少,B样条估计的方差越小,偏差越大。节点个数在拟合数据和光滑程度之间起到平衡作用

光滑样条估计

是一种惩罚最小二乘方法。与上述样条方法的不同在于,它是自动选取节点。表现在公式上就是,在原来的基础上加上一些惩罚项,避免自动选取节点时将所有的点都考虑在内造成过拟合。
如最小二乘估计:
半监督线性回归_参数空间_12
后面一项就是惩罚项,要求m具有二阶连续导数

半参数模型

五类重要的半参数模型:

  1. 若影响L的因素可以分为两个部分,即半监督线性回归_样条_13。根据经验可知半监督线性回归_半监督线性回归_14是主要因素,且L与半监督线性回归_半监督线性回归_14的关系为线性,半监督线性回归_半监督线性回归_16则是某种干扰因素,两者关系未知,且没有理由将其放入误差项,从而有:
    半监督线性回归_回归_17
    其中半监督线性回归_多项式_18为i.i.d随机误差,且半监督线性回归_样条_19
  2. 若影响L的因素b可分为两部分:线性与非线性,且无法将任何一部分归入误差项,从而:
    半监督线性回归_多项式_20
  3. 影响L的因素除了线性部分和偶然误差外,其余部分很复杂,无法用少数参数表示,从而:
    半监督线性回归_半监督线性回归_21
    其中半监督线性回归_半监督线性回归_22是描述模型误差或系统误差的n维未知向量,B是列满秩设计矩阵,半监督线性回归_参数空间_23是偶然误差
  4. 影响L的因素可以表示成线性部分和非参数部分的未知函数:
    半监督线性回归_回归_24
    上述模型是广义半参数模型
  5. 存在删失数据的情况下:
    半监督线性回归_回归_25
    其中半监督线性回归_半监督线性回归_26为[0,1]上未知的Borel函数,半监督线性回归_半监督线性回归_27半监督线性回归_多项式_28上的随即设计或常数序列,随机误差序列半监督线性回归_多项式_29满足半监督线性回归_回归_30

半参数模型的估计方法

  • 参数化估计
    对函数空间施加限制(光滑性),利用合理的逼近形式,(如:半监督线性回归_样条_31,其中半监督线性回归_半监督线性回归_32是一组基)参数化非参部分,将估计半监督线性回归_半监督线性回归_33问题转化为估计有限维参数,从而可以使用线性模型的方法同时估计x和半监督线性回归_回归_34
  • 两步估计
    将参数方法与非参数方法综合,参数部分使用最小二乘法,非参数部分可以使用样条估计,核估计,近邻估计等等。。。
  • 二阶段估计
    将半参数模型变成标准的线性模型,利用最小二乘估计法得到参数分量的第一次估计,并由新模型的残差得出非参数分量的估计,再将非参数分量的估计代回元模型,再次利用最小二乘法得到参数分量的估计
  • 稳健估计-M估计
    最小二乘法缺乏稳健性,因此考虑使用半参数M估计作为替代,上述思想仍然可以使用
  • 补偿最小二乘法
    既考虑了估计量数据的拟合,还顾及了非参数分量估计的光滑性,是最广泛使用的方法

惩罚最小二乘法

针对第三类模型:

  • 对正规化后的残差求期望,由于有偏,所以对目标函数(正规化的残差)进行修正,再添加一些光滑性限制条件
  • 针对目标函数利用拉格朗日乘数法求解,从而得到X和S的估计
  • 最后如果需要对非参部分参数化,可以利用一些非参的方法对S的值建立回归模型

二阶段法

针对第一类模型:

  • 假设x已知,利用最小二乘估计得到x得到第一阶段估计半监督线性回归_参数空间_35
  • 由新模型的残差,利用近邻核权函数得到非参分量的第一阶段估计半监督线性回归_样条_36
  • 为了改进x的估计,再第一阶段的基础上,将半监督线性回归_样条_36带入原模型,再对模型利用最小二乘法,求得半监督线性回归_参数空间_35,称为第二阶段估计
  • 再将半监督线性回归_参数空间_35带入半监督线性回归_样条_36的非参估计式,得到半监督线性回归_样条_36的第二阶段估计

半监督线性回归_回归_42半监督线性回归_样条_43具有渐近正态性、相合性等良好性质