广义线性模型在实际中涵盖了大部分常用模型 ,sparse是针对变量维数远大于样本数时的常用求解技巧,本文记录了广义线性模型加上稀疏假设后的模型和求解方法。
内容
- 1. 基本概念
- 2. logistic regression
- 3. 多分类LR
- 4. log-linear模型和poisson GLM
- 5. cox proportional hazards models
- 6. SVM
1. 基本概念
线性模型:给定N个样本,其中,线性模型是用
来估计的模型
(1)最小二乘估计
求解以上线性模型的常用方法是利用最小二乘估计,有以下目标函数:
(2)lasso估计器
对于特征维度p大于样本数数量N的情况(数据高维),一般增加一些限制,使得解更稀疏,目的是弱化某些维度的特征,让模型更加可解,常用的限制是1-范数:
(3)拉格朗日乘子法
对于上述带限制条件的凸优化问题,一般需要利用拉格朗日乘子法,将问题转化为无约束优化问题:
(4)其他估计器
除了1-范数外,还有常用的2-范数,p-范数作为限制项(5)从概率角度理解最小二乘法
(6)从概率角度理解lasso
先验,贝叶斯公式(坑)
二项分布:在线性模型中,为连续值,对于实际中出现的离散情况,例如,可以将线性模型和lasso的思想推广到一般情况
(1)linear logistic model
对于离散的,可以用线性logistic模型:
(2)GLM
其中,,被称为link function,作用是把和的关系由非线性转化为线性
各种link function和指数分布族(3)GLM+lasso
2. logistic regression
用于的建模:
- 目标函数
- 求解方法
(1)凸优化问题
(2)第二项不可微,常规的梯度下降不可用
(3)coordinate descent
3. 多分类LR
用于的建模:
- 目标函数
其中, - 求解方法
(1)凸优化问题
(2)第二项不可微,常规的梯度下降不可用
(3)coordinate descent
4. log-linear模型和poisson GLM
用于为计数的建模(泊松分布):
- 目标函数
5. cox proportional hazards models
6. SVM
- 目标函数
- 求解方法
(坑)