logistic回归为概率型非线性回归模型,是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法
- 可解决的问题:
因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。 - 因变量的类型:
可为连续变量、等级变量、分类变量。 - 适用性
两元因变量的logistic回归模型方程讲解
- 一个自变量与Y关系的回归模型如:记为p(y=1/x)表示某暴露因素状态下,结果y=1的概率(P)模型。
- 或者:
- Logistic回归函数的几何图形为
- 模型中的参数(βi)估计
通常用最大似然函数 (maximum likelihood estimate, MLE)估计β, 由统计软件包完成。
梯度下降法
logistic回归方法补充多元线性回归的不足
- 多元线性回归方法要求 Y 的取值为计量的连续性随机变量。
- 多元线性回归方程要求Y与X间关系为线性关系。
- 多元线性回归结果 不能回答“发生与否”
最大似然估计的原理
给定一个概率分布,假定其概率密度函数(连续分布)或概率质量函数(离散分布)为,以及一个分布参数,我们可以从这个分布中抽出一个具有个值的采样
,通过利用,我们就能计算出其概率:
但是,我们可能不知道的值,尽管我们知道这些采样数据来自于分布。那么我们如何才能估计出呢?一个自然的想法是从这个分布中抽出一个具有个值的采样
,然后这些采样数据来估计. 一旦我们获得
,我们就能从中找到一个关于的估计。最大似然估计会寻找关于的最可能的值(即,在所有可能的取值中,寻找一个值使这个采样的“可能性”最大化)。这种方法正好同一些其他的估计方法不同,如的非偏估计,非偏估计未必会输出一个最可能的值,而是会输出一个既不高估也不低估的值。