好久没有更新啦,学业繁忙,不好意思呀!

今天给大家分享得是cox单变量生存分析及Lasso变量选择

  • 实验目的:

①掌握Cox单变量或多变量生存分析模型的原理及应用

②掌握Cox模型的自适应Lasso变量选择

  • 实验原理:

①Cox模型基本形式:

多少个变量适用于lasso回归 lasso回归选择变量_复杂度

②单因素cox,部分基因间的表达呈现共线性关系,导致构建的预后模型出现过度拟合。利用lasso的惩罚系数,过滤掉共线性因素,只保留最具有代表性的因素,用于构建预后模型(Lasso回归复杂度调整的程度由参数lambda来控制,lambda越大模型复杂度的惩罚力度越大,从而获得一个较少变量的模型。)

  • 实验数据:GSE2034包括

①RNA表达谱数据:GSE2034_RMA_symbol_noRep_non.txt

②样本标签:label.txt

③样本生存信息:infor.txt

  • 实验过程
    1.

该部分的代码对表达谱进行处理,得到data

多少个变量适用于lasso回归 lasso回归选择变量_Lasso_02

2.

多少个变量适用于lasso回归 lasso回归选择变量_自适应lasso_03

该部分使用cox单变量模型筛选显著基因,然后提取这些基因的表达谱

result

多少个变量适用于lasso回归 lasso回归选择变量_自适应lasso_04

data2

多少个变量适用于lasso回归 lasso回归选择变量_Lasso_05

3.

多少个变量适用于lasso回归 lasso回归选择变量_数据_06

对过滤出来的基因进行共线性处理

*结果1:下图中的每一条曲线代表了每一个自变量系数的变化轨迹,纵坐标是系数的值,下横坐标是  log ( λ) ,上横坐标是此时模型中非零系数的个数。我们可以看到,黑线代表的自变量1 在  λ值很大时就有非零的系数,然后随着λ值变小不断变大。

多少个变量适用于lasso回归 lasso回归选择变量_自适应lasso_07

*结果2:因为交叉验证,对于每一个λ值,在红点所示目标参量的均值左右,我们可以得到一个目标参量的置信区间。两条虚线分别指示了两个特殊的λ值:

多少个变量适用于lasso回归 lasso回归选择变量_Lasso_08

*结果3:无线性关系的数据:

多少个变量适用于lasso回归 lasso回归选择变量_自适应lasso_09

以上就是整个过程了

为什要进行共线性分析呢,因为有可能多个基因共线性,然后我们可以选取一个来代表,这样减少维度,使维度灾难的可能性降低,同时比较方便分析。