好久没有更新啦,学业繁忙,不好意思呀!
今天给大家分享得是cox单变量生存分析及Lasso变量选择
- 实验目的:
①掌握Cox单变量或多变量生存分析模型的原理及应用
②掌握Cox模型的自适应Lasso变量选择
- 实验原理:
①Cox模型基本形式:
②单因素cox,部分基因间的表达呈现共线性关系,导致构建的预后模型出现过度拟合。利用lasso的惩罚系数,过滤掉共线性因素,只保留最具有代表性的因素,用于构建预后模型(Lasso回归复杂度调整的程度由参数lambda来控制,lambda越大模型复杂度的惩罚力度越大,从而获得一个较少变量的模型。)
- 实验数据:GSE2034包括
①RNA表达谱数据:GSE2034_RMA_symbol_noRep_non.txt
②样本标签:label.txt
③样本生存信息:infor.txt
- 实验过程
1.
该部分的代码对表达谱进行处理,得到data
2.
该部分使用cox单变量模型筛选显著基因,然后提取这些基因的表达谱
result
data2
3.
对过滤出来的基因进行共线性处理
*结果1:下图中的每一条曲线代表了每一个自变量系数的变化轨迹,纵坐标是系数的值,下横坐标是 log ( λ) ,上横坐标是此时模型中非零系数的个数。我们可以看到,黑线代表的自变量1 在 λ值很大时就有非零的系数,然后随着λ值变小不断变大。
*结果2:因为交叉验证,对于每一个λ值,在红点所示目标参量的均值左右,我们可以得到一个目标参量的置信区间。两条虚线分别指示了两个特殊的λ值:
*结果3:无线性关系的数据:
以上就是整个过程了
为什要进行共线性分析呢,因为有可能多个基因共线性,然后我们可以选取一个来代表,这样减少维度,使维度灾难的可能性降低,同时比较方便分析。