福利
完整机器学习/数据挖掘面试题可以点击这里获取:完整资料下载地址
生存分析,是将观察结局和出现这一结局所经历的时间结合起来分析的一种统计分析方法,已经被广泛地应用于癌症数据分析领域,来揭示疾病特征和预后结局的关系,为临床医生提供预后信息和临床决策支持。常用的生存分析方法有KM曲线法和Cox模型分析法。它们因为易操作性、易解读性和对生存数据的良好拟合特性而被广泛用于癌症的预后研究。但是,这两种方法有着相同的缺点:1)研究人员根据自己的经验,将连续型变量转为分类型变量带入模型进行分析。因此,这两种模型提供的是一个群体的预测信息,而不是个性化的预测信息;2)人为的分组方式也不一定是最优的;难以找到也无法确认一个最优的分组方式。同时,将连续型变量转变为分类型变量来处理,变量的非线性影响特性就会被忽略,可能会导致预后信息的丢失。发表在柳叶刀上的一篇关于胃肠道间质瘤复发风险的研究显示:肿瘤大小和核分裂相计数对胃肠道间质瘤的复发风险存在着显著的非线性影响;与常用的风险分层模型相比,利用非线性模型进行胃肠道间质瘤的复发进行预测具有更高的准确性。此外,能进行多变量分析的Cox模型还需要满足比例风险假设,不符合这个假设的数据应用Cox模型,可能会生成错误的模型和错误的结论。比例风险假设是指各个协变量对生存结局的风险值不随时间的改变而改变,即一个风险因素的取值一定时,该风险因素对生存结局的影响一直不变。已经有许多研究者发表了预测因子不符合比例风险假设的研究,比如雌激素受体和肿瘤大小对乳腺癌预后的影响,卡式评分对卵巢癌预后的影响等。
Cox在提出Cox模型的时候,就指出研究数据不符合比例风险假设的可能性,并给出了补偿方法,即把Cox比例风险模型中的时间变量用一个时间函数来代替,拟合协变量风险随时间变化的趋势。这种方法有一个显著的不足:时间函数的形式不确定,需要人工指定,难以找到且无法确认一个最优的时间函数。随着Cox模型的广泛使用和研究者对比例风险假设的忽视,许多统计学工作者强调验证比例风险假设的重要性,并致力于改进Cox模型,提出了改进的Cox模型,如Aalen additive风险模型、MA-additive风险模型和Accelerated failure time模型等。这些改进的模型是在时间函数的构建上属于半参数或非参数的模型,从而使得时间函数不需要人为指定,可以由模型多次迭代得到,但是仍然人为风险因素对生存结局的影响呈对数线性关系,难以拟合非线性的关系。