线性回归,逻辑回归和Cox比例风险回归模型都是被广泛使用的多元回归分析方法。医学模型研究,说到底是做一个模型,那么模型应该如何纳入自变量,纳入哪些自变量,这都是至关重要的问题。

在统计学课本中,多重线性回归的自变量筛选方法有向前法、向后法和逐步法,这些方法使用起来没有标准答案,在数据分析时容易混乱。因此变量筛选的方法成为困扰中国广大的临床工作者的难题。同样的,老外们也对这个问题感到困惑。2023年,德国波恩大学流行病学系在American Journal of Epidemiology期刊上发表了一项有意思的回顾性调查,他们回顾了从2008年到2019年发表的含有模型分析的流行病学研究,看看主流的变量筛选方法究竟有哪些,以及是否发生了变化。今天我们就对这篇文章展开聊聊。

变量选择方法不仅仅是向前、向后

从方法论的来看,变量选择方法可大致分为两类:

1. 数据驱动的变量选择法;

2. 基于研究人员的经验和相关理论的先验知识选择法。

在数据驱动法中,变量选择从观测数据出发,使用各种统计方法,包括单变量选择法、经典的逐步选择法、效应改变法和正则化法(如LASSO法、弹性网络法和自适应LASSO)。

而另一种基于先验知识选择方法,变量的纳入是在数据分析之前事先根据研究主题决定的,常见的展现方式包括有向无环图(DAG图)在内的因果推理方法,用于研究人员作出建模假设并事前确定出混杂因素的集合。

波恩大学团队依据以上方法论观点,对已发表的流行病学研究中的变量筛选方法进行了分类。

其中数据驱动法细分为:

1. 效应改变法(Change-in-estimate),即根据模型的回归系数、风险值或相关性进行筛选;

2. 逐步选择法(Stepwise selection),这篇文章将向前、向后等组合方法也包含在内;

3. 单变量选择法(Univariate selection),基于单因素分析的结果进行筛选变量;

4. 正则化法(Regularization methods,使用正则化回归分析方法;

5. 其他方法,不同以上几类的方法。

逐步回归 matlab_逐步回归 matlab

这个团队既往曾在2008年和2015年开展过两次同主题的研究,而这次研究人员的文章都是来自流行病学领域中的四个老牌期刊:American Journal of Epidemiology(IF=5.0), Epidemiology(IF=5.4), European Journal of Epidemiology(IF= 13.6), International Journal of Epidemiology (IF= 7.7)。

研究人员审阅了2019年发表在以上四本期刊中所有流行病学研究,并对其中采用的变量筛选方法进行分类。

此外,如果文章是基于某个现象去验证某一个流行病学假设,则被判定为“假设驱动”型研究

如果是为了验证某种事先提出的假设,则被判定为“假设验证”型研究

同时,研究人员还收集了文章中是否展示P值、是否进行敏感性分析等信息。

用864篇文章揭示十五年的方法学变化趋势

最终,研究人员从2019年4本期刊所发表的文献中纳入了272篇文章,其中199篇采用先验选择法,43篇采用数据驱动法,另有43篇无法判定。

逐步回归 matlab_数据分析_02

与2008年和2015年的数据相比,2019年使用先验选择法的文章占比明显升高(2008为28%,2015为50%,2019为73%),其中有35篇使用了因果关系图(DAG图)来总结和作证变量选择。同时,数据驱动法的使用率则不断下降(2008年为37%,2015年为24%,2019年为16%)。

逐步回归 matlab_数据驱动_03

(DAG图示例)

值得注意的是,与前两次研究相比,效应改变法的使用频率呈下降趋势(2008年为15%,2015年为12%,2019年为7%)。逐步选择法在统计学课本中常有大量的篇幅介绍,但该研究显示其使用率正明显减少(2008年占比最高,达20%,2015年5%,2019年4%),既往被认为最通俗简便的单变量选择法的使用率也在逐渐降低(2015年9%,2019年3%)。

就本推文题目所关心的,我们现在还用逐步回归法吗?一般情况下,真不推荐逐步回归法,无论是探讨多个影响因素还是控制混杂。不过,构建临床预测模型除外,这一统计建模过程,可以采用逐步回归法。

2008年和2015年未报道过的正则化法在2019年出现了2篇,其中1篇文章使用LASSO来选择可能与习惯性睡眠质量相关的代谢指标,另1篇文章应用自适应弹性网络法来分类自杀行为。

此外,正文中未描述变量选择方法进行描述的文章占比也越来越少(2008年为35%,2015年为37%,2019年为16%),侧面表明期刊正在不断规范流行学文章的报告要求。

从文章的分析目的来看,2019年的文章大多数都是“假设驱动”型研究(255篇,94%),特别是估计危险因素对结局的影响以及控制协变量。从敏感性分析情况来看,有190篇(70%)使用敏感性分析报告了纳入不同变量集下的效应估计。此外, 167篇文章(61%)在其结果中报告了P值。在报告P值的文章中,有31篇文章(占所有纳入文章的11%)使用了数据驱动法,没有迹象显示这些文章在变量选择后进行再次调整。

总结

经过2008年、2015年和2019年的数据对比,我们可以窥探到近十五年来流行病学文章中变量选择方法变化趋势,即:

  • 数据驱动的变量筛选正在减少,更多地基于研究人员的经验和理论进行变量的先验选择(相当一部分文章使用DAG图);
  • 期刊也加强了对变量筛选内容的描述要求;
  • 一些现代统计学方法(如正则化法)的出现,解决了传统建模方法的不足(提高模型性能、降低过拟合)。

对于以上的趋势,一个令人困惑的问题出现了:在现代流行病学研究中,数据驱动的变量选择法的必要性到底在哪里?

文章讨论中认为在假设驱动型研究(基于某个现象去验证某一个流行病学假设)中,数据驱动的变量选择方法特别适合用于探索识别结局相关的危险因素。当变量筛选的目的为了构建预测模型时,可以同时采用先验和数据驱动法纳入变量集,但此时主要关注模型性能,而不是解释特定变量对结局的影响。

这些变量筛选方法的变化侧面反映了全球科研人员统计水平的提高,机械式地通过单变量分析或者统计学软件进行筛选的研究越来越少了。然而,由于统计学教育和实践的缺乏,目前国内广大的临床科研工作者主要接触的方法仍是单变量选择法和逐步选择法,同时缺少对不同方法应用条件的理解。医疗大数据时代即将到来,变量选择方法又将面临新的要求与挑战,要赶上这一波时代红利,科研工作者要持续学习啊。