Genome Alert!:临床常规基因组变异重新解释和自动化基因-表型再评估的标准化程序_数据

针对不同的临床适应症,基因检测越来越多地被纳入医疗保健途径。一些国家已经发展了人口基因组学的组织,这些组织正在革新医疗实践。然而,由于分析时基因组和医学知识的局限性,这些一部分基因组分析仍然没有结论。

美国医学遗传学与基因组学学会/分子病理学协会(ACMG/AMP)关于变异分类的建议旨在在医学解释的背景下,使基因组中心的变异解释实践标准化。最近,已经发布了根据这些建议自动分类基因组变异的工具。与此同时,不断发展的医学知识和临床基因组测序的迅速采用影响了标准实践,并创造了额外的需求。该领域当前的一个主要关注点是定义对现有测序数据进行定期和前瞻性再分析的标准。事实上,重新分析现有的基因组数据可以提高诊断率(每年增加7%)。

在实践中,这种深入的重新解释经常是人工和耗时的,存在着人力和资金资源等主要瓶颈,或者中心之间缺乏一致性。来自美国和欧洲人类遗传学协会的临床建议加强了对重新解释基因组分析的标准化和自动化方法的需求。一些公司提供付费的黑匣子服务,其方法不够详细,无法复制。

罕见疾病的临床知识包含在专家管理的数据库(如OMIM或临床基因组资源[ClinGen])、同行评审的医学文献中,以及通过社区平台(如MatchMaker Exchange或ClinVar)在健康从业者之间共享信息中。在这些数据源中,信息的可靠性差异很大。此外,每个实验室对临床知识的仔细监控是对获得的数据进行前瞻性再分析的挑战。为了实现系统性、可重复性和前瞻性的基因组解释,需要一种结合自动化医学知识监测和治疗的临床知识聚合协作方法。

基于社区的主要基因组知识库是ClinVar(https://www.ncbi.nlm.nih.gov/clinvar/),这是一个共享的变异解释数据库,在2020年有100万份提交。ClinVar每周更新一次,对变异分类进行数千次修改,可能会影响以前分析的诊断率。目前还没有一个监控系统可以在整个数据库的范围内突出显示这些变化。除了变异分类,基因-表型关联目录也很重要,因为它们通常用于设计干实验室筛选的表型特异性基因面板,并为临床基因组分析开辟了前沿。以变异为中心的数据库虽然不是它们的主要目的,但理论上也可以提供一种补充资源来收集基因表型知识。

在这篇文章中,详细介绍了一种自动化的方法,通过ClinVar随访重新评估变异致病性和基因表型相关性。这个程序叫做基因组警报!旨在对现有的基因组数据进行常规和系统的重新解释。通过一个为期29个月的多中心系列(2018-2019年)对5959名使用靶向测序(4929名遗传性癌症患者)和外显子组测序(1000项分析,包括356名疑似孟德尔疾病的未诊断个体)筛查的连续个体进行评估,以评估该程序的有效性。

材料和方法

基因组警报!标准化程序ClinVCF,变异警报!,ClinVarome是一套构成基因组警报核心的工具!标准化程序。

ClinVCF:一种ClinVar质量处理方法

在比较同一来源的不同版本之前,需要验证数据的一致性。第一步基于ClinVCF工具,一旦跟踪了每个提交,数据将被处理为下一步。

ClinVCF导入每月更新的ClinVar扩展标记语言(XML)文件。XML格式比VCF更受欢迎,主要是因为ClinVar变异ID、每个变异分类的变化历史以及XML中额外的基因-表型数据可用性在不同版本之间具有更好的一致性和跟踪能力。ClinVCF考虑自动重新分类变异,至少提交4份报告,并对致病性状态进行相互矛盾的解释。根据ClinVar政策的共识分类,当观察到至少一个提交冲突时,对致病性状态的解释相互冲突,除非专家联盟(as ClinGen)已定义分类。

Variant Alert:一种变异知识监控工具

Variant Alert该工具旨在识别数据库两个版本中变异分类的变化。变更被定义为(1)对现有变异分类的修改和(2)变异条目的创建或抑制。

建议对分类修改的结果进行分层(补充表1)。主要分类修改被定义为可能影响患者临床管理的变化(例如,对可能致病状态到不确定意义)。轻微的分类修改被定义为可能不影响患者临床管理的变化(例如,从致病状态到可能致病状态)。

变种警报!写入两个文件:(1)修改、添加或删除的变异列表,以及(2)添加到数据库或从数据库中删除的基因列表。ClinVarome使用了这个基因列表。

ClinVarome:一种自动化基因-疾病关联评估方法

ClinVarome工具旨在定期自动评估ClinVar数据库中的基因-疾病关联。为了在临床有效性的基础上区分基因,首先比较了欧洲分子生物学实验室——欧洲生物信息学研究所Gene2phenotype、 ClinGen和Genomic England PanelApp的工作。虽然理论上可以比较,但它们的原理和内容部分重叠,分类也相互矛盾。为了区分候选基因和确定的基因-疾病关联,我们决定使用无监督聚类模型。只有在ClinVar中至少有1个可能致病或致病性变异(单核苷酸变异或影响单个基因的indel)的基因才被纳入称为ClinVarome的列表中。

作为一个共识标准,我们选择通过量化4个变量来评估基因-疾病关联的强度:(1)可能致病性和致病性变异的计数,(2)最高变异分类(CLNSIG,可能致病性或致病性),(3)最高临床风险评估变异置信度(CLNREVSTAT,从0到4星),(4)第一次和最后一次提交致病性变异之间的时间间隔(基因复制-疾病关联事件)。

Study design and participants

昂大学医院对2540名个体进行的结肠癌靶向测序(14个基因)中发现的5类(致病性)变异;(2) Cerba实验室提供的2389人癌症靶向测序数据集(66个基因);(3)发育障碍、罕见肾病或其他罕见疾病个体的外显子组测序数据如下:鲁昂大学医院的108名先证者,Cerba实验室的477名先证者(356例阴性分析),以及Eurofins Biomis实验室的415名先证者。患者样本以及基本表型描述和分子诊断(如果可用)都被匿名化。进行了两项主要的临床评估:(1)以变异为中心的再分析,其目的是匹配携带基因组警报报告的具有潜在临床意义的确切变异个体!,(2)以基因为中心的再分析,其目的是匹配在临床试验中引用的高置信临床基因中携带候选变异体的个体,而不是在OMIM中。在重新分析之前的0至2年内进行了初步分析。

结果

临床知识动态变化

为了深入了解变异分类和基因-疾病关联,并评估ClinVar数据库中新的临床相关信息量,对29个月(2017年7月[含]至2019年12月)的ClinVar子任务进行了回顾性分析。值得注意的是,2017年7月引入了ClinVar中的VCF基因组位置,可能与ClinVar数据库中最大的注入信息有关。

具有ACMG/AMP分类5的变异数量从144943增加到491838。在数据库中的修改中,ACMG/AMP分类中的主要变化计数为107167,其中103615导致了以前未报告的致病性状态,而3552导致撤销了以前确定的致病性(图1A)。这些变化因疾病组不同而有显著差异(根据Genomics England PanelApp),其中致癌基因组位于基因组列表的首位。图1B和C以及补充表2显示了每个基因的大部分变化面板和疾病组。还对ClinVar中的临床基因条目进行了监测。每月观察到23个临床致病基因的中位数,这些新基因与孟德尔病相关(图2)。

Genome Alert!:临床常规基因组变异重新解释和自动化基因-表型再评估的标准化程序_自动化_02

变异分类的变化 

为了评估临床变异信息的稳健性,对变异分类的一致性进行了探讨,并在补充表3中进行了描述。在2017年7月可用的144943个变异中,10254个(7%)在2017年7月至2019年12月期间被重新分类,即,我们只观察到一小部分变异随着时间的推移被重新分类。这些重新分类包括自动重新分类的变异,其解释相互矛盾。更准确地说,在11417种可能的致病性变异中,1125种(9.94%)变异被重新分类为良性变异、可能的良性变异、意义不确定的变异或对致病性解释相互矛盾的变异。

具有冲突解释的自动变异重新分类

对ClinVar数据库的关键是对致病性变异的错误分类,例如众所周知的HFE致病性变异NM_000410.3:c.845G>A。我们观察到,这主要是由于一个独特的异常值提交,并对不同的情况进行了分类(例如,皮肤照片)-敏感性(尿卟啉表型)。我们评估了删除这些异常提交的方法。

2019年12月,在ClinVar中可用的所有变异中,总共503994个(4.5%)变异中的22973个被分类为致病性相互矛盾的解释。基因组警报!自动重新分类方法建议检测异常提交,以建议一致的分类。这使得在135个基因中的188个变异从冲突重新分类为可能的致病性或致病性分类,在436个基因中的1625个变种从冲突重新分类为可能的良性或良性分类(补充表4,补充图1和2)。

向该领域的法国国家专家介绍了自动重新分类为癌症(n=9)和心脏病(n=11)中可能致病或致病的变异。在这20个自动重新分类中,17个被专家确认为准确的,3个被专家认为缺乏致病性的证据而仍然是意义不确定的变异。

Genome Alert!:临床常规基因组变异重新解释和自动化基因-表型再评估的标准化程序_运维_03

变异分类变化的临床影响

评估Genome Alert!’s改变变异分类的临床影响,之前分析的癌症易感性靶向测序数据进行了评估(来自2个基因中心的4929名个体)(以变异为中心的再分析,图3)。在该队列中检测到的所有变异中,该方法强调了45个变异,这些变异在分析时间和2019年12月之间发生了重大变化,建议由其参考遗传学家进行ren'gong审查(补充表5和表6)。

在45个变异中,临床遗传学家在分析的初始阶段已经人工报告了30种可能是致病性或致病性的,这意味着这些分类比ClinVar数据库早。这15个未报告的变异是人工控制的,寻找更多的诊断。其中,14个变异被新归类为可能致病或致病,1个被降级为临床变异中意义不确定的变种(VUS)。对这14种变异的人工校准得出结论,其中6种与隐性疾病的携带者状态相对应,3种人工分类为VUS,5种提交给多学科会议进行外部审查。最后,专家将后5例中的4例归类为可能的致病性或致病性,从而导致其他诊断。

一种变异仍然被归类为VUS,并提出了对患者信使RNA的补充研究

结论前(PALB2,NC_000016.9(NM_024675.3):c.3350+4A>G)。最后,观察到重大变化的验证率为89%(40/45项)。这种变异重新分类跟踪系统允许每1000次分析进行额外诊断。在外显子组测序队列中进行以变异为中心的再分析,寻找变异的精确匹配。在之前的外显子组测序分析(3个基因组中心的1000个个体)中,选择性再分析突出了每个外显子组<1个变异(仅297个变异),在分析时间和2019年12月之间发生了重大变化。临床遗传学家随后对这297个变异进行了研究。在所有297个变异体中,有1个最初报告为VUS的变异(POLG,NM_002693.2:c.2243G>c)被我们的IQR异常值提交方法自动重新分类为致病性,从而帮助我们确认诊断。复合杂合性(POLG,NM_002693.3:c.1399G>a)被观察到致病性变异。外显子组测序再分析和以变异为中心的再分析还可以提供每1000次分析的额外诊断。

监测临床变异基因——疾病关联知识 

重点是探索临床资料中很少被探索的基因-疾病关联。为了区分候选基因与临床变量组中确定的基因-疾病关联,根据以下标准进行无监督聚类:(1)可能的致病性和致病性变异的计数,(2)最高的变异分类,(3)最高的临床变量回顾变量置信度,以及(4)第一次和最后一次致病性变异提交之间的时间间隔。根据聚类之间的距离和模型树状图,将聚类数设置为4(图4)。

Genome Alert!:临床常规基因组变异重新解释和自动化基因-表型再评估的标准化程序_数据_04

仔细观察这些集群,确定客观模式,以了解分类。我们观察到:在致病性状态下,第一个和第二个簇中所有基因都有一个可重复性事件(一个新的可能致病性或致病性变异条目,由另一个提交者或专家小组确认可能致病性或致病性分类),因此给了他们很强的信心。来自第一个簇的基因具有ClinVar的致病性变异≥审查可信度2星和第二簇基因包括具有不同进入日期和<2星审查可信度的致病性变异。第三个基因簇中的基因有一个强有力的证据表明致病性,但需要另一个事件得到充分确认(第三个基因簇中至少包含一个致病性变异,所有致病性条目都是在同一日期添加的)。由于第四组中的基因仅可能是致病性变异,它们的基因-疾病关联仍有待确认(补充表7)。

为了评估ClinVarome的详尽性,ClinVarome与OMIM数据库进行了比较。

2019年12月,OMIM病态临床基因和ClinVarome病态基因之间有95%的重叠(3675/3858)。总的来说,365个基因仅在OMIM中被引用,而在ClinVarome中未被引用。我们观察到了ClinVar中没有的模式。这些模式包括未确认一种疾病为真正的孟德尔疾病(仅1份出版物或孤立的患者报告)、对多因素疾病或感染的易感性、将属于不同于单一基因疾病的分子机制的基因引用为微缺失或微重复综合征、非疾病的孟德尔特征、表观遗传学位点、具有靶向致病复合变异的基因以及最近描述的疾病。评估集中在这519个特定基因(仅在ClinVar中引用,而在OMIM中没有引用)上,以评估它们在其他诊断中的潜在价值。

截止在2019年12月时519个ClinVarome基因中,有15个基因位于第一类,60个基因位于第二类(即75个高置信度基因),140个基因位于第三类,304个基因位于第四类。然后,我们在接下来的几个月里监测了他们被列入OMIM病态名单的情况。2019年12月,在ClinVarome独家引用的519个基因中,有55个在2020年8月8个月后被报告为OMIM病态,其中包括75个(20%)初始高置信度基因中的15个。此外,2019年12月至2020年8月期间新增140个OMIM致病基因中的125个在2020年8月ClinVarome发布中也被引用。这一观察结果表明,在OMIM验证基因与疾病的因果关系之前,ClinVarome中的候选基因可能被认为是诊断基因。

OMIM中不可用ClinVarome致病基因的临床影响

我们通过对临床组新条目的子样本进行选择性再分析评估这种方法的相关性;同时只关注OMIM病态列表中缺失的75个基因,这些基因在临床组的第一和第二个聚类中被引用(以基因为中心的再分析)。这个实验强调了356个阴性外显子组测序数据中的42个变异基因。在这个数据集中,42个变异被优先排序并被提议进行进一步解释。其中39人被专家排除在外。专家们的论点包括存在与疾病表型无关的变异或文献中提供的单一病例系列。通过Sanger测序验证进一步研究了总共3个变种,其中2个因伪影状态或不一致的遗传模式而被排除在外(图5)。总的来说,该方法可以从356个阴性外显子组测序数据中确定新的诊断。据报道,无义DLG4变异NM_001128827.1:c.1840C>T可能是致病性的,与患者的表型(智力残疾和小头症)有关。尽管DLG4与智力发育障碍的相关性的第一份报告在2016年就已被描述,但直到2020年2月,这种基因-疾病相关性才被添加到OMIM数据库中。

ClinVarome与GenCC数据库的比较

将ClinVarome基因疾病置信度的有效性和穷尽性与GenCC数据库进行比较。2021年10月,2个数据库中有65%(3332的5187)基因重叠。非重叠基因主要代表这两个数据库中不确定的基因-疾病关联。GenCC中的专属基因(n=334)在橙色和红色基因中显著富集(745个橙色基因中有151个[P<0.0001],252个红色基因中有158个[P<0.0001])。ClinVarome中的排他基因(n=1471)在第三和第四簇基因中显著富集(501个第三簇基因中的407个[P<0.0001],743个第四簇基因中的448个[P<0.0001])。这两个数据库在基因-疾病关联置信度方面表现出高度一致性(补充表8)。

讨论 

总之,基因组警报!重点介绍了具有潜在临床意义的变化,并对测序数据重新解释部分的自动化系统进行了大型回顾性研究。该程序能够在临床常规中对获得的测序数据进行系统且可重复的重新解释,人力资源效果有限,诊断率提高。基因组警报!为社区提供了一个开源的可访问框架,因此希望适用于每个基因中心。

译者介绍

边疆 男 2010年毕业于中山大学妇产科生殖内分泌专业,获博士学位。专业方向:女性生殖力保存、环境生殖毒理学。从事妇科内分泌疾病和女性生殖内分泌临床20余年

Genome Alert!:临床常规基因组变异重新解释和自动化基因-表型再评估的标准化程序_聚类_05