初识菌株分型理论与工具

转载

wx643df9f1afa1d 2023-04-26 10:19:11

文章标签 大数据 python 机器学习人工智能深度学习 文章分类 JavaScript 前端开发

Paper

Typing methods based on whole genome sequencing data

Uelze et al. One Health Outlook (2020)

德国联邦风险评估研究所，生物安全部

https://doi.org/10.1186/s42522-020-0010-1

摘要

食源性病原体 (Foodborne pathogens)全基因组测序 (Whole genome sequencing, WGS)已成为研究致病菌基因组序列信息的有效方法。此外，它以高度辨别的能力进行细菌之间的遗传关系比较，甚至在亚种水平上。为此，正在世界范围内跨部门 (人类、兽医、食品和环境)实施WGS，以调查疾病暴发、来源/归因和改进的风险表征模型。

词汇 | Foodborne pathogens (e.g. viruses, bacteria, parasites) are biological agents that can cause a foodborne illness event. A foodborne disease outbreak is defined as the occurrence of two or more cases of similar illness resulting from the ingestion of a common food. 食源性病原菌（foodborne pathogen）是2012年公布的微生物学名词，定义：通过摄食而进入人体，使人患感染性或中毒性疾病的微生物。-《微生物学名词》第二版。食源性致病菌是导致食品安全问题的重要来源。常见食品致病菌主要有：痢疾杆菌，致病性大肠杆菌、沙门氏菌、霍乱弧菌、炭疽杆菌、鼻疽杆菌、结核菌、布氏杆菌、猪丹毒杆菌等。

为了从WGS产生的大量复杂数据中提取相关信息，已开发了一系列生物信息学工具，允许用户分析和解释测序数据，从简单的基因搜索到复杂的系统发育研究。根据研究问题、数据集的复杂性和具备的生物信息学技能，用户可以选择各种各样的工具来分析WGS数据。

这篇综述描述了用于暴发研究的系统发育基因组学 (Phylogenomic)研究的相关方法，并概述了基于WGS数据的食源性病原体特征描述所选择的工具。尽管过去几年做出了努力，但仍然迫切需要对分类工具进行统一和标准化，以便方便比较实验室之间的数据，朝着建立食源性病原体“同一个卫生”的全球监测系统 (One health worldwide surveillance system)迈进。

食源性病原体分型方法 (typing methods)的历史回顾

自19世纪50年代末路易斯·巴斯德提出、19世纪80年代罗伯特·科赫推广的疾病细菌理论建立以来，细菌有机体的分离和培养技术取得了重大进展，使微生物学家能够清楚区分不同的细菌 (甚至在一个物种内)，从而推动了原核生物分类学的发展。

最初，生理、生化和其它表型特性作为物种识别的标记。在20世纪30年代，血清分型 (Serotyping)是基于物种和亚种 (species/subspecies)水平上的抗原抗体反应来区分细菌的最早方法之一。后来，在20世纪50年代，噬菌体分型 (Phage typing)方案发展地更具鉴别能力。

从一开始，这些方案就被用来追踪感染源。核酸的发现，基因信息嵌入DNA的假设，以及沃森和克里克在20世纪50年代中期对DNA分子结构的描述，构成了分子生物学这一新领域的基础。在20世纪80年代初，Tenover和同事开发了第一种基于核酸作为标记分子 (marker molecules)的菌株分型方法。

随后发现，不同菌株中质粒的数量和大小差异很大，因此可以使用许多基因组中自然存在的质粒，在暴发调查中区分菌株。尽管早在1977年，Maxam-Gilbert和Sanger就发明了第一个DNA测序方法 (使确定DNA片段的准确碱基对序列，成为可能)，但它最初并没有在微生物分型中得到广泛应用。相反，在20世纪80年代后期发展起来的脉冲场凝胶电泳成为了在接下来的20年里普遍使用的菌株分型金标准方法。在脉冲场凝胶电泳过程中，基因组DNA被罕见切割酶 (rare-cutting enzymes)裂解，得到的DNA片段大小和数量形成了一个稳定的、可重复的酶切模式，可以在不同菌株之间进行比较。

随后借助PCR和Sanger DNA测序技术，人们开发了许多用于检测和分型食源性病原体的基于序列的分型方法。最成功的基于序列的分型方法之一是多位点序列分型 (multilocus sequence typing, MLST)的概念，该概念最初是在1998年针对奈瑟菌脑膜炎提出的。从那时起，许多MLST方案被开发出来，目前应用于数百种病原体 (http://pubmlst.org)。一般来说，MLST分型是通过PCR扩增管家基因的7个位点，然后对得到的PCR片段进行DNA测序。然后将特定的DNA序列与等位基因图谱进行匹配。在这些位点上的任何一个核苷酸变异都定义了一个不同的等位基因，并决定了序列型 (sequence type, ST)。MLST可检测到无法从表型推断的 (如血清型或多位点酶电泳 (multilocus enzyme electrophoresis , MLEE))DNA水平的变化。多位点测序产生相对较小的数据文件，其中包含明确的信息，可以很容易地与其它实验室共享。一般来说，MLST的鉴别能力与传统的血清分型相当或略更好。

词汇 | 多位点序列分型 (multilocus sequence typing, MLST)，是一种基于核酸序列的细菌分型方法，通过PCR扩增多个管家基因的内部片段 (~450bp的核心片段)、测定序列，比较菌株的等位基因，分析菌株的变异，是一种高效的微生物分类管理及存档的分子分型技术。MLST操作简单，快速获得结果，分辨率高，也便于不同实验室甚至国际间的比较，已用于多种细菌的流行病学监测和进化研究。如：爆发事件的快速识别、追踪与溯源，新变异株的流行病学分析，生物进化，种群结构，抗生素耐药、毒力或抗原相关基因型。

然而7-gene MLST通常没有足够的鉴别能力，无法用于疫情 (outbreak)检测。正因为如此，基于PCR的分型方法多位点可变数串联重复分析 (multilocus variable-number tandem-repeat analysis, MLVA)被开发用来区分高度相关的菌株。这种方法是基于检测不同位点内重复串联DNA单元 (repetitive tandem DNA units within various loci)。重复单位出现在大约1-100个碱基对的长度。串联重复序列的数量可以通过滑移链错配机制 (slipped strand mispairing mechanism)在每一代发生变化，从而可以通过串联重复序列单位的变化来推断细菌的亲缘关系。由于MLVA在疫情研究中已被证明是一种比脉冲场凝胶电泳 (PFGE)分辨率更高的快速追踪工具，因此该方法已对某些致病亚型进行了标准化。

WGS的发展为研究食源性致病菌的进化提供了新的机会，即使是在短时间内。WGS在鉴别高度相关菌株方面提供了前所未有的分辨率。虽然PFGE和MLVA是菌株分型的里程碑，但对于某些类型的分析，如进化研究和时空 (spatiotemporal)调查，它们的信息还不够丰富。相比之下，WGS为监测和 (疫情)暴发调查、来源归因、基因组研究以及表型预测 (血清分型、抗生素耐药性、菌膜 (biofilm)形成、致病性和毒性)的基因组信息提供了最终解决方案。许多方法和生物信息学工具已经被开发用来分析和提取相关的基因组数据。在这里，我们总结了关于食源性病原体分型的最重要和最新的概念。

食源性致病菌的系统发生基因组学 (Phylogenomic)分析

WGS的一大好处在于比较基因组学 (Comparative genomics)，它可以推断一组菌株 (a set of bacterial strains)之间的系统发育 (phylogenetic)关系。这为跟踪 (流行病)暴发源和鉴定克隆株提供了有价值的信息。第一步，通过不同的方法估计不同基因组之间的相似性，如表1所示。随后是聚类步骤，以推断系统发育关系和聚类。

初识菌株分型理论与工具_深度学习

表1 | 系统发育 (Phylogenetic)方法

两种方法：逐基因 (gene-by-gene, 也称为多位点序列分型)和基于单核苷酸多态性 (Single-Nucleotide Polymorphism, SNP)的方法，通常被区分开来。这两种方法的共同之处在于可以推导出一组菌株之间的距离矩阵 (distance matrix)，这允许通过各种聚类技术 (例如邻接树/neighbor-joining trees、最小生成树/minimum-spanning trees、分层聚类/hierarchical clustering)构建系统发育树。这两种方法都可以用于定义集群类型和集群地址 (cluster types / cluster addresses)：1) 在指定距离阈值 (a specified distance threshold)内的所有样本，都属于相同的集群类型；2) 集群地址，例如SNP地址，或核心基因组MLST (core genome MLST, cgMLST)序列类型的分层聚类 (Hierarchical Clustering of cgMLST, HierCC)，是具有一组不同距离阈值的集群类型的组合。它可以快速解释与 (疫情)暴发、超级谱系 (super-lineage)或eBurst group相关的一组样本的相似程度。

词汇 | wgMLST/cgMLST。随着WGS成本的降低，二代测序被更多地用于致病菌的研究。WGS测序数据包含更多的基因位点信息，基于WGS的wgMLST/cgMLST溯源分析比传统溯源手段具有更高的分辨率，可实现高精度溯源。

cgMLST

为了分析物种基因组之间的遗传相似性，最初的7基因多位点序列分型方法已扩大到数百或数千个基因位点。核心基因组多位点序列分型 (core genome multilocus sequence typing, cgMLST)是一种利用大量基因位点 (gene loci)对基因组进行比较的逐基因 (gene-by-gene)方法。

在实践中，基因组组装数据被比对到一个概形 (scheme, 一组位点 (loci)和一组有关联的等位基因 (allele)序列)。等位基因检测 (allele calling)产生一个概形中已经存在的等位基因序列的等位基因号 (allele number)，或分配一个新的等位基因号。cgMLST的等位基因检测结果中，每个分离株由其等位基因谱 (allele profile，即每个位点/locus的等位基因号的集合) 特征化。

一对样本之间，差异分配的等位基因号的总和 (the sum of differently assigned allele numbers)决定了等位基因差异 (要么是缺失位点/missing loci，要么是绝对差异/absolute difference)，一组样本的交叉比较 (the cross-comparison of a set of samples)产生等位基因距离矩阵。最后，cgMLST分析可以通过不同的策略，如单联接层次聚类 (single-linkage hierarchical clustering)、邻接树 (neighbor-joining, NJ）或最小生成树 (minimum spanning, MS)，转化为系统发育 (Phylogeny)。方法的选择取决于：祖先散度 (ancestral divergence, 高散度更好地反映在NJ树中)、计算考量 (MS树要求较低)、以及缺失数据 (missing data)的存在。

cgMLST的概形 (scheme)

cgMLST方法的核心由cgMLST的概形 (scheme)所定义。一个给定的概形由一组给定的基因座 (loci)及每个基因座的等位基因的集合组成，这些等位基因通常被编号 (allele numbers)。A scheme is created by collecting a large number of genomes of a species and identifying the set of loci present in the majority (frequently > 95%) of the genomes of a taxonomic grouping. 不同的物种存在不同的概形 (表2)。在某些情况下 (如单核增生李斯特菌)，同一物种存在不同的概形。虽然不同的概形可能会得出相似的结论，并可能产生总体拓扑相似的系统发育树，但不同概形派生的cgMLST序列类型可能包含不同的基因座、基因座名称或其它基因座顺序等，因此不能直接进行比较。即使有完全相同的位点定义，但托管在不同的服务/平台/工具上 (hosted on different services (e.g. Enterobase and Ridom SeqShere+, compare Fig. 1)) 的概形也是不可比较的，因为新等位基因号的分配并不同步，相同的等位基因号涉及不同的等位基因序列。

初识菌株分型理论与工具_python_02

表2 | Available cgMLST schemes

cgMLST vs wgMLST

全基因组多位点序列分型 (Whole-genome multilocus sequence typing, wgMLST)可被看作是cgMLST的延伸，它除了使用一组核心基因组位点外，还使用一组辅助基因组位点 (accessory loci)。

理论上，wgMLST可以为紧密相连的集群簇 (clusters)提供更高的分辨率，因为距离矩阵是在更大的位点集上计算的。然而，许多研究表明，wgMLST和cgMLST方法得到的结果往往非常相似。例如，Pearce等人能够证明cgMLST和wgMLST在一次肠炎沙门氏菌的爆发中区分能力没有统计学上的显著差异。在一项分析涉及四种不同暴发事件的145株海德堡血性肠球菌的研究中，这一点得到了进一步证实。另一项分析约200株单核增生李斯特菌的研究发现，当比较wgMLST和cgMLST衍生的系统发育树时，它们的拓扑结构高度相似。对于实际应用，可设想：对一个物种的不同数据集进行第一次cgMLST分析，然后对密切相关的 (依据cgMLST结果)菌株进行wgMLST分析。

由于cgMLST是一种稳定的物种内 (within a species)细菌分型方法，有许多公开可用的概形 (schemes)，它有助于全球食源性暴发调查。然而，到目前为止，还不存在世界范围内一致认可的集中组织的等位基因命名系统 (centrally organized allele nomenclature system)。将等位基因编号分配给新的等位基因，目前是在本地或系统上完成的，其采用了集中较准命名法 (centrally curated nomenclature)，如Enterobase平台等。

虽然概形可以共享，但不同位点之间的分析的共享，受到高效同步新等位基因的可能性的阻碍。此外，cgMLST结果依赖于详细的修剪、装配和比对 (trimming, assembly and alignment)策略。根据我们的经验，不同的方法可能会导致若干等位基因差异 (数据未发表)。

SNP calling and choice of reference

另一种方法是鉴定不同菌株的单核苷酸多态性 (SNP)。单核苷酸多态性是通过对密切相关的参考基因组进行序列比对和记录核苷酸差异来检测的。对于一组菌株，只考虑所有待查基因组 (query genomes，可认为是菌株的WGS测序数据)覆盖的参考 (基因组)位置 (reference positions，即预设的参考基因组)，这些参考位置形成一组核心SNP。所有成对SNP距离 (pairwise SNP distances)的可能组合决定了SNP距离矩阵，该矩阵允许快速简单的系统发育分析，如邻接树 (neighbor-joining trees)。此外，比对的核心SNP构成了更详细的进化分析的基础——通常是最大似然进化树 (maximum likelihood phylogenetic trees)。基于SNP的分析已成功应用于解决大规模国家和国际疫情。

参考 (基因组)的选择对于可靠的SNP分析至关重要。首先，一个高质量的、封闭的参考基因组允许调用 (calling)SNP位置，其准确性比包含许多contig的非精选基因组草图 (non-curated draft genome)更高。其次，参考 (基因组)与正在调查/研究的菌株集合密切相关：如果距离太远，将覆盖较少的参考 (基因组)位置，进而导致发现较少的SNP。同样，如果一组待查基因组包含一个或多个远距离关联的分离株，核心SNP集将减少。获得良好参考 (基因组)的策略包括从同一血清组 (serogroup)、7基因MLST或MLST克隆复合物 (clonal complex)中选择基因组。

其它一些方法估计待查基因组到大量潜在的参考基因组的平均距离(https://gitlab.com/s.fuchs/refRank). 除了参考 (基因组)的选择外，还需要定义一些算法和参数来调用、质控和过滤SNP (calling, quality assuring and filtering SNPs)。这可能会妨碍实验室内部和实验室之间的标准化。有多种工具可用于SNP调用/检测，如SAMtools、GATK和Freebayes。此外，还有专门的流程 (Pipeline)用于从细菌基因组调用SNP，例如Snippy (https:// github.com/tseemann/snippy)、CFSAN SNP流程、NASP和BactSNP。其它解决方案的目标是常规测序和SNP检测，如SnapperDB，它本质上是一个数据库，存储每个分离株/菌的变异调用文件 (variant call files, 即VCF文件)。这样做的优点是可以将新菌株与数据库进行比较，并且可以快速更新成对距离矩阵，从而便于聚类和搜索。

后续更多解读

Comparison of SNP and cgMLST

K-mer based approaches

Phylogenetic tools

Pathotyping of foodborne pathogens using WGS data

Typing of the mobilome using WGS data

Plasmid typing

Phage typing

Transposable elements

Typing of antimicrobial resistance

Serotyping prediction

WGS analysis platforms