iMeta｜哈佛医学院刘洋彧组揭示生态动力学对微生物溯源的挑战

转载

wx643df9f1afa1d 2023-07-18 16:46:05

生态动力学构成对基于群落结构进行微生物溯源的根本性挑战

iMeta｜哈佛医学院刘洋彧组揭示生态动力学对微生物溯源的挑战_数据

原文链接DOI: https://doi.org/10.1002/imt2.75

研究论文

●2023年1月5日，哈佛医学院刘洋彧团队在iMeta在线发表了题为“Ecological dynamics imposes fundamental challenges in community-based microbial source tracking”的文章。

● 本研究表明生态动力学对基于群落结构的微生物溯源构成了根本性挑战。在实际应用中，应该审慎地解释现有微生物溯源（MST）求解器的结果。

● 第一作者：王旭文

● 通讯作者：刘洋彧（yyl@channing.harvard.edu）

● 合作作者：吴璐、戴磊、殷晓乐、张彤、Scott T. Weiss

● 主要单位：哈佛医学院、深圳先进技术研究院深圳合成生物学中心、香港大学环境微生物组工程与生物技术实验室

亮点

iMeta｜哈佛医学院刘洋彧组揭示生态动力学对微生物溯源的挑战_数据_02

● 当生态动力学在群落组装中发挥作用时，使用现有的MST求解器解决MST问题是不切实际的

● 微生物相互作用或优先效应的存在将使MST问题在数学上无法解决

● 群落聚集实验表明，MST求解器无法识别大多数汇样本的来源

摘要

量化可能的环境来源（“源”）对特定微生物群落（“汇”）的贡献是微生物学中的一个经典问题，称为微生物溯源（MST）。解决MST问题不仅可以帮助我们了解微生物群落是如何形成的，而且在污染控制、公共卫生和法医学方面具有深远的应用。MST方法通常分为两类：基于特定目标的方法（侧重于检测特定来源的标志性物种或化学品）和基于群落结构的方法（使用群落结构来衡量汇样本和潜在环境源之间的相似性）。随着下一代测序成为微生物学中标准的群落结构评估方法，许多基于群落结构的计算方法（以下称为MST求解器）已被开发并应用于各种真实数据集，以证明它们在不同环境中的效用。然而，这些MST求解器并未考虑微生物群落中的微生物相互作用和优先效应。本文中，我们重新审视了几个具有代表性的MST求解器的性能。我们展示了令人信服的证据，表明当生态动力学在群落组装中发挥作用时，使用现有的MST求解器解决MST问题是不切实际的。特别是，我们清楚地证明微生物相互作用或优先效应的存在将使MST问题在数学上无法解决。我们进一步分析了来自粪菌移植（FMT）研究的数据，发现最先进的MST求解器无法识别大多数受体的供体。最后，我们进行了群落聚集实验，以展示最先进的MST求解器无法识别大多数汇的来源。我们的研究结果表明，生态动力学对基于群落结构的微生物溯源构成了根本性挑战。在实际应用中，我们应该审慎地解释现有MST求解器的结果。

视频解读

Bilibili：https://www.bilibili.com/video/BV16W4y137fF/

Youtube：https://youtu.be/GAC-dPhbMUw

中文翻译、PPT、中/英文视频解读等扩展资料下载

请访问期刊官网：http://www.imeta.science/

全文解读

引言

估计不同源微生物群落（“源”）对特定微生物群落（“汇”）的贡献或混合比例被称为微生物溯源（MST）问题。从历史上看，MST是在量化各种粪便污染源的输入以管理和修复水污染的背景下提出的。传统的MST方法主要是基于特定目标，即侧重于检测预定的源特定标志性物种（例如与人类相关的HF183细菌群）或化学物质（例如胆固醇和粪甾醇，它们通常被归类为化学溯源（CST））。最近，MST已被用于许多其他情况，例如医疗卫生和法医学。这主要是由于不依赖于培养物的宏基因组学和下一代测序技术的进步，它们使我们能够以前所未有的速度进行群落结构评估。因此，许多基于群落结构的计算方法，以下称为MST求解器，通过使用群落结构来衡量汇样本和潜在源环境之间的相似性来解决MST问题被开发出来。

MST求解器通常将MST问题形式化如下。考虑由组成向量x表示的汇群落结构，其中x_j对应于物种-j，1≤j≤N的相对丰度。令K为该汇群落的已知来源数。每个已知源的组份用向量y^(a)表示，其中y_j^(a)是源-a，(1≤ a ≤ K)中物种-j的相对丰度。除了K个已知源之外，我们假设还有一个标记为K+1的未观察到的源。我们的目标是估计(K+1)个源群落对汇群落的贡献或混合比例，即推断m_a(a=1,⋯,K+1)且满足：

iMeta｜哈佛医学院刘洋彧组揭示生态动力学对微生物溯源的挑战_初始状态_03

这里我们介绍三个具有代表性的MST求解器。第一个求解器基于机器学习中的分类分析，例如使用随机森林(RF)分类器。在这种情况下，每个源代表一个不同的类别，RF将以不同的概率将汇分为不同的类别。汇属于不同类别的概率可以自然地解释为这些源对汇的混合比例或贡献。除了简单的分类分析之外，人们还开发了基于贝叶斯建模的更高级的统计方法。例如，SourceTracker是一个贝叶斯MST求解器，它明确地将汇建模为源的凸混合，并通过Gibbs采样推断混合比例。FEAST (fast expectation-maximization for microbial source tracking)是一种较新的统计方法。FEAST任然假设每个汇都是源的凸组合，但它通过快速最大期望算法来推断模型参数，这比SourceTracker使用的 Markov Chain Monte Carlo更具可扩展性。

SourceTracker和FEAST都在合成数据集中表现出了良好的性能，并且在某些情况下应用于真实数据集时提供了具有生物学意义的解释。然而，用于验证这些MST求解器的合成数据集都是从统计分布生成的，而不是由群落生态学中的动力学模型产生。因此完全忽略了驱动群落组装的生态动力学。我们假设，在考虑生态动力学之后，这些MST求解器的能力可能会受到显着限制，因此对其结果的解释应审慎进行。

在这里，我们考虑两个严重影响生态动力学和群落组装的因素：（1）微生物相互作用；(2)优先效应。微生物相互作用无处不在。它们可以通过细菌素等物质的直接分泌、微生物之间的生态竞争、代谢物交换或宿主的免疫系统调节来介导。在存在微生物相互作用的情况下，汇群落的最终组成通常与最初的组成根本不同，即源刚混合后的组成（通常这对我们来说是不可获得的信息）（见图1）。因此，通过将MST求解器应用于最终汇群落所估计的源贡献（或混合比例）将与通过将MST求解器应用于初始汇群落所估计的源贡献显著不同。

iMeta｜哈佛医学院刘洋彧组揭示生态动力学对微生物溯源的挑战_连通性_04

图1. 生态动力学对微生物溯源构成根本性挑战

（上图）汇是通过将三个源（没有任何物种重叠）按等比例（1/3,1/3,1/3）同时混合获得的。由于微生物相互作用的存在，汇群落的初始物种组成（恰在混合之后，通常我们并没有这个数据）可能与最终物种组成（这是MST求解器的输入数据）有很大不同。将任何MST求解器应用于最终汇的物种组成将产生与将MST求解器应用于初始汇的物种组成不同的结果。（下图）由于优先效应，三个按不同顺序混合的源可能会导致总共个具有不同物种组成的汇，即使不同混合顺序的源的混合比例完全相同。

生态学理论表明，新物种在群落中的建立可能取决于它们定殖的顺序和/或时间，这种现象称为优先效应。这种现象实际上普遍存在于动物、植物和微生物群落（包括哺乳动物肠道、植物叶际和根际、土壤、淡水和海洋）。例如，优先效应可能会在儿童早期塑造人类肠道微生物组。特别是婴儿的接触史和从他们母亲体内或体表不同部位的扩散模式可以调解拟杆菌属、大肠杆菌属和乳酸生产者(如双歧杆菌属和乳杆菌)之间观察到的相互排斥。在存在优先效应的情况下，即使混合比例（源贡献）完全相同，混合同一组源但具有不同混合顺序的汇群落也可能截然不同（见图1）。因此，对于不同的汇群落，MST求解器估计的源贡献也将大不相同，这与事实相矛盾。

为了检验我们的假设，在这项工作中，首先我们使用群落生态学中经典种群动力学模型生成的合成数据系统地研究了微生物相互作用和优先效应对现有MST求解器性能的影响。我们发现这些求解器在存在微生物相互作用或优先效应的情况下会失败。我们为失败提供了数学解释。然后，我们应用FEAST和SourceTracker这两个最先进的MST求解器来分析两项粪菌移植(FMT)研究的数据，发现它无法为大多数受体识别供体。为了通过实验验证我们的假设，我们进行了群落聚集实验，其中来自24个健康个体（即来源）的粪便样本被混合并离体培养以形成481个汇样本。我们发现FEAST和 SourceTracker无法识别大多数汇样本的来源。这些结果强调了生态动力学在使用计算方法解决MST问题构成根本性挑战。

结果

微生物相互作用对基于群落结构的MST的影响

为了说明微生物相互作用对基于群落结构的MST的影响，我们将源和汇群落模拟为群落生态学中经典种群动态模型——广义Lotka-Volterra(GLV)模型稳态:

iMeta｜哈佛医学院刘洋彧组揭示生态动力学对微生物溯源的挑战_数据_05

这里x_i是物种i的丰度（或生物量），r_i是其内在增长率。微生物相互作用矩阵A=(a_ij) ∈R^N×N可以用生态网络𝒢(A)表示：当且仅当a_ij≠0时，网络中存在有向边(j→i)。而a_ij>0（<0，或=0）分别表示物种- j促进（抑制或不影响）物种- i的生长。为了生成矩阵A，我们首先使用具有N个节点（物种）和连通性C（表示随机连接两个节点的概率）的随机图模型生成底层网络𝒢(A)。然后对于每个链接(j→i)∈𝒢(A)且j≠i，我们从正态分布N(0,σ²)中产生a_ij。此处，正态分布的标准偏差σ可被视为物种间特征相互作用强度。尽管简单，GLV模型已成功应用于描述从土壤和湖泊到人类肠道的各种微生物群落的种群动力学。

我们生成了三个源群落，S₁、S₂和S₃，每个群落有30个物种来自一个包含N=90个物种的物种池。为了简化MST问题，我们确保三个源不共享任何共同物种，并且所有物种的内在增长率设置为相同（r_i=0.5）。S₁、S₂和S₃的组份向量（分别表示为y⁽¹⁾,y⁽²⁾,y⁽³⁾）通过运行GLV模型直到稳态，然后通过群落的总生物量对每个物种的稳态丰度进行归一化（详见SI Sec.1）。

为了系统地检查微生物相互作用对基于群落结构的MST的影响，我们调整了生态网络 𝒢(A)的连通性C和GLV模型中的特征物种间相互作用强度σ。对于给定的一对(C,σ)，我们模拟了100个汇群落，其初始组成向量x(0)由三个源群落的随机混合给出，即x(0)=m₁y⁽¹⁾+m₂y⁽²⁾+m₃y⁽³⁾，其中m_a取自均匀分布U(0,1)，约束为∑_am_a=1。每个汇的最终物种组成是通过运行GLV模型直到达到稳定状态而获得的。为了区分微生物相互作用和优先效应对基于群落结构的MST的影响，我们在这里假设同时混合，即所有来源（及其物种）同时到达以避免优先效应。

我们发现，在没有微生物相互作用且具有相同的内在物种增长率的情况下，FEAST和SourceTracker都可以实现非常高的性能（R²=1）：C=0（图2a)或σ=0(图2b)。这可以解释如下。首先，在没有微生物相互作用且具有相同的内在物种增长率的情况下，每个汇的最终组成将与其初始组成相同。其次，这三个源不共享任何共同的物种，因此对于那些假设每个汇都是源的凸组合的求解器来说，MST问题变得非常简单。我们发现，即使在这种理想情况下，基于分类的MST求解器（即RF）表现也不好。这是因为，作为不同源的组合，汇群落的构成并不一定需要与任何源的构成相似。

iMeta｜哈佛医学院刘洋彧组揭示生态动力学对微生物溯源的挑战_数据_06

图2. 微生物相互作用对MST的影响

A-B，SourceTracker（红色）、FEAST（蓝色）和随机森林（绿色）在具有不同网络连通性C(A)和特征作用强度σ(B)的模拟汇中的性能。每个模拟都是使用3个合成源和100个合成汇进行的。每种方法的准确性以判定系数R²来衡量。每个点代表三个独立源集的平均R²；误差条显示R²平均值的s.e.m (n=3)。C-D，具有不同网络连通性(C)和特征相互作用强度(D)的汇的初始和最终稳定成分（出于可视化目的，我们仅显示前10个物种的相对丰度）。在(A,C)中，交互矩阵A的对角线元素设置为a_ii=-5C以保证群落的稳定性，特征交互强度σ=0.1。在(B,D)中，我们设置a_ii=-5σ以保证稳定性，网络连通性C=0.5。在所有模拟中，我们为所有物种设置内在增长率r=0.5。为了可视化的目的，我们在x轴上添加了一个伪数ϵ=10^-6。

有趣的是，对于非零C或σ，三个MST求解器都无法成功估计源贡献（R²≈0）。这意味着只要存在微生物相互作用，即使没有优先效应，现有的MST求解器也会完全失败（参见图2A、B）。

在存在微生物相互作用的情况下，MST问题的不可解决性可以在概念上解释如下。任何微生物相互作用都将推动源群落从其初始状态演变为最终状态（图2C、D）。最终状态通常与初始状态不同。有两个例外。第一，初始汇群落已经处于稳定状态，因此不会随时间变化。这种情况几乎不会发生，因为初始汇是通过混合多个源获得的。即使源处于各自的稳态，简单地将它们混合也不会导致另一个稳态。不同来源的物种之间的相互作用将影响汇群落的组装。一些特定来源的物种甚至可能由于竞争而灭绝。第二，系统在状态空间中有一个周期性轨迹，并且初始状态和最终状态恰好相同。鉴于初始状态和最终状态之间不确定的时间间隔，这种巧合通常不会发生。（请参阅SI Sec.2，使用种群动态模型对汇群落的初始状态和最终状态之间的差异进行更多数学解释。）由于汇群落的初始状态和最终状态不同，将任何MST求解器应用于最终汇群落得到的混合比例也将不同于将MST求解器应用于初始汇群落所估计的结果。我们可以通过从最终状态推断初始状态来避免这个问题。但如果系统是全局稳定的，这是不可能的，即任何可行的初始状态都会导致相同的最终状态。即使不存在这样的全局稳定性，从最终状态推断初始状态通常也需要详细地了解系统的生态动力学，而这并不是我们的先验知识。所有这些因素表明，如果没有关于生态动力学的先验知识，MST问题在存在微生物相互作用的情况下在数学上是无法解决的。虽然已有许多计算方法来从时序或稳态数据推断微生物群落的生态动力学被开发，这些方法通常需要高质量的绝对丰度数据。此外，这些方法（尤其是那些依赖时序数据的方法）的性能可能在很大程度上受到模型错误指定的影响。原则上，我们可以使用符号回归技术从时序数据中推断模型结构和参数。但这也需要信息量足够丰富的时序数据，而从复杂的微生物群落（例如人类肠道微生物组）我们并不容易获得这些数据。

在极端情况下，例如，每个物种的增长率极低，物种间相互作用稀少且微弱，现有的MST求解器可以合理准确地识别真正的来源，但估计的来源贡献可能非常不准确，（参见图S1）。此外，存在一个特征时间尺度，即初始汇群落与使用MST时的测序汇群落之间的时间间隔。我们发现，在特征时间尺度之前，现有的基于群落的MST求解器（例如FEAST）效果很好，这个时间尺度当然取决于网络连通性、交互强度和物种增长率的平均值（见图S2）。

优先效应对基于群落结构的MST的影响

为了检查优先效应对基于群落结构的MST的影响，我们再次模拟生成三个源群落S₁、S₂和S₃，它们的物种集合没有任何重叠（每个来源有30个物种）。通过运行GLV模型直到达到稳态，然后通过群落的总生物量对每个物种的稳态丰度进行归一化获得源的最终物种组成（详见SI第1节）。对于3!=6混合顺序中的每一个，我们通过等比例(1/3,1/3,1/3)混合三个源生成汇，然后运行GLV模型以获得其最终物种组成。为了进行比较，我们还通过等比例(1/3,1/3,1/3)，同时混合三个源来生成汇。我们使用t-分布随机邻域嵌入(t-SNE)方法展示了三个源和七个汇的物种组成，发现七个汇的物种组成明显不同（见图3A）。然后我们运行最快的MST求解器FEAST来估计三个源对每个汇的贡献，发现不同汇的贡献是不同的，尽管真正的混合比例完全相同（图3B）。在上述模拟中，我们设置网络连通性和特征交互强度。

iMeta｜哈佛医学院刘洋彧组揭示生态动力学对微生物溯源的挑战_初始状态_07

图3. 优先效应对MST的影响

A-B，我们合成了三个源S₁、S₂和S₃，它们的物种集合没有任何重叠（每个来源30个物种）。我们使用六种不同的混合顺序混合这三个源，但具有相同的混合比例(1/3,1/3,1/3)，呈现六个汇。我们设置网络连通性C=0.5，特征相互作用强度σ=1，每个物种的内在增长率r=0.5。我们设置交互矩阵A的对角线元素为a_ii=-5以保证稳定性。A，使用t-SNE的降维显示了由六种不同混合顺序生成的六个汇之间的差异。B，FEAST估计的每个源对六个模拟汇的贡献。C，汇间和源间Bray-Curtis距离。我们合成了五个源。每个源的物种集合包括N_u个独特物种，其余(90-5N_u)个物种由所有源共享。我们将这五个来源以相同的混合比例(1/5,1/5,1/5,1/5,1/5)混合，从总共5!=120个混合顺序中随机选择100个不同的混合顺序。我们设置网络连通性C=0.5，特征相互作用强度σ=1，每个物种的内在增长率r=0.5。我们设置交互矩阵A的对角线元素为a_ii=-10以保证稳定性。使用单侧Wilcoxon检验计算P值

上述结果让我们想知道在优先效应存在的情况下基于群落结构的MST问题的可解性。在这里，我们提供了一个概要证明，即在存在优先效应的情况下，基于群落结构的MST在数学上是不可解的。考虑一组源群落。如果我们以不同的顺序混合它们（但使用同一组混合比例），由于优先效应，这通常会导致不同的汇群落。例如，我们生成了五个源。每个源的物种集合包括N_u个独特物种，其余(90-5N_u)个物种由所有源共享。我们将这五个源以相同的混合比例(1/5,1/5,1/5,1/5,1/5)混合，从总共5!=120个混合顺序中随机选择100个不同的混合顺序。我们发现汇之间的差异可以与源之间的差异一样大（见图3c）。我们发现汇之间的差异可以与源之间的差异一样大（见图3c）。我们强调，即使没有任何微生物相互作用，不同的混合顺序通常也会导致不同的汇群落（参见SI Sec.3的数学解释）。对于不同的汇群落，任何计算方法（即MST求解器）估计的源贡献也会不同，这与源贡献（即混合比例）完全相同的事实相矛盾。这个反证法清楚地表明，在存在优先效应的情况下，基于群落结构的MST在数学上是不可解的。

使用FMT研究的数据评估MST求解器

粪菌移植指的是来自经过仔细筛选的健康供体粪便中的菌群通过下消化道或上消化道引入受体。这是一个“自然”的混合实验，可用于评估MST求解器的性能。为实现这一目标，我们应用FEAST和SourceTracker来分析来自两项FMT研究的数据。

在第一项研究中，复发性艰难梭菌感染(rCDI)患者接受了FMT的治疗。图4A显示了7名健康供体和88名rCDI患者（即受体）之间的供体-受体关系。每个轨迹代表一个供体及其受体之一，在（最多）五个不同的时间点收集粪便样本：FMT前、FMT后2-6天、FMT后数周（7-20天）、数月（21-60天）后FMT，和长期（>60天）。所有微生物样本的主坐标分析(PCoA)如图4B所示。我们测试了FEAST是否可以正确识别受体的供体。为实现这一目标，我们将每个受体的每个FMT后样本视为一个汇群落，并将所有7位供体的粪便样本以及受体的FMT前样本视为潜在源群落。然后我们应用FEAST来解决MST问题。对于每个汇群落，在所有7个供体中，我们将FEAST估计的粪便样本贡献最高的那个称为“预测供体”（绿色方块，图4C，图S3）。有趣的是，我们发现对于很大一部分(61%)的汇群落，FEAST未能识别出真正的供体（红色圆圈，图4C，图S3），尽管这些供体之间的平均Jensen-Shannon差异足够高（0.63）。SourceTracker也有类似的结果（见图S4）。这些结果清楚地证明了现有MST求解器的局限性。

iMeta｜哈佛医学院刘洋彧组揭示生态动力学对微生物溯源的挑战_连通性_08

图4. 使用Staley等的FMT数据评估FEAST（Staley、Kaiser、Vaughn等，2018年）

A，供体-受体关系。每个轨迹代表最多5个时间点的供体及其相应的受体。响应FMT的受体（即响应者）的轨迹以黄色着色。无响应者的轨迹以蓝色着色。B，基于Bray-Curtis距离的主坐标分析(PCoA)图。C，每个接受者的真实供体（红色循环）与预测供体（绿色方块）。对于每个受体接受FMT之后的群落（汇），在所有7个供体中，我们将粪便样本中FEAST估计贡献最高的那个称为“预测供体”。在这里，出于可视化目的，我们仅显示了前65个汇的结果（其余194个汇的结果参见图S3）。源：供体的微生物组样本和接受者的FMT前样本；汇：受体接受FMT之后的样本。

在第二项FMT研究中，患有自闭症谱系障碍(ASD)或正常发育(TD)对照的人类供体的肠道微生物群被移植到无菌小鼠体内。该数据集包括8个供体、13个受体，以及总共106个FMT后汇群落。我们再次检查FEAST是否可以正确识别每个汇群落的真正供体。对于每个汇群落，在8个供体中，我们将FEAST预测的粪便样本贡献最高的那个称为“预测供体”（绿色方块，图S5）。我们发现，对于40%的汇群落，FEAST未能识别出真正的供体（红色圆圈，图S5）。SourceTracke观察到类似的结果（参见图S6）。

使用来自群落聚集实验的数据评估MST求解器

为了使用真实数据进一步评估MST求解器，我们进行了群落聚集实验，其中来自24个健康个体（即源）的粪便微生物群被混合并体外培养以形成481个汇群落（详见SI Sec.4）。在481个汇中，256个汇是通过混合两个不同的源（成对混合）获得的，其余225个汇是通过混合四个不同的源（四重混合）获得的。接种后，每24小时（1:200稀释）将汇群落转移到新鲜培养基中，进行10次传代（见图5A）。对在最后时间点（体外混合11天后）收集的样本进行测序，并将得到的物种分类组成视为汇的稳态（参见方法）。正如预期的那样，我们发现源和汇群落具有不同的物种分类组成（图S7、S8）。

iMeta｜哈佛医学院刘洋彧组揭示生态动力学对微生物溯源的挑战_数据_09

图5. 使用成对群落聚集实验的数据对FEAST进行评估

A，群落聚集实验示意图。有24个源群落（来自24个健康个体的粪便样本）。每个汇群落都是通过离体混合两个不同的源群落获得的，每个汇的最终组成是通过对体外混合11天后收集的样本进行宏基因组测序获得的。B，每个汇的真实来源（红色循环）与预测来源（绿色方块）。对于每个汇，在24个已知源中，具有FEAST预测的前两个最大贡献的两个源被称为预测源。在这里，出于可视化目的，我们只显示了前64个汇（其余192个汇的结果见图S5）。

我们首先将FEAST和SourceTracker应用到小规模对照实验中收集的样本中。本实验包括转移1天到10天后收集的8个受试者的样本。在这里，我们将第0天的8个样本视为可能的源，并将在随后的每次传代中收集的样本视为汇。我们发现FEAST (SourceTracker)在第1天识别汇的真实来源的准确性超过75%(63%)。但是，对于更多传代后收集的汇，两种求解器的源预测精度都会降低（参见SI图S9）。尽管本对照实验中的每个来源都没有混合，但不同物种在特定环境中的生长速率可能存在很大差异，这也导致刚混合后的初始汇群落与测序群落不同。这一发现与我们在图S1中的模拟一致，即现有的MST求解器可以以合理的精度识别真正的来源，只要每个物种的增长率极低，并且物种间的相互作用很少且微弱。

为了检验FEAST在群落聚结实验中的表现，我们应用FEAST分析了在成对混合实验中获得的256个汇的成分。我们对24个潜在的估计贡献进行了排名，并选择预测贡献最高的前两个作为预测源。我们发现对于256个汇中的大多数（图5B和图S10），预测源（绿色方块）与真实源（红色圆圈）不同。对于四重混合的情况也是如此（图S12）。SourceTracker观察到类似的结果（参见图S11、S13）。

一些供体样本（例如S0820B、S0814D）被预测为许多汇的源。我们发现这是由于汇和那些特定来源共享了大量常见ASV（图S14）。

讨论

虽然许多基于群落结构来解决MST问题的计算方法被开发了，这些方法忽略了驱动微生物群落组装的潜在的生态动力学。例如，作为贝叶斯MST求解器，SourceTracker明确地将汇建模为源的凸混合，并通过Gibbs采样推断混合比例。这种方法的灵感来自于量化不同源环境对汇样本的贡献比例和推断测试文档中各种主题的混合比例之间的“类比”。

然而，这种类比是不恰当的。主题建模是自然语言处理中的一个特定研究领域。其目标是发现文档集合中出现的抽象“主题”。从某种意义上说，这些文档是静态的或“死的”。相比之下，在MST中，我们通常处理的是活的（甚至是繁茂的）微生物群落，其中生态动力学在群落组装和决定它们的状态（即物种组成）中起着重要作用。在生态动力学的存在下，汇群落不能被简单地视为已知和未知源的凸混合。在这项工作中，通过数值模拟、分析计算和真实数据分析，我们提供了令人信服的证据，证明生态动力学对基于群落结构的微生物溯源构成了根本性挑战。特别是，我们清楚地证明微生物相互作用或优先效应的存在将使基于群落结构的微生物溯源问题在数学上无解。

现有的MST求解器已被应用于各种真实数据集，并在两个根本不同的场景下展示了它们的实用性。首先，按照最初的意图，它们被用来量化不同源环境对汇微生物群落的贡献。例如，SourceTracker用于估计来自“肠道”、“口腔”、“皮肤”、“土壤”和“未知”来源的细菌对多个室内汇环境（例如办公楼、医院和研究实验室）的贡献。结果发现，湿实验室表面群落往往主要由来自“皮肤”和“未知”的细菌组成，而新生儿重症监护病房和办公室群落通常以皮肤细菌为主。FEAST用于估计婴儿肠道中的分类群是否起源于产道，或者它们是否在稍后的时间点来自其他外部来源。通过将取自12个月大婴儿的样本视为汇，考虑到各自较早的时间点和母体样本作为来源，发现母体对阴道分娩婴儿的贡献明显大于剖宫产婴儿。此外，与其它潜在来源群落相比，亲生母亲更有可能被确定为婴儿微生物组的来源。尽管这些结果看起来合理并且与我们的直觉非常吻合，但我们建议整个微生物组学术研究共同体在解释现有MST求解器的结果时应该非常审慎。MST求解器可能会以合理的精度检测到源，但由于复杂的生态动力学，它们估计的源的贡献可能与真实的贡献大不相同。这对于生活在营养富集的环境（如人类肠道）中的微生物群落尤为重要。对于生活在寡营养环境中的微生物群落，如果源来自不同的生境（例如，来自不同动物的粪便样本），则微生物的生长速度和群落的组装过程相对缓慢，并且生态动力学对基于群落结构的MST的影响可能相对较低（这与我们在图S1中显示的数值结果一致）。但即使在这种情况下，也应该非常谨慎地解释现有MST求解器的结果。

其次，MST求解器已被用作相似性度量。在这种情况下，他们不是量化不同源对汇的贡献，而是旨在使用MST求解器估计的混合比例来捕获汇与其特征环境之间的相似性。每个汇可以用一个相似性特征向量来表示，表征它与其每个特征环境的相似性。例如，FEAST已在这种情况下用于区分ICU患者和健康成人，并捕捉微生物群落组成的变化，这些变化可能是致病表型和中性表型之间差异的基础。我们认为这是使用MST求解器分析真实数据的更有意义的做法。

引文格式：

Xu‐Wen Wang, Lu Wu, Lei Dai, Xiaole Yin, Tong Zhang, Scott T. Weiss, and Yang‐Yu Liu. 2023. “Ecological Dynamics Imposes Fundamental Challenges in Community‐ Based Microbial Source Tracking.” iMeta e75. https://doi.org/10.1002/imt2.75

作者简介

iMeta｜哈佛医学院刘洋彧组揭示生态动力学对微生物溯源的挑战_初始状态_10

王旭文（第一作者）

● 哈佛医学院博士后

● 于2015年在中国科学技术大学获得物理博士学位。2017年加入哈佛医学院担任博士后研究助理。博士后研究的主要涉及结合网络科学、统计物理和深度学习等工具解决生物系统中的问题。

iMeta｜哈佛医学院刘洋彧组揭示生态动力学对微生物溯源的挑战_数据_11

刘洋彧（通讯作者）

● 哈佛医学院副教授

● 刘博士于2009年在伊利诺伊大学厄巴纳-香槟分校获得物理学博士学位，论文主题是无序磁体的相变。2013年加入哈佛医学院之前，先后在东北大学复杂网络研究中心担任博士后和研究助理教授，期间研究的主要涉及结合控制理论、网络科学和统计物理等工具解决与复杂网络控制相关的基本问题。他在复杂网络的可控性和可观察性方面的工作被列为Nature的封面故事、PNAS的封面故事，并被包括Nature、Science、Science News、Science Daily、Wired 等在内的广泛媒体报道。他目前的研究工作侧重于从群落生态学、机器学习，动力学系统和控制论的角度研究人类微生物组。