代谢组学是对生物体某一特定组分所包含的所有代谢物进行定性及定量分析,并研究该代谢组在外界干预或疾病生理条件下动态变化规律的一门学科。代谢组学是一门交叉性极强的学科,我们经常讲,代谢组学是用物理学原理的设备,检测化学原理的化合物,然后通过计算统计学,分析生物学机理,最终阐述医学等各种现象,真的是相当的复杂。

百趣代谢组学研究中心专家亮哥从事代谢组学检测分析工作十几年,从不懂到懂一点,也是有非常漫长的过程。然而最近亮哥看一些文章,听一些报告,和客户朋友聊一些天,发现大家对代谢组学研究依然有很多误区。故而总结这十大误区供大家讨论及参考:

误区九:代谢组学检测中色谱图中峰的高低代表物质含量的高低?

很多客户朋友做完项目以后经常性提出的一个要求是希望我们把物质标注在色谱图上(如下图a, b标注),这样做合不合理呢?

代谢组学数据分析 CV 代谢组学数据分析思路_数据


图1. GC-TOF-MS总离子流色谱图

另外,还有个小故事:

一次,我们的结果显示某个物质(比如a)的峰面积远大于另外一个物质(比如b),这跟客户所知道的常识是相违背的,根据常识,该物种中a的含量是低于b的含量的,于是对我们的结果产生质疑,本着顾客是上帝的原则,公司将项目款悉数退还。大概半年以后,客户了解到这是质谱检测的一种正常现象,直呼公司大气,有大公司风范,从此成为公司的铁杆粉丝。

以上两种情况,都是出于对色谱质谱的谱峰理解有误所致。

图1我们展示的是GC-MS的总离子流色谱图(Total Ion Chromatogram, TIC),TIC图是将每个时间点质谱中所有离子的信号强度加和后连续描绘得到的谱图,图中横坐标是代谢物在色谱中的保留时间(RT),纵坐标是离子强度;

但是,我们肉眼看到的一个谱峰就是一个代谢物吗?

此时我们要引入一个提取离子流的概念。

提取离子流色谱图(Extracted Ion Chromatogram, EIC)是指某个特定质荷比的离子的色谱图,EIC图的峰面积才是用于代谢物定量分析的峰面积。

如下图所示,一个TIC图内部可能包含多个EIC图,这就是我们通常所说的共流出的概念。

所以除非我们所检测的样品里面的物质是简单的,没有共流出的现象,否则我们在TIC图上标示物质的做法是不可取的,针对生物样品的复杂体系,大部分我们肉眼所见的TIC谱峰,都是包含多个特征离子的。

代谢组学数据分析 CV 代谢组学数据分析思路_数据_02


图2. TIC图下的EIC及特征离子的质谱图(A, B, C)

我们再来看看几个LC-MS的TIC色谱峰图:

代谢组学数据分析 CV 代谢组学数据分析思路_java_03


图3. 人血浆QC样品正离子模式(POS)的TIC叠图-18min

代谢组学数据分析 CV 代谢组学数据分析思路_java_04


图4. 人血浆QC样品负离子模式(NEG)的TIC叠图-18min

从图形上可以看出,在同一个批次内,峰图具有非常好的重现性。这也是判断一个实验做的好不好的质量控制标准之一。

那么我们换一个体系,采用12分钟的方法来做呢?

代谢组学数据分析 CV 代谢组学数据分析思路_代谢组学数据分析 CV_05


图5. 第一批人血浆样品正离子模式(POS)的TIC图-12min

代谢组学数据分析 CV 代谢组学数据分析思路_java_06


图6. 第一批人血浆样品负离子模式(NEG)的TIC图-12min

大家会发现,换体系以后,同样都是人血浆样品(不是同一个样品),出来的谱峰差异很大。那是不是意味着代谢组学的检测很不稳定,批次效应没有办法解决呢?

我们再来一批血浆,进一步来看相同的仪器,相同的体系(SOP),在不同的时间,不同的人员检测不同批次的人血浆(不是同一个样品)重现性如何呢?

代谢组学数据分析 CV 代谢组学数据分析思路_代谢组学数据分析 CV_07


图7. 第二批人血浆样品正离子模式(POS)的TIC图-12min

代谢组学数据分析 CV 代谢组学数据分析思路_人工智能_08


图8. 第二批人血浆样品负离子模式(NEG)的TIC图-12min

为了方便对照,我们将图形放在一起来看一下:

代谢组学数据分析 CV 代谢组学数据分析思路_网络_09


图9. 前后两批人血浆样品正离子模式(POS)的TIC图-12min

代谢组学数据分析 CV 代谢组学数据分析思路_网络_10


图10. 前后两批人血浆样品负离子模式(NEG)的TIC图-12min

由此至少可以看出,在相同的仪器及相同的体系(SOP)下,不同批次的人血浆样品(不同的时间,不同的操作人员,不同的样品)的出峰规律还是非常一致的。

尽管如此,我们也不能忽视批次效应带来的数据不稳定。那如果我们要做一个超大型的队列,比如1万例样品的LC-MS非靶代谢组检测,如何进行大型队列的设计,避免批次效应带来的影响呢?这个下次再讲。

回到LC-MS的色谱峰上,还有一种常见的色谱峰图叫基峰图(Base Peak Chromatogram, BPC),是将每个时间点质谱图中最强的离子的强度连续描绘得到的图谱。最强的总是最少的,这样得到的峰图峰的数量看起来就比较尖锐,比较多,这并不是做了什么方法学的优化,实际上这只是色谱图的一种呈现形式而已,往往发文章的时候有评审专家会认为BPC图不是样品真实的反映,所以不接受BPC的投稿,只接受TIC,这个要特别注意。

代谢组学数据分析 CV 代谢组学数据分析思路_代谢组学数据分析 CV_11


图11. 第二批人血浆样品正离子模式(POS)的BPC图-12min

代谢组学数据分析 CV 代谢组学数据分析思路_代谢组学数据分析 CV_12


图12. 第二批人血浆样品负离子模式(NEG)的BPC图-12min

最后我们再分析一下上文中那个小故事的情况。

为啥非靶标代谢组学数据中物质的峰面积不能代表物质的真实含量呢?

通过上面的对峰图的理解,我们已经知道,峰面积的半定量我们是依据提取离子流色谱图的峰面积进行的,由于每个化合物在质谱中的离子化效率以及质谱检测器的高能打拿极对于不同离子的电子置换效率不同等因素,使得仪器检测到的峰强度并不能反映化合物的真实含量,不过,对于不同的样品,同一个物质峰是在相同的情况下采集的,可以做比较,故而非靶代谢组学只能用来寻找样品间或组间的差异,而不能对同一个样品内的不同物质进行浓度含量的比较。

总结一下亮哥这次分享的经验要点:

  1. 针对复杂的生物样品,不可以在TIC图上标示物质。
  2. 质谱对于不同的物质,响应不一样,故在非靶代谢组学中,同一个样品内的不同物质不可以进行物质含量的比较。

文/亮哥聊代谢组学