长读测序系列文章-1

标题(英文): PrecisionFDA Truth Challenge V2: Calling variants from short and long reads in difficult-to-map regions
标题(中文): PrecisionFDA真相挑战第二版:利用短读长和长读长在难比对区域进行变异检测

发表期刊: Cell Genomics

作者单位: 美国国家标准与技术研究院材料测量实验室、美国食品药品管理局、Sentieon 公司、谷歌公司等

发表年份: 2022

文章地址: https://doi.org/10.1016/j.xgen.2022.100129

Sentieon | 每周文献-Long Read Sequencing(长读长测序)-第七期_长读测序

图1 Highlight(突出亮点)

PrecisionFDA自2015年起航,初衷是为美国食品和药物管理局(FDA)在基因组学领域的监管标准设立提供支持,随后其服务范畴已广泛覆盖至组学的所有领域。该平台不仅为用户提供按需高性能计算实例、专家交流社区、公开可用的工具库以及定制工具的开发支持,还打造了挑战框架和虚拟共享空间,使得FDA的科学家和审稿人能够与外部合作伙伴携手合作。

其中,precisionFDA的挑战框架是该平台最具开放性的功能之一,它支持在公开环境中举办生物数据挑战,并提供必要的资源以便进行测试和验证。

在2016年,首届瓶中基因组(GIAB)-precisionFDA真相挑战赛正式启幕,挑战参赛者从两个GIAB样本的短读长数据中识别出小变体。虽然HG001(也被称为NA12878)的基准测试数据已提前公布,但当时并未公开HG002的基准测试数据,这使得该挑战成为首个盲法种系变异检测挑战。其结果公开后,已被用作评估新变异检测方法的基准。尽管目前尚无确凿证据显示HG001的方法存在过度拟合的问题,但对其性能的评估仅限于那些相对容易访问的基因组区域,这些区域的数据用于形成v3.2 GIAB基准集。

Sentieon | 每周文献-Long Read Sequencing(长读长测序)-第七期_基因数据分析_02

图2 将变体调用生成为变体调用格式 (VCF) 文件

与第一次真相挑战集中在基因组简单区域不同,在本次挑战中,除了提供来自 illumina 的短读长数据外,还包括Pacific Biosciences PacBio HiFi和Oxford Nanopore Technologies ONT的长读长数据,以评估各种数据类型的性能。本次基准测试涉及基因组重复区域和 MHC 等复杂区域。

参赛者被要求利用 GIAB 德系犹太人的家系样本不同数据平台产出的数据进行变异检测,提交最终 VCF 格式变异检测结果。最终,20 支来自全球各地的团队提交了 64 个结果。

Sentieon | 每周文献-Long Read Sequencing(长读长测序)-第七期_长读测序_03

图3 质询提交明细和性能概述

Sentieon | 每周文献-Long Read Sequencing(长读长测序)-第七期_基因数据分析_04

图4 挑战赛表现最好的参赛团队汇总

One winner was selected for each technology/genomic region combination, and multiple winners were awarded in the case of ties. Winners were selected based on submission’s F1 score for the semi-blinded samples, HG003 and HG004 (harmonic mean of the parents’ F1 scores for combined SNVs and INDELs). Overall submission rank for all three genomic categories indicates submission overall performance: all, all benchmark regions; diff, difficult-to-map regions.

可以看到大部分提交都使用了深度学习算法,特别是在长读长数据处理中。另外,Sentieon 公司的提交在所有三中测序平台数据及所有基准测试、难比对区域及 MHC 区域等各方面均具有 top 级别表现。

Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

综上所述,本次真相挑战凸显了在表征临床重要 MHC 位点方面、增加了基因组难比对区域的基准集、首次使用了盲法样本等诸多创新。通过比较各提交者的结果,发现与第一次真相挑战相比,某些方法针对于非盲样本可能存在过度拟合的情况。


长读测序系列文章-2

标题(英文): The Gossypium herbaceum L. Wagad genome as a resource for understanding cotton domestication
标题(中文): 作为了解棉花驯化的资源,印度棉(Gossypium herbaceum L. Wagad)基因组

发表期刊: G3 Genes/Genomes/Genetics

作者单位: 德保罗大学、爱荷华州立大学等

发表年份: 2022

文章地址: https://doi.org/10.1093/g3journal/jkac308

Sentieon | 每周文献-Long Read Sequencing(长读长测序)-第七期_长读测序_05

图1

"Gossypium herbaceum",这种源自非洲和亚洲的棉花,是两种已被驯化的二倍体棉花之一。这些属于A基因组分类群的棉花,连同其姊妹物种G. arboreum,共同构成了现代多倍体棉花的已灭绝A基因组供体的代表。这类多倍体棉花为全球约95%的棉花种植提供了种质。在更大规模的研究中,为了解析不同二倍体和多倍体棉花基因组间的变异及改良资源,研究者完成了对G. herbaceum品种(cv.)Wagad的基因组测序和组装,这标志着该物种首次驯化种质的基因组研究。


Sentieon | 每周文献-Long Read Sequencing(长读长测序)-第七期_长读测序_06

图2

a) G. herbaceum var. africanum (y 轴) 和 G. herbaceum cv 中 13 条染色体的基因组比对。Wagad(x轴)基因组。蓝色阴影表示序列匹配程度。橙色圆圈表示染色体 A01、A02、A06 和 A13 上 2 个基因组组装之间的主要和次要倒置。b) 2 个 A1 基因组之间包含反转(A01、A02、A06 和 A13)的染色体比对。A13 有 3 次反转。A13 上的主要反转是如此之大,以至于一部分被着色为易位,而不是通过绘图进行反转(Goel 等人,2022 年)。

研究者通过将PacBio 长读长数据进行组装后对基因组进行 repeat 和 gene 注释。然后,利用测序或者从公开发表文献中下载的棉花基因组数据进行比对、变异检测、联合基因分型对亚洲栽培棉和非洲亚种进行比较。此过程中,Sentieon DNAseq 模块被用于 illumina 数据的变异检测和联合基因分型。


Sentieon | 每周文献-Long Read Sequencing(长读长测序)-第七期_基因数据分析_07

图3

综上所述,棉花是一种重要的纤维作物,经过多次独立驯化。在搞研究中,研究者报告了亚洲栽培棉Wagad 品种的基因组序列。该序列补充了现有基因组组装和多样性研究,未了解棉花基因组结构和遗传多样性提供了基础,为二倍体棉花育种提供了额外的视角。