长读测序系列文章-1
标题(英文): PrecisionFDA Truth Challenge V2: Calling variants from short and long reads in difficult-to-map regions
标题(中文): PrecisionFDA真相挑战第二版:利用短读长和长读长在难比对区域进行变异检测
发表期刊: Cell Genomics
作者单位: 美国国家标准与技术研究院材料测量实验室、美国食品药品管理局、Sentieon 公司、谷歌公司等
发表年份: 2022
文章地址: https://doi.org/10.1016/j.xgen.2022.100129
图1 Highlight(突出亮点)
PrecisionFDA自2015年起航,初衷是为美国食品和药物管理局(FDA)在基因组学领域的监管标准设立提供支持,随后其服务范畴已广泛覆盖至组学的所有领域。该平台不仅为用户提供按需高性能计算实例、专家交流社区、公开可用的工具库以及定制工具的开发支持,还打造了挑战框架和虚拟共享空间,使得FDA的科学家和审稿人能够与外部合作伙伴携手合作。
其中,precisionFDA的挑战框架是该平台最具开放性的功能之一,它支持在公开环境中举办生物数据挑战,并提供必要的资源以便进行测试和验证。
在2016年,首届瓶中基因组(GIAB)-precisionFDA真相挑战赛正式启幕,挑战参赛者从两个GIAB样本的短读长数据中识别出小变体。虽然HG001(也被称为NA12878)的基准测试数据已提前公布,但当时并未公开HG002的基准测试数据,这使得该挑战成为首个盲法种系变异检测挑战。其结果公开后,已被用作评估新变异检测方法的基准。尽管目前尚无确凿证据显示HG001的方法存在过度拟合的问题,但对其性能的评估仅限于那些相对容易访问的基因组区域,这些区域的数据用于形成v3.2 GIAB基准集。
图2 将变体调用生成为变体调用格式 (VCF) 文件
与第一次真相挑战集中在基因组简单区域不同,在本次挑战中,除了提供来自 illumina 的短读长数据外,还包括Pacific Biosciences PacBio HiFi和Oxford Nanopore Technologies ONT的长读长数据,以评估各种数据类型的性能。本次基准测试涉及基因组重复区域和 MHC 等复杂区域。
参赛者被要求利用 GIAB 德系犹太人的家系样本不同数据平台产出的数据进行变异检测,提交最终 VCF 格式变异检测结果。最终,20 支来自全球各地的团队提交了 64 个结果。
图3 质询提交明细和性能概述
图4 挑战赛表现最好的参赛团队汇总
One winner was selected for each technology/genomic region combination, and multiple winners were awarded in the case of ties. Winners were selected based on submission’s F1 score for the semi-blinded samples, HG003 and HG004 (harmonic mean of the parents’ F1 scores for combined SNVs and INDELs). Overall submission rank for all three genomic categories indicates submission overall performance: all, all benchmark regions; diff, difficult-to-map regions.
可以看到大部分提交都使用了深度学习算法,特别是在长读长数据处理中。另外,Sentieon 公司的提交在所有三中测序平台数据及所有基准测试、难比对区域及 MHC 区域等各方面均具有 top 级别表现。
Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。
综上所述,本次真相挑战凸显了在表征临床重要 MHC 位点方面、增加了基因组难比对区域的基准集、首次使用了盲法样本等诸多创新。通过比较各提交者的结果,发现与第一次真相挑战相比,某些方法针对于非盲样本可能存在过度拟合的情况。
长读测序系列文章-2
标题(英文): The Gossypium herbaceum L. Wagad genome as a resource for understanding cotton domestication
标题(中文): 作为了解棉花驯化的资源,印度棉(Gossypium herbaceum L. Wagad)基因组
发表期刊: G3 Genes/Genomes/Genetics
作者单位: 德保罗大学、爱荷华州立大学等
发表年份: 2022
文章地址: https://doi.org/10.1093/g3journal/jkac308
图1
"Gossypium herbaceum",这种源自非洲和亚洲的棉花,是两种已被驯化的二倍体棉花之一。这些属于A基因组分类群的棉花,连同其姊妹物种G. arboreum,共同构成了现代多倍体棉花的已灭绝A基因组供体的代表。这类多倍体棉花为全球约95%的棉花种植提供了种质。在更大规模的研究中,为了解析不同二倍体和多倍体棉花基因组间的变异及改良资源,研究者完成了对G. herbaceum品种(cv.)Wagad的基因组测序和组装,这标志着该物种首次驯化种质的基因组研究。
图2
a) G. herbaceum var. africanum (y 轴) 和 G. herbaceum cv 中 13 条染色体的基因组比对。Wagad(x轴)基因组。蓝色阴影表示序列匹配程度。橙色圆圈表示染色体 A01、A02、A06 和 A13 上 2 个基因组组装之间的主要和次要倒置。b) 2 个 A1 基因组之间包含反转(A01、A02、A06 和 A13)的染色体比对。A13 有 3 次反转。A13 上的主要反转是如此之大,以至于一部分被着色为易位,而不是通过绘图进行反转(Goel 等人,2022 年)。
研究者通过将PacBio 长读长数据进行组装后对基因组进行 repeat 和 gene 注释。然后,利用测序或者从公开发表文献中下载的棉花基因组数据进行比对、变异检测、联合基因分型对亚洲栽培棉和非洲亚种进行比较。此过程中,Sentieon DNAseq 模块被用于 illumina 数据的变异检测和联合基因分型。
图3
综上所述,棉花是一种重要的纤维作物,经过多次独立驯化。在搞研究中,研究者报告了亚洲栽培棉Wagad 品种的基因组序列。该序列补充了现有基因组组装和多样性研究,未了解棉花基因组结构和遗传多样性提供了基础,为二倍体棉花育种提供了额外的视角。