背景

现代植物育种是一个数据密集型过程,需要整合和评估多种不同的数据集以支持决策制定。传统的植物育种通过有意的亲本杂交来产生具有优良表型特征的后代,而现代育种方法则结合了标记辅助选择和基因组选择(GS)来增强表型选择。随着高通量表型技术的出现,可以追踪的潜在表型数量大大增加。基因分型技术的低成本化使得即使是小型育种项目也能够为其种质资源的大部分获取高密度的基因分型数据。这种基因组数据的可用性使得育种过程中重要和复杂性状的评估方法更加高效。基因组选择结合了基因组和表型数据,开发了一个可以用于估计基因型或育种值的预测模型。

Breedbase | 一个现代植物育种的数字生态系统_数据

方法

Breedbase是一个基于网络的育种数据库系统,最初作为木薯数据库(Cassavabase)启动,后来发展成为一个适用于任何作物的系统。这个系统能够作为一个中心数据库,实现以下功能:

  • 跟踪育种材料。
  • 存储实验评估。
  • 使用一致的本体记录表型测量。
  • 存储基因型信息。
  • 实施分析、预测和选择决策的算法。

Breedbase的数据架构围绕Postgres关系数据库构建,主要派生自Chado模式,并进行了一些定制。系统使用非SQL扩展(如JSONb数据结构)来处理某些数据类型,如基因型数据。应用层使用Perl语言实现,基于Model-View-Controller(MVC)Catalyst Web框架和Mason模板工具包。统计分析和部分数据可视化使用R语言及其扩展包。图像分析和机器学习模型使用Python的TensorFlow和OpenCV实现。前端图形用户界面(GUI)的开发已从Mason组件过渡到JavaScript,并大量使用异步JavaScript请求。

Breedbase | 一个现代植物育种的数字生态系统_工作流程_02

结果

Breedbase作为一个开放源代码的网络基础育种数据管理和分析系统,已经成功地被多个不同的作物和项目采用。该系统通过提供一个完全集成的数字生态系统,使育种项目能够更有效地管理和利用数据进行决策。Breedbase实现了强大的育种工作流程系统、数据管理程序和分析工具,以解决育种信息学问题。此外,Breedbase还提供了一个交互式工作流程系统,为育种者和用户提供了逐步指导,以完成特定任务。

Breedbase | 一个现代植物育种的数字生态系统_数据库_03

结论

Breedbase为现代育种周期提供了一个集成的数字生态系统,通过围绕数据库整合整个育种过程,从而创建了一个高效的工作流程。Breedbase不仅适用于大型育种项目,也适用于资源有限地区的小型育种项目,有助于缩小全球粮食安全和粮食质量方面的差距。

Github:https://github.com/solgenomics

Docker hub:https://hub.docker.com/r/breedbase/breedbase#

作者:生物信息与育种,若要及时了解动态信息,请关注同名微信公众号:生物信息与育种。