生物信息分析:从入门到精(fang)通(qi)结语:入门生信一时爽,一直分析一直爽

生物信息分析python 生物信息分析技术_生物信息分析python


生信小白:服务器、超算、运维…这些词经常挂在生信专家嘴边,为什么需要这些东西呢?

西克孚肉:我们之前讲过,二代测序技术就像碎纸机,我们要用这些碎纸片段完成拼图。这个过程并没有想象中那么简单!首先拼图数目巨大,有好几十幅拼图凑在一起,存在大量重复的片段…这意味着处理数据需要比较大的计算量。

生物信息分析python 生物信息分析技术_生物信息分析python_02

生信小白:难怪我说要跑全基因组数据时,好几个大佬说需要服务器、超算等资源...我好穷啊,真的是入门生信一时爽,一到分析悔断肠啊TT

西克孚肉:传统解决方案是购买高性能计算机或者服务器集群。但在实际的应用中,测序厂商们会遇到着不少问题...

Q:传统解决方案会遇到什么问题?

西克孚肉:

购买计算机或者服务器集群,需要考虑金钱成本和人力成本。

要买多少服务器呢?由于测序业务量有一定波动,服务器的数量不能很好控制。如果服务器数量不足,就不能满足峰值阶段的测序任务。购买大量资源,在业务量较低时,又会造成一定的资源浪费。这时,要么降低任务量来匹配服务器的限制,要么购买大量资源匹配最大可能的未来需求。

并且,购买硬件需要投入大量人力、精力维护,比如定期安装升级软件、有了故障要进行排查定位等等。

生物信息分析python 生物信息分析技术_服务器_03

云计算

云计算可以更好地解决传统方案遇到的问题:

弹性资源分配,按需计量

生物信息分析python 生物信息分析技术_云计算_04

云计算具有资源按需提供的特征,能够以弹性伸缩的方式分配计算资源。云计算对于个体来讲,可以有更大的计算能力和存储空间。用户可根据业务需求,动态申请资源。不必担心资源过渡供给导致额外使用开销,也不必担心资源受限导致任务不能很好运行。

数据交付与协作

使用相同的云基础设施,上下游用户之间的数据交付会变得更简单便捷。尤其是在基因领域,涉及大量数据的交付和协作。常规数据协作模式依赖于硬盘寄送,寄送后的数据还要再拷贝一次。但如果有了云和统一的接口、标准之后,整个过程会变得更简便,数据会变得更加易于管理,业务之间的关联也会变得更加紧密。

生物信息分析python 生物信息分析技术_服务器_05

西克孚肉:有了云计算,对于很多的生物信息开发者,只需要一些电脑,就可以通过网络服务实现大量数据的计算。国际上最新的算法和数据库也可以最快时间更新到云平台上,让用户能够同步使用。

生信小白:代码能力不强的话,可以使用云计算吗?

西克孚肉:对于代码能力相对薄弱一点的用户来讲,使用GeneDock SeqFlow来做基因数据分析是一种更友好的方式。这降低了采纳新技术的门槛,用户可以花费更多的时间关注自己的主要业务。

生信小白:太好了,有了你之后,真的是入门生信一时爽,一直分析一直爽...