使用Preseq评估文库复杂度

原创

庐州月光 2022-06-21 09:52:31 ©著作权

文章标签 数据分析复杂度公众号 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者庐州月光的原创作品，请联系作者获取转载授权，否则将追究法律责任

评估文库复杂度有不同的算法，除了picard外，还有其他工具可以用，Preseq就是其中最常用的一款工具，文章发表在nature methods上，对应的链接如下

https://www.nature.com/articles/nmeth.2375

Preseq是一款通用的评估二代测序文库复杂度的方法，官网如下

http://smithlabresearch.org/software/preseq/challenge/

该软件还有对应的R包版本preseqR, 链接如下

https://cran.r-project.org/web/packages/preseqR/index.html

通过对序列进行随机抽样，计算不同抽样数据量下的文库复杂度，然后绘制文库复杂度曲线，以此来评估当前测序量是否满足复杂度的需求，是否需要加测数据量，其用法如下

# 第一步，对bam文件排序
samtools sort input.bam -o input.sorted.bam
# 第二步，运行preseq
preseq lc_extrap \
-s 10000 \
-o preseq.output.txt \
-B \
-P \
input.sorted.bam

-s指定抽样的reads数目，-o指定输出结果文，-B表示输入文件为bam文件，-P表示输入文件为双端测序，输出文件内容示意如下

使用Preseq评估文库复杂度_数据分析

以-s参数的值为步长，计算每次抽样对应的unique fragment数目，以及对应的95%置信区间。对该结果进行可视化，代码如下

使用Preseq评估文库复杂度_数据分析_02

输出的图片如下所示

使用Preseq评估文库复杂度_公众号_03

上图实际上是一种饱和度曲线，曲线末端斜率上升越趋近于平缓，说明再增加测序量新发现的fragment也不会多很多，当前测序量已经能够满足要求，如果曲线末端斜率非常陡峭，说明还需进一步增加数据量。

·end·

使用Preseq评估文库复杂度_复杂度_04

一个只分享干货的

生信公众号

上一篇：强烈推荐！Encode官方的ATAC数据分析流程

下一篇：metascape: 最强大的基因富集分析在线工具

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯