什么是插入片段?
在NGS基础 - 高通量测序原理中提到过文库的构建,具体如下图
图中黑色片段即为我们的插入片段。根据测序用途不同,插入片段一般也不同。
- 常规转录组测序、重测序插入片段为
200-300 nt
。 - 扩增子测序插入片段长度取决于使用的扩增引物,一般
400-550
nt。 - 小 RNA 测序插入片段长度为
18-40 nt
。
插入片段长短与测序接头是什么关系呢?
我们看下测序的过程:
测序引物锚定在序列模板上,正好与模板的Rd2 SP
(SP: sequence primer测序引物)完全互补配对,随后开始边合成边测序,所以测序reads 5'
端的接头和引物序列都不会被测到,直接跳过。测序的第一个碱基是插入片段的第一个碱基。依次继续测。
- 假如测序读长小于插入片段大小,那么插入片段部分都没有测通,另一端的
Rd1 SP
和P5
序列都不会被测到,获得的reads
自然就不会存在与我们目标序列无关的接头序列部分。 - 假如测序读长大于插入片段大小,那么插入片段全部测通之后,另一端的
Rd1 SP
和P5
序列可能都会被测到,获得的reads
自然就会包含接头序列部分。
常规转录组测序、基因组重测序、扩增子测序,使用模式为PE 150
和PE 250
,单端的读长大都不会长于插入片段,通常是不会测到接头序列的。
为什么一批数据有的序列有接头,有的没有接头
常规转录组测序、基因组重测序 DNA 片段因为片段化方式不同,如酶切或超声打断,获得的片段大小不是完全一致的,大部分目标片段长度集中于200-300 nt
,但也有一部分会短于150 nt
甚至再短一些,这部分片段被测序时就会产生长短不一的接头序列部分。