我们都知道不论真核与原核生物都离不开基因,它储存着生长、发育、凋亡等几乎全部生命过程的信息。那么基因有着哪些结构呢,接下来从三个层面来讨论基因的构成:

python高可变基因 基因可变区_ci

 

一、DNA

python高可变基因 基因可变区_ci_02

编码区 Coding region

基因在结构上,分为编码区和非编码区两部分。真核生物的编码区是不连续的,分为外显子和内含子,在转录过程中会修剪内含子,并拼合外显子来形成转录产物。在原核生物中,基因是连续的,也就是说无外显子和内含子之分。

外显子 Exon

外显子是在 preRNA 经过剪切或修饰后,被保留的DNA部分,并最终出现在成熟RNA的基因序列中。

内含子 Intron

在真核生物中,内含子作为阻断基因的线性表达的一段DNA序列,是在 preRNA 经过剪切或修饰后,被切除的DNA序列

 

非编码区 Non-coding region

非编码区在对基因的表达调控中发挥重要作用,如启动子,增强子,终止子等都位于该区域,有意思的是在人类基因中非编码区的占比超过90%。它们中的一部分可以转录为功能性RNA,比如tRNA(transfer RNA), rRNA(ribosomal RNA)等;可以作为DNA复制,转录起始来对复制,转录和翻译起到调控作用;也可能是着丝粒与端粒的重要组成部分。

启动子 Promoter

启动子是特定基因转录的DNA区域,启动子一般位于基因的转录起始位点,5‘端上游,启动子长约100-1000bp。在转录过程中,RNA聚合酶与转录因子可以识别并特异性结合到启动子特有的DNA序列(一般为保守序列),从而启动转录。启动子本身并不转录而且也不控制基因活动,而是通过转录因子结合来调控转录过程。在细胞核中,似乎启动子优先分布在染色体区域的边缘,可能是在不同染色体上共同表达基因。 此外,在人类中,启动子显示出每个染色体特有的某些结构特征。

  • CAAT Box 与 Sextama box

CCAAT box(有时也缩写为CAAT box或CAT box):具有GGCCAATCT 共有序列的不同核苷酸序列 ,是真核生物基因常有的调节区,位于转录起始点上游约-80bp处,可能也是RNA聚合酶的一个结合处,控制着转录起始的频率。与之相似的是,在原核生物启动子上-35bp处的TTGACA区,又称-35区。

保守序列与共有序列的概念含义基本相同。保守序列间相似度高,但不一定相同,而共有序列是相同的,共有序列可以理解为一种特殊的保守序列。

CAAT框是最早被人们描述的常见启动子元件之一,常位于接近-80的位置,但是它可以在离起始点较远的距离仍能起作用,且在两种取向均可发挥作用。CAAT框的突变敏感性提示了它在决定转录效率上有很强的作用,但是突变对启动子的特异性没有影响。

  • TATA Box 与 Pribnow box

TATA 框(TATA box / Goldberg-Hogness box),存在于古细菌和真核生物的核心启动子区域的一段DNA序列,TATA 框的原核同源物称为Pribnow 框(Pribnow box),其具有较短的共有序列TATAATAAT。 它约在多数真核生物基因转录起始点上游约-30bp(-25~-32bp)处,基本上由A-T碱基对组成,是决定基因转录始的选择,为RNA聚合酶的结合处之一,RNA聚合酶与TATA框牢固结合之后才能起始转录。

增强子 Enhancer

增强子是位于转录起始位点或下游基因1Mbp的位置,长度50-1500bp的序列,其可以被转录激活因子结合从而增加特定基因转录发生的可能性,广泛的存在于原核与真核生物基因结构中。

增强子能大大增强启动子的活性。增强子有别于启动子处有两点:增强子对于启动子的位置不固定,而能有很大的变动;它能在两个方向产生相互作用。一个增强子并不限于促进某一特殊启动子的转录,它能刺激在它附近的任一启动子。

终止子 Terminator

终止子处于基因或操纵子的末端,给RNA聚合酶提供转录终止信号的DNA序列。

终止子与终止密码子的概念区分:二者在名称上相似,但是含义是截然不同的。终止子是处于基因的非编码区的一段DNA序列,用于终止转录。而终止密码子是在翻译过程中终止肽链合成的mRNA中的三联体碱基序列,一般情况下为UAA,UAG和UGA,不编码为氨基酸。

  • ATAAA

ATAAA 是 preRNA 在通过修剪后形成成熟mRNA 时在3'UTR产生ployA 是的加尾信号。但是这段序列并不是绝对保守,也可能为其他A富集的序列,比如AATAAA等。

  • 回文序列 palindrome sequence

回文序列是双链DNA中的一段倒置重复序列,这段序列有个特点,它的碱基序列与其互补链之间正读和反读都相同。当该序列的双链被打开后,如果这段序列较短,有可能是限制性内切酶的识别序列,如果比较长,有可能形成发卡结构,这种结构的形成有助于DNA与特异性DNA与蛋白质的结合。

5' GGTACC 3' 
3' CCATGG 5'

 

二、preRNA

python高可变基因 基因可变区_ci_03

 

转录起始位点 Transcription start sites (TSS)

转录起始位点是指与新生RNA链第一个核苷酸相对应的DNA链上的碱基,通常为一个嘌呤(A 或G),即5’UTR的上游第一个碱基。

5’末端的序列称为上游,而把其后面即3‘末端的序列称为下游.

转录终止位点 Transcription termination sites (TTS)

转录起始位点是指新生RNA链最后一个核苷酸相对应的DNA链上的碱基。当RNA链延伸到转录终止位点时,RNA聚合酶不再形成新的磷酸二酯键,RNA-DNA杂合物分离,转录泡瓦解,DNA恢复成双链状态,而RNA聚合酶和RNA链都被从模板上释放出来。

开放阅读框 Open reading frame(ORF)

ORF 是连续的一段密码子,其含有起始密码子(通常是AUG)和终止密码子(通常是UAA,UAG或UGA)。在真核基因中,ORF跨越内含子/外显子区域,其可以在 ORF 转录后拼接在一起以产生蛋白质翻译的最终mRNA。 由于读写位置不同(对应不同的起始位点),ORF 可能翻译为不同的多肽链。

三、mRNA

python高可变基因 基因可变区_python高可变基因_04

5'UTR 与 3'UTR

这里需要注意的是外显子包含UTR区,也就是说外显子不只有可编码的序列,而且包含非编码序列

UTR (Untranslated Region ),如果这段序列位于5'端,就称作5'UTR(5‘-untranslated region),也叫前导序列(leader)。相反若位于3'端,我们就叫它3'UTR(3‘-untranslated region),也叫尾随序列(trailer)。1978年,人类γ球蛋白mRNA的5′非翻译区被成功完全测序 。1980年,又开启了人类α-珠蛋白基因中3′非翻译区的研究。有趣的是,虽然叫非编码区,但是5′非翻译区内的上游可读框却可以被翻译成多肽1 。

5'UTR 位于从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至起始密码子AUG,3'UTR从编码区末端的终止密码子延伸至多聚A尾巴(Poly-A)的前端

原核生物和真核生物都可以看到UTR,但它们的长度和组成都有所不同。原核生物中,5′非翻译区通常为3至10个核苷酸的长度。但在真核生物中,5′非翻译区有成百上千个核苷酸的长度。与原核生物相比,真核生物的基因组的复杂性更高,3′非翻译区的长度也不同。虽然5′非翻译区和3′非翻译区在长度上有差异,但5′非翻译区的长度在演化过程中比3′非翻译区显得更保守2。

5‘Cap

5‘Cap也被称为7-甲基鸟苷酸帽,缩写为m7G。这种结构在RNA进出细胞核起到识别作用;可以抗5'-核酸外切酶的截切;促进5’端内含子的切除;在翻译过程中有助于核糖体对mRNA的识别和结合。

3’ PolyA tail

Poly A tail 由多个腺苷一磷酸组成 ,也就是说它是一段仅含有腺嘌呤碱基的RNA 。这种结构可以避免细胞质中的酶促降解,并有助于转录终止,mRNA从细胞核中的输出和翻译。

CDS (coding dna sequence)

CDS 是基因中DNA或RNA为蛋白质编码区域,该区域通常开始于5‘末端的起始密码子并结束于3’端的终止密码子。生物体基因组编码区的总和称为外显子组。

 


 

[1] Cristina Vilela, John E. G. McCarthy.Regulation of fungal gene expression via short open reading frames in the mRNA 5′untranslated region:Molecular Microbiology,2003-08-01:859–867

[2] Evolution of 5′ Untranslated Region Length and Gene Expression Reprogramming in Yeasts

[3] Gagniuc, Paul, and Constantin Ionescu-Tirgoviste. "Gene promoters show chromosome-specificity and reveal chromosome territories in humans." BMC genomics 14.1 (2013): 278.

[4] Shafee, Thomas; Lowe, Rohan (2017). "Eukaryotic and prokaryotic gene structure".WikiJournal of Medicine.4(1).doi:10.15347/wjm/2017.002.ISSN2002-4436