首页 > 范文大全 > 正文

电子细胞中前体mRNA加工过程的模拟与研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇电子细胞中前体mRNA加工过程的模拟与研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

文章编号:1001-9081(2012)01-0228-06 doi:10.3724/SP.J.1087.2012.00228

摘 要:前体mRNA的加工是基因表达过程中必需的一个步骤,是调节基因表达和产生具有生化活性的蛋白质的重要机制,现有的电子细胞模型对前体mRNA的加工过程模拟得较少。自主开发设计的Analog-Cell电子细胞模型定义了反应过程中的反应规则,提出了模拟前体mRNA加工过程的多个算法,真实地再现了基因表达这一细胞内重要的生命活动,并得到了比较理想的模拟结果。

关键词:电子细胞;Analog-Cell;mRNA;生物信息学

中图分类号: TP391.92 文献标志码:A

Abstract: The processing of pre-mRNA is one necessary step in gene expression, and it is an important mechanism to regulate the procedure of gene expression and produce the proteins which affect the life activities of cells. The existing electronic cell (E-Cell) models seldom relate to the simulation on the processing of pre-mRNA. The paper proposed an E-Cell model, named Analog-Cell, and reappeared realistically the procedure of gene expression through defining rational reaction rules and several algorithms which simulated the processing of pre-mRNA, thus Analog-Cell obtained recommendable simulation results.

Key words: Electronic Cell (E-Cell); Analog-Cell; mRNA; bioinformatics

0 引言

细胞的基本生命活动涉及到巨大数量的不同分子及不同分子间的相互作用,使得这些过程变得异常复杂。生物学家需要对细胞的生命活动进行深入的了解,获得细胞生命活动每一个步骤的详细数据。为此日本、美国、欧洲以及中国的多所大学、研究所相继研制出电子细胞(Electronic Cell, E-Cell)[1-3]。电子细胞亦称虚拟细胞,是计算机科学和生命科学相结合的一门新兴学科,它应用计算机科学的原理和技术,通过数学的计算和分析,对细胞的结构和功能进行模拟、分析、整合和应用,以再现真实细胞的生命活动现象,为生物学家在计算机上进行实验提供了一个软件平台,并以此来发掘细胞中潜在的、未被发现的生命活动规律。

细胞为了更好地利用基因组中包含的生物学信息,代表信息单位的各个基因必须协调表达。这种协调表达决定了细胞中蛋白质组的成分,从而决定了细胞的生化特征[4]。基因组表达为蛋白质组的过程主要分为转录、翻译两个阶段。在真核细胞中,第一个阶段转录的初始产物,即各种前体RNA多数都不具有生物活性,只有在细胞内进行加工处理后才具有生物活性[5]。该加工过程是对初级转录物进行加帽、多聚腺苷酸化(Poly(A),即加尾)、RNA剪接等使之成为成熟的mrna(messenger RNA)、rRNA(ribosomal RNA)或tRNA(transfer RNA)的过程。在现有的电子细胞模型中,对前体mRNA的加工过程模拟得较少。本文提出了模拟前体mRNA加工过程的多个算法,并在自主研制的国内第一个电子细胞图形模型Analog-Cell[6-8]中得到了较为理想的模拟结果。

1 前体mRNA的加工

真核细胞前体mRNA的加工一般要经过4个步骤:mRNA的5′端加帽、mRNA的3′端多聚腺苷酸化(加尾)、内含子剪接以及对某些碱基的修饰即RNA编辑等[4]。RNA编辑在真核细胞的前体mRNA中较为少见,且在生物学中该机制进化的原因尚不清楚[5],所以本文不探讨RNA编辑这一加工过程,只对前三种前体mRNA的加工进行模拟和研究。前体RNA的加工过程如图1所示。

1.1 前体mRNA的5′加帽

在转录起始以后,转录过程还未完成时,转录产物前体mRNA的加帽反应立即发生,通过增加7-甲基鸟嘌呤(7-Methy-Guanosine, 7-MG)帽子结构修饰前体mRNA的5′端,一般是在前体mRNA达到30个核苷酸长度以前完成[4]。

加帽的第一步是加一个附加的鸟苷酸G到RNA的5′端,该反应由鸟苷酸转移酶催化。第二步反应将一个甲基加到鸟嘌呤环的7位N原子上,使鸟嘌呤变成7-甲基鸟嘌呤,该反应由鸟嘌呤甲基转移酶催化。加帽完成后,mRNA上的一个磷酸和鸟苷酸上的两个磷酸被去除,形成一个5′-5′键。这种7-甲基鸟嘌呤结构叫做0型帽结构,还有1型帽结构和2型帽结构,都与0型帽结构具有相似的形成方式,它们都是真核细胞中常见的加帽形式。反应过程[5]如下:

5′帽子结构对于mRNA翻译为蛋白质具有非常重要的作用,主要表现在以下方面:

1)保护mRNA5′端不被降解,5′帽子可以阻止mRNA在翻译过程完成之前被RNA酶降解,因为降解是从5′端开始的;2)真核生物mRNA必须通过5′帽子才能被核糖体识别,才能开始翻译过程;3)5′帽子是RNA分子进出细胞核的识别标记,翻译过程必须在细胞核外细胞质中进行;4)5′帽子涉及第一个内含子剪接复合物的形成,直接影响mRNA的剪接效率。

1.2 前体mRNA的3′端多聚腺苷酸化-加尾

所有真核细胞mRNA的3′端都有一个约100到250个腺苷酸的Poly(A)尾。这些腺苷酸通过Poly(A)聚合酶加到前体mRNA上,但是并不像5′帽子直接作用于3′端,而是在其内部的Poly(A)尾位点处切断产生一个新的3′端,然后加上Poly(A)尾,如图2[4]。

前体mRNA的3′端含有一个Poly(A)信号序列5′-AAUAAA-3′作为明显的加尾信号,位于Poly(A)尾位点上游10~30个核苷酸处。加尾过程首先是Poly(A)聚合酶和其他蛋白因子结合于Poly(A)信号序列及下游富含GU的区域,然后在Poly(A)尾位点处切断前体mRNA,再迅速在新的3′末端加上100~250个腺苷酸。

对于Poly(A)尾的作用生物学家并没有统一的意见,但可能是以下方面:

1)增加mRNA的稳定性;2)提高mRNA的翻译效率;3)Poly(A)尾影响前体mRNA最后一个内含子的剪接,缺少Poly(A)使剪接效率降低5~10倍[5]。

1.3 RNA剪接

真核细胞基因DNA中无编码意义而被切除的间插序列称为内含子。被内含子隔开的基因序列,即出现在成熟RNA中的序列称为外显子。真核生物前体mRNA切除内含子,连接外显子形成成熟的mRNA的过程称为RNA剪接(RNA Splicing)[4]。

一条真核前体mRNA可以包含很多内含子,这些内含子必须被切除,然后外显子必须按照正确的顺序连接起来,才能形成一个行使功能的成熟的mRNA分子。大多数内含子的两侧边界均有一对保守的序列作为剪接位点,即5′-GU-3′和5′-AG-3′,这种称为GU-AG的内含子都以相同的方式进行剪接,即由一个蛋白复合物――剪接体催化完成[9]。RNA剪接过程如图3。

RNA剪接在剪接体中由两步反应完成:第一步,由内含子序列内部的一个保守序列5′-UACUAAC-3′中的最后一个A向内含子的5′端发起反应,导致5′端剪接位点断开,同时这个A与内含子中的第一个核苷酸G(即5′-GU-3′中的G)连接,内含子自身成环,形成套索结构;第二步,由内含子上游的外显子1的3′端向内含子的3′端发起反应,导致3′端剪接位点断开,套索结构的内含子被释放,然后被降解,同时上游外显子1的3′端与下游外显子2的5′端相连,完成剪接过程。

2 Analog-Cell中前体mRNA的加工过程模拟

如前所述,真核细胞的转录产物前体mRNA都要经过加工过程,包括加到5′端的帽子结构,加到3′端的Poly(A)尾,对内部的内含子进行剪接等,经过加工过程之后前体mRNA被加工为成熟的mRNA,进行基因表达的下一阶段,即翻译过程。Analog-Cell电子细胞模型[6-8]为了更真实、更全面地模拟基因表达过程,加入了加工过程中所必需的调控因子,如Poly(A)聚合酶、剪接体复合物等,并制定了合理的加工算法,通过改变反应物的状态值记录反应发生的过程和控制反应发生的条件,因此生动形象地模拟了真核细胞内前体mRNA的加工过程,进而完整地模拟了基因表达,为发现真核细胞内基因表达过程的新规律提供了一定的可能性。

2.1 Analog-Cell的反应规则和状态控制机制

根据已知的生物学原理,利用模型确定的建模方法制定出模拟生物化学反应过程的反应规则是电子细胞建模设计的核心。状态控制机制通过对反应过程中反应物状态值的改变,控制反应过程何时进行、何种反应物参与何种反应。

前体mRNA的加工过程必须是按照先加帽、再加尾、最后内含子剪接的顺序进行;反应过程又必须是某种特定反应物参与该反应。例如:已加帽或已加尾的mRNA状态值应改变,避免该mRNA再次发生加帽或加尾反应。表1给出了模型制定的加帽反应的状态定义。

下面分别针对前体mRNA的三个加工过程进一步说明Analog-Cell的反应规则和状态控制机制。

2.2 模拟前体mRNA的5′加帽反应

Analog-Cell模拟了真核细胞内转录起始之后进行的前体

mRNA加帽过程,针对前体mRNA的加帽反应,制定的反应规则和反应算法如算法1和表2所示。

算法1

前体mRNA加帽反应算法。

输入 未加帽的前体mRNA,鸟苷酸GTP(guanosine-triphosphate),鸟苷酸转移酶和鸟嘌呤甲基转移酶。

输出 加帽后的mRNA,鸟苷酸转移酶和鸟嘌呤甲基转移酶。

1)确认前体mRNA以AUG为开始且第一个核苷酸A的状态为转录后、加帽前的状态;

2)if(前体mRNA的长度≤30)&&(5′端反应范围内存在GTP及反应所需要的酶)

该GTP与前体mRNA的第一个核苷酸A结合;

3)更新该GTP的状态及前体mRNA第一个核苷酸A加帽后的状态。

算法1的复杂度分析

设前体mRNA的长度为M,确认前体mRNA的状态是否可以触发加帽反应操作的时间复杂度为常数,记作O(1);GTP帽子与前体mRNA的第一个核苷酸结合时间复杂度为O(1);更新前体mRNA的状态时间复杂度为O(1)。因为加帽反应只是前体mRNA的第一个核苷酸与一个鸟苷酸GTP的合成,因此,算法的时间复杂度与前体mRNA的长度M无关。

图4解释了算法在前体mRNA加帽反应中的状态控制机制。状态为17的前体mRNA的第一个核苷酸A在结合5′帽子后,状态更新为16,5′帽子g的状态更新为17。

2.3 模拟前体mRNA的3′端加尾反应

Analog-Cell中模拟前体mRNA加尾过程制定的反应规则和反应算法如算法2和表3所示。

算法2 前体mRNA加尾反应算法。

输入 未加尾的前体mRNA(含位点标识),腺苷酸ATP(adenosine-triphosphate)补充GTP、ATP的英文全称。,内切核酸酶和Poly(A)聚合酶。

输出 加尾后的mRNA,切除掉的一段mRNA,内切核酸酶和Ploy(A)聚合酶。

1)确认前体mRNA3′端上游存在Poly(A)信号序列、Poly(A)尾位点和富含GU的区域。

2)if(前体mRNA的Poly(A)信号序列和Poly(A)尾位点的反应范围内存在ATP及反应所需要的酶)

①Poly(A)聚合酶结合于Poly(A)信号序列;

②内切核酸酶结合于Poly(A)尾位点;

③切断Poly(A)尾位点处的前体mRNA;

④产生一个范围在100~250的随机数N;

⑤while(3′端新加的ATP个数!=N)

a)新的3′端与一个ATP结合;

b)更新该ATP和前体mRNA的状态。

算法2的复杂度分析

同样假设前体mRNA的长度为M,确认前体mRNA的状态是否可以触发加尾反应操作的时间复杂度为常数,记作O(1);Ploy(A)聚合酶和前体mRNA结合时间复杂度为O(1);内切核酸酶和前体mRNA结合时间复杂度为O(1);断开Poly(A)尾位点处的前体mRNA时间复杂度为O(1);在新的3′端加上N个腺苷酸ATP的时间复杂度为O(N);更新前体mRNA的状态时间复杂度为O(1)。因此,总的算法时间复杂度为O(N)。因为加尾反应只是前体mRNA的3′端核苷酸与N个鸟苷酸GTP的合成,因此,算法的时间复杂度与前体mRNA的长度M无关。

图5解释了算法在前体mRNA加尾反应中的状态控制机制。Poly(A)尾位点CA处的A状态为17,此处被内切核酸酶切断后,与反应范围内的ATP结合,状态更新为16,而新结合的ATP状态更新为17,成为新的结合位点。

2.4 模拟RNA剪接

GU-AG内含子具有明显的序列特征,在电子细胞模型的模拟过程中,剪接体会从前体mRNA的5′端开始移动,当移动到5′剪接位点即GU的位置时开始剪接反应。但是剪接位点是类似的,如果一个前体mRNA中包含两个以上的内含子,那么很有可能错误的剪接位点被连接。由于到目前为止剪接位点预测技术仍然不是很准确[10],因此在模拟剪接反应时,通过查询核酸序列数据库GenBank获取经实验验证过的剪接位点信息,应用于模拟过程。

得到了前体mRNA的内含子剪接位点信息之后,Analog-Cell给前体mRNA上的每一个核苷酸定义了一个从5′端开始到3′端用递增的数值表示的序列属性,表示该核苷酸在序列中的位置,这样也准确地标示出了剪接的位置。剪接反应中的剪接体也有一个初始值为0的序列属性,当剪接体与前体mRNA结合之后,它的序列属性值会随着它在前体mRNA上移动而变化。因此序列属性表示剪接体及核苷酸在前体mRNA上的位置,状态值表示参与反应的反应物进行到何种阶段,两个属性一起控制反应发生的条件。

Analog-Cell中模拟前体mRNA内含子剪接过程制定的反应规则和反应算法如表4和算法3所示。

算法3

前体mRNA内含子剪接反应算法。

输入 未剪接的、已加帽的前体mRNA,剪接体。

输出 成熟的mRNA,剪切掉的套索结构,剪接体。

1)得到此前体mRNA的内含子剪接位点信息,初始化前体mRNA、剪接体的序列属性值。

2)确认前体mRNA的每个内含子中都存在保守序列5′-UACUAAC-3′。

3)确认前体mRNA的第一个核苷酸是5′帽子。

4)if(反应范围内存在剪接体)

①剪接体与前体mRNA的5′帽子结合;

②更新剪接体的状态及序列属性值。

5)while(所有的内含子未去除完毕)

①while(剪接体未移动到内含子5′端剪接位点)

a)剪接体移动一个核苷酸的位置;

b)更新剪接体的状态及序列属性值。

②断开5′端剪接位点与它前一个核苷酸的连接。

③更新剪接体及5′端剪接位点的状态。

④while(剪接体未移动到内含子保守序列5′-UACUAAC-3′的最后一个A处)

a)剪接体保持与5′剪接位点及5′剪接位点前一个核苷酸的连接并移动一个核苷酸的位置;

b)更新剪接体的状态及序列属性值。

⑤5′端剪接位点与保守序列5′-UACUAAC-3′的最后一个A结合。

⑥断开剪接体与5′端剪接位点的连接。

⑦更新剪接体、5′端剪接位点与保守序列5′-UACUAAC-3′的最后一个A的状态。

⑧while(剪接体未移动到3′端剪接位点)

a)剪接体与3′端剪接位点的下个核苷酸结合;

b)断开3′端剪接位点与它下个核苷酸的连接;

c)与剪接体保持连接的5′端剪接位点的前一个核苷酸与3′端剪接位点的下一个核苷酸结合;

d)更新剪接体的状态及序列属性值。

6)剪接体与mRNA脱离,并恢复为初始状态。

算法3的复杂度分析

假设前体mRNA的长度为M,该前体mRNA内共有N个内含子,内含子的平均长度为K,则初始化前体mRNA序列属性的时间复杂度为O(M);确认前体mRNA的状态是否可以触发剪接反应操作的时间复杂度为常数,记作O(1);剪接体与前体mRNA结合以及更新剪接体的状态和序列属性值时间复杂度都为O(1);剪去N个内含子的时间复杂度为O(NK);剪接体沿着前体mRNA的移动反应时间复杂度为O(M)。因此,剪接算法总的时间复杂度为O(M)。因为一条前体mRNA必定含有一定数量的外显子,不可能全部都是内含子,因此NK一定小于M。

图6解释了算法在前体mRNA内含子剪接反应中的状态控制机制。方框内第一个数值是该反应物的状态,第二个数值是序列属性值。假设内含子5′剪接位点的序列属性值为4,3′剪接位点的序列属性值为14,保守序列中最后一个A的序列属性值为11。剪接体移动到5′剪接位点后状态更新为3,序列属性值更新为4;移动到3′剪接位点状态更新为7,序列属性值更新为14;完成剪接后,脱离mRNA,恢复为游离的状态0;刚被剪切掉的内含子状态由16更新为20,整个内含子完全剪切完毕后状态更新为30,等待被降解。

3 模拟结果

Analog-Cell电子细胞图形模型在分子水平上模拟了基因表达这一生物化学反应过程。模型运行以后,一个细胞诞生于窗口内。成功开始转录后,加帽反应发生;转录过程结束后,加尾反应发生(图7)。

剪接体游离到前体mRNA的5′帽子处时,与5′帽子结合,接着移动到内含子的5′剪接位点,断开5′剪接位点与前一个核苷酸的连接,并开始在内含子上移动(图8)。

剪接体移动到保守序列的最后一个A处,引导内含子的5′剪接位点与这个核苷酸A建立连接,形成套索结构(图9)。

剪接体移动到3′剪接位点后,套索结构的内含子被剪切掉,最后生成成熟的mRNA(图10)。

4 相关工作比较

自从1997年第一个电子细胞诞生以来,许多国家包括日本、美国都对电子细胞的研究开发进行了大量的投入,使得许多电子细胞模型纷纷涌现出来。但是,由于设计目的的不同,模型之间其特性具有很大的差异。表5[11-14]列出了几种主要的电子细胞之间特性的对比。

由于生物学界对前体mRNA的剪接过程也不甚了解,因此到目前为止关于前体mRNA剪接的模拟算法很少。从表5可以看出,在较为成熟的电子细胞中,只有E-CELL和Analog-Cell支持随机动态模拟前体mRNA的剪接过程,而Analog-Cell还增加了图形化接口。

E-CELL和Analog-Cell的前体mRNA加工过程算法都能得到与生物学实验相吻合的数据,图11给出了Analog-Cell内含子剪接算法的模拟结果与生物学实验数据[11]的比较,实验结果包含了基因表达的转录过程,即前体mRNA的产生。贴近X轴附近的两根曲线代表分别代表

生物学实验和Analog-Cell模型中

刚刚转录完毕、还未发生加帽反应的前体mRNA;

远离X轴、mRNA数量较高的两个曲线同样地也分别代表生物学实验和Analog-Cell模型中已发生过加帽反应的前体mRNA。

因为加帽反应在转录开始后就迅速完成,所以未加帽的前体mRNA含量在细胞中始终很低。因为生物化学反应的随机性,

实际的生物学实验和模型中的模拟结果之间存在细微的误差。

为验证较为复杂的内含子剪接算法的效果,对E-CELL的剪接算法和Analog-Cell的剪接算法进行对比实验。实验的初始化环境参数如表6,随着实验中前体mRNA的长度增大,反应消耗的能量GTP和ATP、反应需要的催化酶的数量Enzymes也需要相应增大。

两种算法得到的两组结果对比如图12和13。实验结果包含了前体mRNA的生成即转录过程。

两幅图中空心标志代表的曲线都

是Analog-Cell内含子剪接算法的模拟结果,实心标志代表的曲线是E-CELL的模拟结果,同样分别地画出了未加帽的前体mRNA和已加帽的前体mRNA的数量对比。

从两组实验结果的对比可以看出,无论是第一组数据前体mRNA较短、还是第二组数据前体mRNA较长的情况下,Analog-Cell的计算效率都略优于E-CELL,完成同样长度的前体mRNA剪接过程模拟所花的模拟时间都要略小于E-CELL。

5 结语

电子细胞模型通过在计算机上模拟真实细胞的物质组成、细胞结构和各种生命活动,向研究者提供了一个可以方便快捷、准确控制反应条件的软件实验平台。基因表达是基因组表达为蛋白质组的重要过程,其中的转录产物前体mRNA必须经过若干的加工过程才能成为成熟的mRNA,进而翻译为具有生化活性的蛋白质。

Analog-Cell是自主建立的国内第一个电子细胞模型[6],用图形显示方式模拟了真核细胞内与基因表达相关的生物化学过程。本文提出了模拟前体mRNA加工过程的3个算法,并在Analog-Cell模型中模拟实现,用户可以直观、形象地观察到整个前体mRNA的加工过程,完善了Analog-Cell对于基因表达过程的模拟。模拟结果表明Analog-Cell的前体mRNA加工算法与生物学的实验数据基本一致,相对于传统算法,在不同的实验参数下,都取得了更优的计算效率,为进一步模拟真核细胞内其他生命活动、发现生物学的新规律提供了一定的可能性。

参考文献:

[1]

MUGGLETON S H. Exceeding human limits [J]. Nature, 2006, 440(7083): 409-410.

[2]

TAKAHASHI K, TANASE-NICOLA S, WOLDE P R. Spatio-temporal correlations can drastically change the response of a MAPK pathway [J]. Proceedings of the National Academy of Sciences of the United States of America, 2010, 107(6): 2473-2478.

[3]

赵明生,尚彤,孙冬泳,等.电子细胞的研究现状与展望[J].电子学报,2001,29(12A):1740-1743.

[4]

BROWN T A. Genomes 3 [M]. New York: Garland Science, 2006.

[5]

WATSON J D, BAKER T A, BELL S P, et al. Molecular biology of the gene [M]. Boston: Pearson Education, 2008: 145-158.

[6]

卢欣华,孙吉贵.Analog-Cell:一种新的电子细胞图形模型[J].电子学报,2007,35(1):49-53.

[7]

孙吉贵,行荣,卢欣华,等.电子细胞Analog-Cell的并发机制[J].电子学报,2009,37(4):786-791.

[8]

孙吉贵,韩霄松,卢欣华,等.真核生物启动子的预测技术[J].计算机科学,2009,36(1):5-9,33.

[9]

NILSEN T W, GRAVELEY B R. Expansion of the eukaryotic proteome by alternative splicing [J]. Nature, 2010, 463(7280): 457-463.

[10]

刑永强,张利绒,罗辽复.人类基因组盒式外显子和内含子保留的可变剪接位点预测[J].生物物理学报,2008,24(5):393-401.

[11]

OHNO H, NAITO Y, NAKAJIMA H, et al. Construction of a biological tissue model based on a single-cell model: A computer simulation of metabolic heterogeneity in the liver lobule [J]. Artifical Life, 2008, 14(1): 3-28.

[12]

ZIMAN A P, WARD C W, RODNEY G G, et al. Quantitative measurement of Ca2+ in the sarcoplasmic reticulum lumen of mammalian skeletal muscle [J]. Biophysical Journal, 2010, 99(8): 2705-2714.

[13]

DREOSTI E, ODERMATT B, DOROSTKAR M M, et al. A genetically encoded reporter of synaptic activity in vivo [J]. Nature Methods, 2009, 6(12): 883-889.

[14]

PAYNE D F, ORTOLEVA P J. A model for lignin alteration-part I: A kinetic reaction-network model [J]. Organic Geochemistry, 2001, 32(9): 1073-1085.

收稿日期:2011-05-23;修回日期:2011-07-16。

基金项目:

国家自然科学基金资助项目(61003101);

欧盟项目基金TH/Asia Link/010资助项目(111084);

吉林省科技发展计划基金资助项目(20101501);

吉林省杰出青年基金资助项目(20080107, 20080617);

吉林大学基本科研业务费项目―平台基地建设项目(93K172011704)。

作者简介:

王玉贤(1975-),女,吉林长春人,讲师,硕士,主要研究方向:计算机建模、人工智能;

卢欣华(1977-),女,吉林长春人,讲师,博士,主要研究方向:电子细胞、生物建模。