首页 > 范文大全 > 正文

IDQD算法在大肠杆菌Sigma70启动子预测中的应用

开篇:润墨网以专业的文秘视角,为您筛选了一篇IDQD算法在大肠杆菌Sigma70启动子预测中的应用范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要 启动子是基因转录起始最重要的调控单元。本文在深入分析大肠杆菌启动子区和非启动子区序列结构特征的基础上,利用离散增量结合二次判别分析的方法(idqd)对大肠杆菌Sigma70启动子进行预测。利用十折交叉检验,对于编码区负集,平均正确率为87.21%;而对于非编码区负集,平均正确率为86.06%。预测结果表明,该算法大肠杆菌启动子预测是有效的。

关键词 启动子;离散增量;二次判别分析

中图分类号Q61 文献标识码A 文章编号 1674-6708(2013)99-0100-02

0引言

在基因的表达调控中,转录的起始是个关键过程,某个基因是否能够正当表达往往决定于特定启动子的起始过程。因此,在全基因组序列中进行启动子预测的任务,对于界定转录单元对特定路径的影响具有重要作用。

目前已有大量的算法以及在它们基础上开发的应用软件被应用于启动子和转录起始位点的预测。但这些方法存在预测精度低、假阳性率高,适用范围窄等诸多问题,而且这些算法绝大多数都是针对真核启动子进行预测的,原核启动子由于结构简单的特点,预测它们则更为困难。因此,迫切需要设计精度更高适用范围更广的方法解决此类问题。

1数据与方法

1.1 数据准备

本文采用RegulonDB[1]数据库所提供的大肠杆菌sigma70启动子序列作为研究对象,共606条序列,每条长81bp(TSS上游60bp至下游20bp).我们将这606条启动子序列作为预测正集。

我们所构建的预测负集由两部分组成:第一部分是编码区负集,从大肠杆菌全基因组序列中长度大于300的编码区序列中前部随机产生606条序列组成编码区负集。第二部分是非编码区负集,我们从会聚区序列中随机选取606条序列组成非编码区负集。负集序列的长度与格式与正集序列相同[2]。

1.2 序列结构的统计分析

我们首先对大肠杆菌606条Sigma70启动子序列和606条随机产生的非启动子序列81个位点进行单碱基频率统计(见图1~3)。结果表明启动子区域的共同特征是序列组成具有较强的A/T偏好,在-15~-5区域碱基分布有明显的起伏,在-40~-33区域也有较大起伏,T含量明显高于其它三种碱基的含量,在0的附近碱基分布也有较大变化,TSS通常都是嘌呤碱基(A或G)。非启动子区四种碱基分布明显不同于启动子区,十分接近随机分布,整个非启动子序列区域中的碱基分布起伏很小。编码区负集序列碱基G的含量略高于其它三种碱基,非编码区负集四种碱基几乎是等概率分布。由此可见,特定位点的序列保守性特征是重要的识别信息。

参考文献

[1]Salgado.H,Gama-Castro S,Martinez-Antonio A etc.RegulonDB(version 4.0):transcriptional regulation,operon organization and growth conditions in Escherichia coli K-12[J]:Nucleic Acids Research,2004,32:303-306.

[2]杨乌日吐.基于多特征尺度的大肠杆菌启动子预测[J].计算机工程与科学,2010,32(9):148-151.

[3]吕军,罗辽复.人类PolⅡ启动子的识别[J].生物化学与生物物理进展,2005,32:1185-1191.

[4]徐克学.生物数学[M].3版.北京:科学出版社,1999:277-286.