首页 > 范文大全 > 正文

基于机器学习的miRNA靶基因预测算法研究概况

开篇:润墨网以专业的文秘视角,为您筛选了一篇基于机器学习的miRNA靶基因预测算法研究概况范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:首先小结目前所发现的miRNA:mRNA对的统计特征,然后对基于机器学习的各类靶基因预测算法逐一作研究,最后对现有靶基因预测算法的研究现状及优缺点给出系统的结论。

关键词:microRNAs;靶基因预测;生物信息学;RNA干扰

中图分类号:TP312文献标识码:A文章编号:16727800(2011)012004702

作者简介:陈功(1990-),男,安徽安庆人,苏州大学计算机学院本科生,研究方向为机器学习;周小科(1976-),男,江西上饶人,博士,苏州大学计算机学院讲师,研究方向为生物信息。1mirna靶标统计特征

学界虽然对于miRNA靶标识别机制未了解清楚,但基本认为miRNA通过与mRNA 3'UTR绑定实现对靶基因调节,如图1所示。①绑定点位序列有明显遗传保守性;②绑定区内特征。从miRNA:Site构成杂合结构内部来看,最重要特征是种子区匹配往往很精确;③绑定区上下文特征。miRNA:Site绑定的程度与绑定区的上下文有关;④绑定点的开放性。mRNA在由核苷组成的一级结构顺序基础上,可在自身核苷间化学键作用下通过自身回折形成碱基配对茎区以及茎区之间不配对环区和末端单链区等复杂二级结构;⑤绑定点位置特征。绑定偏好存在于3'UTR两端,但不会太靠近5'端终止子处。

图1miRNA:Target绑定结构

由于已知靶标数目有限,而预测结果不精确,因此上述特征不全面且易导致偏倚。

2各类机器学习靶基因预测算法

2.1PicTar

PicTar认为基因3'UTR序列是由miRNA绑定点及背景序列组成。在考虑一个UTR被M个miRNA同时作用的情况时,该隐马尔科夫模型有1+M个隐含状态,状态间概率为pi,i∈{0,…,m} ,p0表示转换为背景序列的概率,pii∈{1,…,m}表示从当前状态到第i个miRNA绑定点位的概率。当某miRNA绑定点位状态被选择,代表miRNA绑定点位7nt或8nt长的序列会被产生,而此绑定点位是完全种子匹配的概率为p,非完全种子匹配的概率为1-p;否则会产生碱基以表示转移到背景序列状态。PicTar利用BaumWelch算法来计算3'UTR序列是由此隐马尔科夫模型产生的最大似然概率。

2.2miTarget

miTarget基于SVM。为训练miTarget,从各种已发表学术文献中收集152对阳性miRNA:Site和83对阴性miRNA:site,为增加阴性数据集数量,从let-7:lin41、let-7:lin-28提取出113个阴性miRNA:Site。对任一miRNA:Site对,miTarget将其首尾相连形成单链序列,利用RNAfold产生此序列的二级结构以代表miRNA和site绑定结构。基于此绑定结构,观察第1~20nt的匹配状态,提取20个基于位置的特征,通过分析种子区、非种子区以及整个绑定区的匹配、错配、其它匹配状态以及各区域绑定能等共21个基于区域的特征,miRNA:Site表示为一个包含41个特征的特征向量。

2.3RNA22

RNA22是2006年开发的算法。首先利用Rfam3.0中354个miRNA序列为训练集,利用Teiresias算法从中发挖长度可变的模序。其次以3-nt模组为最小单位,统计出现频率。随后RNA22假设二阶马尔科夫链是将3-nt模组“组装”成模序的引擎,并基于此假设计算每个模序的存在概率。

2.4GenMiR

GenMiR于2007年,现有GenMiR、GenMiR++、GenMiR3 3个版本,基本思想是在其它基于序列的算法预测结果的基础上,建立贝叶斯生成模型以反映miRNA对其靶标的调控作用,根据mRNA和miRNA表达水平数据推断靶基因。其推论基于两条假设:①特定组织内,mRNA有相同背景表达水平;②miRNA会下调其靶基因的表达水平,且多个miRNA共同作用于一个靶基因时,对表达水平的影响是单独影响的线性叠加。如给定G个mRNA和K个miRNA,用eqt、vkt和ut表示在组织t中,mRNA g、miRNA k和背景的表达水平,并令vt=[v1t,…,vkt]T,从而上述两个假设可被表示为(1)式:p(eqt|μ1,βq,λ,γt,vt,σ2t)=

N(μt-γtλβqm,σ2t)(1)其中βg∈{0,1}k×1 是一个指示向量,其中第k个元素βgk=1表示基因g是miRNA k的靶基因;λ∈Rk×1+表示调控权重;Ba=diag(βa);γt是对不同组织中基因表达值进行标准化的变尺度因子;σ2t是高斯模型的方差。

2.5mirTarget

mirTarget是2008年发表的基于SVM算法。Wang利用miRNA过量表达实验的microarray数据,即对于某miRNA过量表达实验,定义表达水平低于40%、p0.3为正常表达基因,进而定义包含第2~7完全种子匹配的表达下调基因为阳性靶标,包含2~7完种子匹配的正常表达基因为阴性靶标。有2~7完种子匹配处的序列被提取作为阳性及阴性绑定点训练集。

2.6TargetBoost

TargetBoost目标是预测一个长度为24nt的序列是否是相应miRNA的绑定点。采用Boosting遗传编程作为分类引擎,用一种模式语言生成所有可能的绑定点位碱基组成模序{XJj=1};其次用h(S1:N,(x)j)=1表示序列S1:N符合模序j,为0不符合;通过GPBoost算法将所有所有模序判定boosting成为最终的分类器:f(s1:N)=sign(∑Jj=1ajh(s1:N,(x)j))(2)其中aj代表第j个模序的权重。

3现有算法评估小结

数据驱动型算法侧重对已发现特征的融合,通过建立复杂的数学模型从现有数据中发现隐含规律,本身较为复杂,执行效率低。

在评估数据集中,115对阳性miRNA:Target对来自TarBase收录的经实验证实的靶基因;假定miRNA过量表达实验中,mRNA表达水平显著上调的基因为相应miRNA的阴性靶标,采用Linsley等人的microarray实验数据中,选278对阴性miRNA:Target对。

表1类C语言的函数声明和功能说明

算法名称支持物种涉及特征种子

匹配绑定

能保守

性绑定

特征接入

性基因

表达方法发表

时间Pictar线虫,蝇,脊椎动物√√√HMM2005miTarget任意√√√SVM2006mirTarget任意√√√√√SVM2008RNA22线虫,蝇√马尔科夫链2006TargetBoost线虫,蝇,脊椎动物√√√GPBoost2005GebMiR任意√贝叶斯学习2007现阶段算法仍有很多不足之处,较为典型的如下:①现有算法对完全种子匹配的要求过于严格。虽可减小运算量,但很多绑定点没有完全种子匹配,也会损失敏感度;②训练数据集不够完善。对于数据驱动型,训练数据集质量直接影响算法性能;③极高的假阳性率。假阳性率多高于20%,学界认为每个miRNA将调控200个左右的基因。

此外,还存在特征使用不够合理、对3'UTR建模不够充分等问题。从生物信息学角度看也有一定改进空间。

4结束语

本文先从生物学角度介绍miRNA,接着总结目前发现的miRNA:Target对的统计特征,然后对目前影响力较大的各类算法进行剖析,最后进行评估,总结了算法的现状以及不足。所述内容表明仍有充分的提升空间,本人之后的工作,会在现有算法基础之上,研究并提出自己的预测算法,从而更好地预测靶基因。参考文献:

[1]S SINHA,E VAN NIMWEGEN,E D SIGGIA.A probabilistic method to detect regulatory modules[J].Bioinformatics,2003(19).

[2]G PARIS,D ROBILLIARD,C FONLUPT.Applying boosting techniques to genetic programming[J].Lecture Notes in Computer Science,2002.

[3]G L PAPADOPOULOS,M RECZKO,V A SOMOSSIS,et al.The database of experimentally supported targets:a functional update of TarBase[J].Nucleic Acids Res,2008.