首页 > 范文大全 > 正文

大白菜功能基因编码区SSRs的分布规律研究

开篇:润墨网以专业的文秘视角,为您筛选了一篇大白菜功能基因编码区SSRs的分布规律研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘要:利用数据库中大白菜的部分基因组序列及其注释结果,对大白菜功能基因编码区分布的ssrs类型进行了分析。结果表明,编码区的SSRs以3核苷酸重复的最多,其次为6核苷酸重复的;各种基序的SSRs类型在基因编码区分布的数量有很大差异;另外编码氨基酸的三核苷酸SSRs在11 944个基因编码区前100 bp、中部及后100 bp的分布也有较大差异。说明大白菜基因编码区的SSRs具有相位和极性,其原因在于编码氨基酸的需要。正是这种相位和极性引起大白菜基因编码区SSRs分布的不均一性。

关键词: SSRs;分布;基因;编码区;大白菜

中图分类号:S436.34 文献标识码:A DOI编码:10.3969/j.issn.1006-6500.2011.06.001

Distribution Patterns of Simple Sequence Repeats in Coding Regions of Genes in Chinese Cabbage

ZHOU Xin-cheng, LI Li-bin, LIU Li-feng, LI Hua-yin, GAO Jian-wei

(Institute of Vegetables, Shandong Academy of Agricultural Sciences, Shandong Key Laboratory of Greenhouse Vegetable Biology Jinan,Shandong 571101, China)

Abstract: Using the genomic sequences and the annotation information from public genome database of Chinese cabbage, the distribution patterns of SSRs in coding regions of genes were studied. It was found that tri-nucleotide repeat motifs were the most SSR types in coding regions of Chinese cabbage, with hexa-nucleotide motifs following. Much distinction was found for the distribution frequencies of SSR types with different repeat motifs in gene coding regions. And there was much difference for the distributions of SSRs types which encode amino acid in the first 100 bp, middle region and the last 100 bp of 119 44 genes. These distribute patterns reflected the phase and polar characteristics of SSRs in gene regions which could be attributed to encoding needs. It was concluded that the distribution of SSRs in coding regions of Chinese cabbage genes were un-randomly.

Key words: SSRs; distribution; gene; coding regions; Chinese cabbage

SSRs(Simple Sequence Repeats)也叫微卫星DNA,是由1~6个核苷酸组成的基序串联重复序列,广泛分布于动植物基因组中。已有的资料表明在植物基因组不同区域SSRs并不是均匀分布的 [1-2]。了解一个物种中SSRs的分布规律不仅对SSRs引物开发、比较基因组学的研究有指导意义,对于了解基因组进化以及SSRs的功能都有重要意义[3-5]。国内学者曾对黄瓜[6]、葡萄[7]、香菇[8]等植物基因组及基因区的SSR分布进行了研究,表明不同植物基因组上SSR的分布不仅不均匀,而且有各自特点。

大白菜(Brassica rapa ssp. pekinensis,AA基因组,2n=20)为十字花科芸薹属植物,原产于中国,现广泛栽培于中国、韩国、朝鲜及日本。因其营养丰富且富含膳食纤维,人们普遍喜欢食用,在中国以及世界许多国家的蔬菜生产和消费中占有非常重要的地位。大白菜与模式植物拟南芥属同一科。由于拟南芥基因组测序已经完成,人们对拟南芥基因组中SSRs的分布了解较多[9]。大白菜基因组草图近期刚刚发表,虽然草图的序列覆盖度仅占基因组总长度的60%左右,但功能基因区的覆盖达98%以上[10]。除了基因组序列,数据库中还有大量的大白菜EST序列。笔者利用这些序列对大白菜基因组上功能基因编码区域SSRs的分布进行研究,以了解SSRs在基因编码区的分布特点及对大白菜功能基因的影响。

1 材料和方法

1.1 材料

大白菜测序的材料为自交系Chiifu-401-42。目前大白菜基因组测序的官方网站(www.brassica.bbsrc.ac.uk)上公布了1 015个BAC序列的注释结果。其中452个BAC序列已经利用EST及转录组数据进行了注释。本研究分析的功能基因序列即来自这452注释过的BAC序列。

1.2 方法

1.2.1 功能基因编码区序列的提取 本研究利用Perl语言编程在Linux系统下分别将各个基因的编码区提取出来。对于方向为反向的基因同样利用Perl语言编写程序将其转换成正向序列后再进行分析。另外对于编码区,目前注释结果中发现了许多比较短的长度仅几十bp的开放阅读框,其功能未知。对这些序列,本研究除整体上分析其所含有的SSR外,重点研究了长度大于300 bp的完整开放阅读框区域中SSRs的分布。

1.2.2 序列中SSRs筛选 用MISA软件(www.pgrc.ipk-gatersleben.de/misa)筛选SSR位点。筛选标准参照Zhang等[9]在拟南芥中的标准即:单核苷酸重复次数在12次或12次以上、双核苷酸重复次数在6次或6次以上、3核苷酸重复次数在4次或4次以上、4~6核苷酸重复次数在3次或3次以上。另外还包括中间被小于10个核苷酸打断的复合型SSRs。

2 结果与分析

2.1 功能基因编码区SSRs位点的分布

总共从452个BAC序列中提取到35 454个正向、35 586个反向编码区序列。利用MISA软件,从这71 040个大白菜编码区序列中找到4 001个SSRs位点,包括119个复合型SSRs。分析的序列总长度14 640 356 bp,平均3 659 bp包括1个SSRs位点。含SSR的序列有3 170个,占总序列的4.5%。其中587个序列含有多于1个SSRs位点。

4 001个SSRs按重复基序的核苷酸数目可分成6类,这6类SSRs的分布情况。其中3核苷酸重复类型数目最多,占85.8%。其次为6核苷酸重复类型,占总SSRs数目的5.4%。单核苷酸重复类型最少。

编码区中的SSRs按重复基序核苷酸组成分类,其中3核苷酸(AAG)n重复类型(包括AAG、AGA和GAA重复)最多,共799个,占3核苷酸SSR数目的23.3%;(TTA)n重复类型最少,仅出现两次。3核苷酸重复类型按核苷酸组成分类表见表2。

2.2 大于300 bp全编码区功能基因内SSRs的分布

长度为几十bp等很小的编码区序列可能为假基因,许多功能未知,这些序列也许不是真正的功能基因,因此,为准确起见,本研究重点研究了长度大于300 bp的完整编码区(含有起始密码子和终止密码子)内SSRs的分布情况。这些序列总共为11 944个,最小的300 bp,最大的6 663 bp,序列总长度为11 911 314 bp。

考虑到编码区内3核苷酸重复的SSRs编码氨基酸,同一种SSR类型例如(AAG)n重复中以(AAG)为重复的单元和以(AGA)以及(GAA)为重复的单元编码的氨基酸并不一样,也就是说编码区内的SSRs具有相位。有必要按照相位对编码区内SSRs进行详细分类。本研究对11 944个基因中3核苷酸SSRs按照不同三联密码子进行了分类,未包括复合型SSRs。共分析了2 813个SSRs位点,发现(GAA)n(编码谷氨酰胺,Glu)重复最多,共323个,其次为(AAG)n(编码赖氨酸,Gly)和(GAT)n(编码天冬氨酸,Asp)分别为313和252个。另外,除了3个终止密码子(TAA、TAG和TGA)未出现外,TTA、TAT、GTA、CGT、CGA、ATA等也未出现(表3)。

另外,对编码区内从起始密码子开始的前100 bp、终止密码子在内的最后100 bp和基因中部区域SSRs的分布进行的分析表明,前100 bp所含SSRs的分布要比基因最后100 bp以及基因中部出现SSRs的密度要大,而且3个区域所分布的SSRs核苷酸种类也有区别。若对3核苷酸SSRs按编码氨基酸进行分类,其中前100 bp内决定丝氨酸(用S表示)的3核苷酸SSRs种类最多,共119个(每兆碱核苷酸内99.6),明显高于编码其它氨基酸的3核苷酸SSRs种类。而在基因的中间部位,编码谷氨酰氨(E)的3核苷酸SSRs最多,为326个。后100 bp内也是编码谷氨酰氨的3核苷酸SSRs最多,但与编码天冬氨酸的3核苷酸差异不大,图1显示的是基因内这3个区域每兆核苷酸内3核苷酸SSRs编码的氨基酸数目。

3 讨 论

一个完整的基因包括启动子区域、5`UTR、编码区、内含子区、3`UTR区等不同区域。分布在这些不同区域内的SSRs在遗传过程中的改变有可能影响到基因的表达与调控。其中编码区中的SSRs更是直接编码氨基酸,其重复次数的改变将引起蛋白序列的改变。研究功能基因各区域SSRs的分布,对于正确了解SSRs的功能具有重要意义。本研究结果显示大白菜功能基因编码区内的SSRs是有相位的,也就是说由于编码氨基酸的需要,(AAG)n与(AGA)n和(GAA)n三者并不属于同一类型的SSRs,而在其它区域,这三者是属于同一类型的SSRs。本项研究对大白菜长度大于300 bp的11 944个完整编码区基因内3核苷酸重复类型进行的分析发现编码谷氨酰胺的(GAA)n重复类型要明显高于编码精氨酸的(AGA)n(表3)。这一点也是容易理解的,非编码区SSRs的变异会受到其本身所在区域二级结构的选择压,而编码区的SSRs会受到其所编码氨基酸性质的影响[11]。本研究显示在大白菜基因编码区前100 bp编码丝氨酸的SSRs类型最多,这也许与丝氨酸能被磷酸化而改变蛋白质性质从而引起蛋白行使特定功能有关[12]。另外,编码区内3核苷酸重复类型最多,这应该是遗传密码子由3个核苷酸组成的缘故。

除了编码区SSRs有相位外,功能基因内的SSRs还是有极性的。DNA是双链的,但基因有正链和负链之分。从基因区转录出的RNA序列与正链相同(除了尿苷酸U代替腺苷酸T)。对于双链DNA来说,(AAG)n重复的与(CTT)n重复的SSR属于同一类型,但对单链的RNA来说,(AAG)n和(CCT)n绝不是同一类型。关于这一点,有些学者似乎并未注意到,人们多将5`UTR区域的(CT)n和(AG)n重复当作同一种SSRs类型,在统计时经常以CT/AG代表这两种SSRs,同样以CCT/AAG代替(CCT)n和(AAG)n两种SSRs类型。但也有部分学者在研究功能基因区域SSRs分布时明确将其分开处理,发现不同功能区域例如5`UTR和3`UTR,(CT)n和(AG)n分布密度是不同的,并且指出这种不同是由于不同基因区域受到的选择压不同引起的[1,13]或者是由于SSRs行使一定的功能,例如5`UTR区的(CT)n重复与反义转录(anti-sense transcription)有关[14]。因此,本研究结果建议在分析功能基因区域SSRs时,应按编码氨基酸的不同对SSRs进行分类,而不应简单地按重复核苷酸序列分类。总之,正是由于编码氨基酸的需要,大白菜编码区内的SSR具有了相位和极性,从而引起大白菜基因编码区SSRs分布的不均一性。

参考文献:

[1] Morgante M, Hanafey M, Powell W. Microsatellites are preferentially associated with nonrepetitive DNA in plant genomes[J]. Nature Genetics, 2002, 30: 194-200.

[2] Rota M L, Kantety R V, Yu J, et al. Nonrandom distribution and frequencies of genomic and EST-derived microsatellite markers in rice, wheat, and barley[J]. BMC Genomics, 2005(6): 23.

[3] Ellegren H. Microsatellites: Simple sequence with complex evolution[J]. Nature Reviews Genetics, 2004(5): 435-445.

[4] Li Y C, Korol A B, Fahima T, et al. Microsatellite genomic distribution, putative functions and mutational mechanisms: A review[J]. Molecular ecology, 2002, 11: 2453-2465.

[5] Li Y C, Korol A B, Fahima T, et al. Microsatellites within genes: Structure, function, and evolution[J]. Molecular biology and evolution, 2004, 21(6): 991-1007.

[6] 胡建斌,李建吾. 黄瓜基因组EST-SSRs的分布规律及EST-SSR标记开发[J]. 西北植物学报, 2008, 28(12):2429-2435.

[7] 蔡斌,李成慧,姚泉洪,等. 葡萄全基因组SSR分析和数据库构建[J]. 南京农业大学学报, 2009, 32(4):28-32.

[8] 林范学, 程水明, 李安政, 等. 香菇基因组中EST-SSR的构成和分布[J]. 微生物学通报, 2007, 34(3):438-442.

[9] Zhang L D, Yuan D, Yu S, et al. Preference of simple sequence repeats in coding and non-coding regions of Arabidopsis thaliana[J]. Bioinformatics, 2004, 20: 1081-1086.

[10] The Brassica rapa Genome Sequencing Project Consortium. The genome of the mesopolyploid crop species Brassica rapa[J]. Nature Genetics, 2011, 43: 1035-1039.

[11] Faux N, Bottomley S, Lesk A, et al. Functional insights from the distribution and role of homopeptide repeat-containing proteins[J]. Genome research, 2005, 15: 537-551.

[12] Mumby M C, Walter G. Protein serine/threonine phosphatases: Structure, regulation, and functions in cell growth[J]. Physiological reviews, 1993, 73(4): 673-699.

[13] Metzgar M, Bytof J,Wills C. Selection against frameshift mutations limits microsatellite expansion in coding DNA[J]. Genome Research,2000, 10: 72-80.

[14] Kashi Y, Soller M. Functional roles of microsatellites and minisatellites[M]// Microsatellites: Evolution and applications[J]. New York: Oxford University Press, 1999:10-23.