2.2 从基因组DNA测序数据中确定编码区
这一研究已经进行了很多年,并建立了多种方法。这些方法概括说来分为两类,一类是基于编码区所具有的独特信号,比如起始密码子、终止密码子等,另一类是基于编码区的碱基组成不同于非编码区。这是由于蛋白质中20种氨基酸出现的概率不同,每种氨基酸的密码子兼并度不同,同一种氨基酸的兼并密码子使用频率不同等原因造成的。近年来一批新的确定编码区的方法出现了,例如,考虑高维分布的统计方法、神经网络方法、分形方法等。将密码学方法用于识别编码区,也取得了较好的结果。
3 非编码区信息结构分析
虽然对约占人类基因组95%的非编码区的作用人们还不清楚,但从生物进化的观点看来,这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调控有关。因此寻找这些区域编码特征,信息调节与表达规律是未来相当长时间内的热点课题。
3.1 非编码区中各种组分的分类与确定
非编码区(“Junk”DNA)占据了人类基因组的大部分,研究表明“Junk”是许多对生命过程富有活力的不同类型的DNA的复合体,它们至少包含如下类型的DNA成份或由其表达的RNA成分:内含子(intron)、卫星(Satellite)DNA、小卫星(minisatellite)DNA、微卫星(Microsatellite)DNA、非均一核RNA(简称hmRNA)短散置元(short interspersed elements,简称SINE)、长散置元(long interspersed elements,简称LINE)、伪基因(pseudogenes)等。除此之外顺式调控元件,如启动子、增强子等也属于非编码序列。一些科学家认为应当把染色体称为信息细胞器(information organelle)。了解“JunK”DNA是了解信息细胞器的关键步骤。
3.2 寻找新的非三联体的编码方式
是否在基因组中仅存在三联体的编码方式呢?是否传递不同的信息应有不同字长的码呢?人们熟知三联码是用于将4个字符组成的基因中的信息传递给由20个字符组成的蛋白质。只有碱基三联体数(43=64)才是大于20(氨基酸的种类数)且最接近20的碱基组合。所以三联体是DNA与蛋白质间传递信息的最经济编码。按照这样的推理人们可以认为由DNA到结构RNA间的信息传递是单联体码,因为DNA与RNA的结构单元是一一对应的。如果考虑到人类基因的总数约为5万到10万,那么要调节单独的一个基因的调节单元的数目也要与此相应,达到若干万个。此时三联体编码方式的区分度就远为不足。这就是生物信息学家寻找其他非三联体编码方式的原因。
3.3 编码区和非编码区中信息调节规律的研究
虽然Jacob和Monod的乳糖操纵子模型给出了基因表达调控的最基本模式,但近年来很多发现表明基因的调节是远为复杂与丰富的。随着基因组研究进入后基因组时代,功能基因的表达谱得以测定,这些深刻的问题会逐步得到解决。
4 生物进化的研究
自1859年Darwin的物种起源(Origin of Species)发表以来,进化是对人类自然科学和自然哲学发展的最重要贡献之一。自本世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平。并建立了一套依赖于核酸、蛋白质序列信息的理论方法。现在随着序列信息的大量出现开展分子进化的研究具有了极好时机。
5 完整基因组的比较研究
在后基因组时代,生物信息学家面对的不仅是序列和基因而是越来越多的完整基因组。科学家们对最早的七个完整基因组所做的分析得到了很多有意义的结论。这些生物体都是能独立存活的,最大的是啤酒酵母,它有5932个基因,最小的是生殖道枝原体,它只有470个基因。有了这些资料人们就能估计,最小独立生活的生物至少需要多少基因,这些基因是如何使它们活起来的?基因组研究还发现,鼠和人的基因组大小相似,都含有约三十亿碱基对,基因的数目也类似。可是鼠和人差异确如此之大,这是为什么?同样,有的科学家估计不同人种间基因组的差别不大于0.1%;人猿间差别不大于1%。因此其表型差异不仅应从基因、DNA序列找原因,也应考虑染色体组织上的差异。总之,由完整基因组研究所导致的比较基因组学必将为后基因组研究开辟新的领域。


