1 基因组相关信息的收集、储存、管理与提供
到1998年12月GenBank中收集的核酸序列已达3044000条,它们包含的碱基数目是2162000000个。与此同时有二十个生物体的完整基因组已被破译,约有至少40个完整基因组正在破译当中。大量基因数据的出现促进了数据库、分析工具以及网络连接等的快速发展。
1.1 生物信息数据库
建立数据库是存储基因组相关信息的重要步骤,当前在互联网络上可找到与基因组信息相关的大量重要数据库、服务器。其中:GenBank、EMBL、GDB、PDB、PIR等数据库更是频繁地被用户检索。在基因组织关数据库的发展中,以及几方面特别引起人们的重视:
a)、建立基因组信息的评估与检测系统
b)、数据标准化
c)、进行基因组信息的可视化和专家系统的研究
d)、发展次级与专业数据库
原始数据是庞大的。在原始数据的基因上,根据不同的特征将其加工,而构建出若干高级数据库,这不仅会给用户带来很多方便,更重要的是专业人员注入的知识会对用户有很大的启发。著名的二级数据库象:蛋白质结构分类数据库(SCoP),受体数据库,克隆载体数据库等……。
1.2 以因特网(Internet)为基础的基因组信息学传输网络
用户与数据库间迅速、有效地传递信息是基因组信息的收集、管理与使用的另一要素。目前与基因组信息相关的数据库都有了自己的Internet地址和主页(Homepage),同时在网上还出现了很多相关的在线(online)服务器。
我国在基因组信息的收集与提供方面也有了一定的工作:北京大学物理化学研究所建立的PDB数据库的中国节点;北京大学生命科学院建立的EMBL数据库的中国节点。中国科学院生物物理所与日本JIPID的合作,收集了我国科学家测定的DNA和蛋白质序列并与国际相应数据库进行交流。中国医学科学院肿瘤研究所建立的MEE-HOW服务器等。在数据库研究中有两点特别重要,一是构建我国自己的数据库;二是与国际常用数据库的有效连接和及时更新。经过努力,相信这一领域在我国会迅速发展。
2 新基因的发现与鉴定
发现一个新的基因就能了解与其相关的生理功能或疾病的本质,从而为新药的开发、设计奠定基础。使用基因组信息学的方法是发现新基因的重要手段,比如在啤酒酵母完整基因组(约1200万bp)所包含的5932个基因中,大约60%是通过信息分析得到的。使用EST序列信息寻找新基因是当前国际上基因争夺战的热点。
2.1 利用EST数据库(dbEST)发现新基因
eST序列(Expressed sequence T


