2.物理图 物理图(physical map)包含了两层意义,一是获得分布于整个基因组的30000个序列标签位点(sequence tagged site,STS),这可使基因组每隔100kb距离就有一个标记;二是在此基础上构建覆盖每条染色体的大片段DNA克隆,如:酵母人工染色体(yeast artificial chromosome,YAC)或细菌人工染色体(bacterial artificial chromosome,BAC)、人工附加染色体(human artificial episomal chromosome,HAEC)和人工噬菌体染色体(P1 bacteriophage artificial chromosome,PAC)等连续克隆。这些图谱的制作进一步定位其它基因座提供了详细的框架[2]。
3.转录图 构建转录图的前提条件是获得大量基因转录本即信使核糖核酸(mRNA)的序列,人类基因组中的基因数目约在10万左右,构建转录图首先需要获得人类基因的表达序列标签(expressed sequence tag,EST),以此建立一张人类的转录图,并与遗传图的交叉参照。
4.DNA序列的生物信息学 HGP一开始就与信息高速公路和数据库技术形成了同步发展。迄今,国际上四个大的生物信息中心即美国的国家生物技术信息中心(NCBI)、基因组序列数据库(GSDB)、欧洲分子生物实验室(EMBL)和日本DNA数据库(DDBJ)已经建立和维持了源自数百种生物的互补DNA(cDNA)和基因组DNA序列的大型数据库。这些中心和全球的基因组研究实验室通过网点、电子邮件或者直接与服务器和数据库联系而获得的搜寻系统,使得研究者可以在多种不同的分析系统中对序列数据库提出质询,这些分析包括基因的发现、蛋白质模体的鉴别、调控元件的分析、重复序列的鉴别、相似性的分析、核苷酸组成的分析以及物种间的比较等。
(二)基因组的基本结构和进化
人类基因组研究的目的,不仅为了单纯地积累数据,而且要提示数据中所蕴藏的内在规律[3],从而更好地认识生命体。近年来,随着模式生物体测序的相继完成和人类基因组测序速度的加快(到1999年12月已宣布完成人类第22号染色体的完全测序),特别是生物信息所提供的强有力的分析和综合手段,使人人能够逐渐透过浩瀚的基因组序列信息,去探索一些更为本质的问题,如:基因组的复杂度与生物进化、基因组编码序列的结构、基因和蛋白家族、基因家族的大小及其进化。
(三)疾病的基因组学
HGP的直接始动因素是要解决包括肿瘤在内的人类疾病的分子遗传学问题[4],因此与人类健康密切相关。另一方面,8000多种单基因遗传病和多种大面积危害人群健康的多基因疾病(如:肿瘤、心血管病、代谢性疾病、神经疾病、精神疾病、免疫性疾病)的致病基因和疾病相关基因占人类基因组中相当大的一部分。因此,疾病基因的定位、克隆和鉴定是HGP的核心部分。
20世纪90年代之前,绝大多数人类遗传性疾病的原发生化基础尚不清楚,无法用表型-蛋白质-基因的传统途径进行研究。在HGP的遗传和物理作图带动下,出现了最初被称为“反求遗传”、90年代初又改称为“定位克隆法”的全新思路。该思路的关键内容是:应用细胞遗传学定位和家第连锁分析方法,首先将疾病基因定位于染色体的特定位置,然后通过进一步的遗传和物理作图,使相关区域压缩至1Mb之内,此时即可构建YAC、BAC、PAC、HAEC或粘粒(comid)等克隆重叠样,从中分离基因,并在正常人和患者的DNA中进行结构比较,最终识别出疾病基因。包括囊性纤维化、Huntington舞蹈病、遗传性结肠癌、乳腺癌等一大批重要疾病的基因是通过“定位克隆”发现的,从而为这些疾病的基因诊断和未来的基因治疗奠定了基础。随着人类基因图的日臻完善,一旦某个疾病位点被定位,即可从局部的基因图中遴选出结构、功能相关的基因进行分析,将大大提高疾病基因发现的效率。
目前,人类疾病的基因组学研究,已深入到多基因疾病这一难点。多基因疾病难以用一般的家系遗传连锁分析取得突破,需要在人群和遗传标记的选择、数学模型的建立、统计方法的改进等方面进行不断的探索。
二、功能基因组学


