一. 问题的提出:
虽然人类已经经过多年的努力,但解开生命之谜的愿望还未实现。以往的失败使大家认识到,单靠一门学科的独自努力太局限了,难以完成人类对自身的认识和保护。美国投巨资的肿瘤十年计划基本上以失败告终就说明这个问题。现在,人们认识到先认识全局再研究局部也许会讯捷和方便的多。于是,人们回过头来决定开始进行人的所有基因组的研究,由此形成了基因组学(genomics)和人类基因组计划(Human Genome Project HGP)。
二.发展的历史:
1.美国人类基因组计划的形成:
1985年5月,美国能源部提出"人类基因组计划"草案;经过一番讨论后于1986年3月宣布实施这个草案;1986年3月7日,Dulbecco R在Science上发表了一篇有关开展人类基因组计划的短文,引起了全世界的强烈反响,不仅推动了美国,也推动了全世界的人类基因组计划的发展;1987年初,美国能源部和国家健康研究院为"人类基因组计划"下拨了启动经费550万美元,全年1.66亿美元;1988年2月,国家科学研究委员会的专家成立了"国家人类基因组研究中心",由沃森任第一任主任;尽管有了以上这些工作,美国国会正式批准的"人类基因组计划"到1990年10月1日才正式启动,其规模在世界上是最大的,计划在15年内投入30亿美元以上的资金进行人类基因组的分析。
2.其他国家的情况
在Dulbecco短文的影响下,整个欧洲都行动起来了,并各具特色。1987年,意大利;1989年,英国;1990年,法国;1995年,德国,开始启动各自的基因组计划;1990年6月,欧共体通过"欧洲人类基因组计划"。此外,丹麦,日本,韩国,俄罗斯和澳大利亚也加入行动行列。
3.中国
中国的HGP始于1994年,是在吴旻,强伯勤,陈竺,杨焕明等人的倡导下启动的。最初由国家自然科学基金委员会和"863"高科技计划的支持下,先后启动了"中华民族基因组中若干位点基因结构的研究"和"重大基因相关基因的定位、克隆、结构与功能研究"。1998年3月由陈竺院士挂帅成立上海中心,10月改名为中国南方基因中心。同时,决定成立由国家卫生部牵头的若干中国人类遗传资源保护中心。1998年由杨焕明和余军教授组织了中国科学院遗传所,1999年由强伯勤院士挑头在北京先后成立了中国科学院北京人类基因组中心和北方人类基因组中心。(以上,就是中国目前的发展情况)。
4.企业的争夺
此外,除了早期的政府介入之外,世界上几乎所有的医药公司都卷入了这场所谓的HGP,无形中形成了一场"抢基因"大战。
三. HGP的任务与进展
HGP的基本任务可用4张图谱来概括,即遗传图谱,物理图谱,序列图谱和基因图谱。目前前三张图谱的完成已有具体的时期和任务指标,而且随着工作的开展和私有企业压力的加大,时间表也在不断提前,例如,原定2005年完成的序列图谱已被两次提前至2001年。
四. 遗传图谱
遗传图又称连锁图。既然是图,就应在图上设标记,标记越细找到东西就越方便,在过去若干年里,标记已有几次从"粗"演变到"细"。
第一代标记是经典的遗传标记,最初主要是利用蛋白质和免疫学的标记,如ABO血型位点标记、HLA位点标记。但由于已知多态的蛋白质很少,等位基因的数目有限且无法获得足够的信息量和检测技术的繁琐等因素,限制了人类基因组的遗传分析工作,这促使人们开始设法从DNA上寻找标记。
70年代中后期建立起来的限制性片段长度多态性(RFLP)方法在整个基因组中确定的位点数目达到105以上,该系统一经建立就广泛应用到基因组的研究中。RFLP最成功的运用是在Hungtington舞蹈症的基因定位。然而,RFLP可提供的信息量很有限,并且有时还需用放射性同位素标记的DNA片段为探针检测RFLP,因而又存在着工作环境和费用等问题。
第二代标记称"小卫星中心"(minisatellite core)和"微卫星标记"(microsatellite marker),它们分别是1985年和1989年发现的。"微卫星标记"又称"简短串联重复"(short tandem repeat,STR),最重要的优点是高度多态性,提供的信息量相对很大;另外可用PCR技术使操作实现自动化。这一系统是目前在基因定位的研究中应用最多的标记系统。
STR的遗传学图距是以cM(厘摩尔根)为单位的,反映基因遗传效应的基因组图。STR作为遗传标记使人类基因组的遗传制图与连锁分析发生了革命性的变化。法国与美国合作,于1996年初已经建立了有6000多个以STR为主体的遗传标记,两个标记之间的平均距离为0.7cM,即两个位点之间有0.7%的几率可以重组。
第三代标记是称作单核苷酸多态性标记(single nucleotide polymorphsm SNP)的遗传标记系统。人类群体有很大的遗传多样性,而在大多数基因位点上都会有若干个等位型(alleles),对每一个核苷酸来说,在任何一代人群中大约每1x109个个体就会发生一次变异。由这种方式产生的单碱基变异就形成许多双等位型标记。这种标记在人类基因组中可达到300万个,平均每1000个碱基对就有一个。因此,3-4个相邻的这种标记构成的单倍型(haplotype)就可以有8-16种,相当于一个微卫星标记形成的多态性。这种标记数目多,覆盖密度大,它的开发和应用摒弃了遗传标记分析技术的"瓶颈"凝胶电泳,为DNA芯片技术应用于遗传作图提供了基础。
五.物理图谱
完整的物理图应包括人类基因组的不同载体DNA克隆片段重叠群图,大片段限制性内切酶切点图,DNA片段(探针)或一段特异DNA序列(STS)的路标图,以及基因组中广泛存在的特征性序列等的标记图,人类基因组的细胞遗传学图,最终在分子水平上与序列图的统一。
物理图的基本原理是把庞大的人类基因组先打碎,再拼接,这样就可以随意研究又能够知道研究内容所处的染色体位置。物理图以Mb、kb、bp作为图距,以DNA探针的STS序列为路标。至今已测定了40000个以上的STS,平均图距可达100kb。因此,整个基因组已被分成具有界标的至少40000个小区域。构建物理图谱的一个主要内容是把含有STS对应序列的DNA克隆片段连接成相互重叠的"片段重叠群(contig)"。用酵母人工染色体(YAC)作为"载体"的载有人DNA片段的文库已包含了构件总体覆盖率为100%、具有高度代表性的"片段重叠群"。近几年又发展了可靠性更高的BAC,PAC库或cosmid库等。
以STS位路标的物理图与已建的遗传图进行对比,可以把遗传学信息和物理信息进行互相转换(如某一 区域1cM的遗传间距可以粗略的"折算"成某一区域1cM的物理间距)。片段重叠群则为研究该区域提供了可以操作的基因组材料,及相互重叠、覆盖这一区域的DNA片段,可以在这一区域寻找某一基因或进行这一区域基因组的研究。而作为人类基因组物理图的组成部分的最基本层次的"细胞遗传图"是统一物理图与遗传图的根本之图。
六. 序列图谱
人类基因组计划最初的目标是要在15年内完成测定总长度由30亿个核苷酸组成的人类基因组的序列图。按照测一个核苷酸一美元计算,计划投入30亿美元。这是一个明确、艰巨的定时、定量、定质的硬任务。遗传图和物理图的构建都是为绘制序列图所制的。因为目前的测序技术还不允许进行很长的DNA测序,否则就不需要前两张图了。目前的策略是把庞大的基因组分成若干有路标的区域后,进行测序分析。序列分析需要用一个区域的DNA片段重叠群使测序工作不断延伸,这中间的STS被用作任何两个片段(上百个bp)间的重叠区域,使分别被测的短序列进行正确的拼接。基本策略是建立DNA小片段的重叠群并尽可能地降低重叠部分所占的比例以提高效率和降低成本。
七. 基因图谱
就是在人类基因组中鉴别出占据2-5%长度的全部基因的位置、结构与功能。涉及办法很多,但最主要的是通过基因的表达产物mRNA反追到染色体的位置,其原理是:所有生物性状和疾病都是由结构或功能蛋白质决定的,而已知的所有蛋白质都是由RNA聚合酶指导合成的带有多聚A尾巴的mRNA编码的,这样就可以把mRNA通过反转录酶合成cDNA或称作EST的部分cDNA片段,然后,再用这种较稳定的cDNA或EST作为"探针"进行分子杂交,鉴别出与转录有关的基因。此外,根据mRNA的特点,可用与多聚A尾巴互补的寡聚T或克隆载体的相关序列为引物,对mRNA的双端尾侧的几百个bp进行测序,得到EST(表达序列标签)。截至1999年初,国际数据库中已贮存EST数量已有100多万个。
基因图谱的意义在于它能有效的反映在正常或受控条件中表达的全基因的时空图。通过这张图我们可以了解某一基因在不同时间不同组织不同水平的表达。有了"正常"的基因图谱,就奠定了构建特定生理条件下(如受外源的病原体、药物、食物、精神的刺激)与"异常"病理情况下,cDNA差异图的基础,以此将为21世纪的基因医学绘制出指导的蓝图。
八.人类基因组计划的延伸
完成测序后意味着结构基因组学的结束。所以,人们在从事人类基因组计划的同时,又同时盯上了人类基因组计划以后的领域,也就是所谓"后基因组计划"。使用"功能基因组学"一词也许能更好的表达这一设想的实质。在阅读了人类基因组全序列后,我们还想知道这些序列起到的作用是什么?具有那一类的功能?生命的整体现象是如何形成的?等等,这一定将成为功能基因组学的主流。
功能基因组学延伸的内容有:人类基因组多样性计划、环境基因组学、肿瘤基因组解剖学计划及药物基因组学等。其核心问题一般包括:基因组多样性、遗传疾病产生的起因、基因的表达调控的协调作用以及蛋白质产物的功能等。模式生物体在研究功能基因组学中将起到重要的工具作用。此外,HGP及其延伸内容决定性的成功取决于生物信息学和计算机生物学的发展和应用,主要体现在数据库对数据的储存能力和分析工具的开发。这些都将成为人类基因组计划延伸篇中的主要内容。


