赵国屏教授给我打比方:构成英语的基础是26个字母。这些字母构成单词、句子乃至文章。从单词到文章,在不同层次上,它们都或多或少含有“信息”。但将这26个字母胡乱排列,就不可能含有任何信息,而只是堆“文字垃圾”。包含人类全部遗传信息的24条染色体的DN A,是由30亿个四种不同的核苷酸组成;遗传信息的秘密,就在于这四种核苷酸的有序排列。形象地说,它们以一定的规律排列,组成“单词、句子、标点符号、段落”,最终组成一篇孕育和传递生命的宏文巨著!
有人说,21世纪是生命科学的世纪,其旨意是:人类的目光在注视客观世界的同时,开始科学缜密地审视自己,人类要“改造自我”,人类要在遗传基因的“最基本层面”上,对荼毒人类的种种遗传疾病发起最后冲击,使人的生命“既寿且康”。赵国屏说,“人类基因组”研究因此产生,这一“庞大艰深的工程”需测定全部30亿个核苷酸的排列次序。以每个核苷酸作为一个字符来印书,就相当于印制3000本每本1000页每页1000字的“天书”!当然,完成排序工作,只是 “万里长征第一步”。凭借今天人类所掌握的“遗传密码”知识,我们基本上可以从这第一步的研究成果中找出十余万个基因。而这些基因仅是遗传指令语句中的一部分“实词”;它们在“遗传语文”中的意义和作用,多数还不清楚。对于编码操纵基因组运作的,占基因组序列90%的“谓语部分”之重要组成成分,包括许多“虚词”,人们还知之甚少。一句话,要从基因组的全核苷酸序列获得完整的遗传信息,还要走很长的路。而唯有掌握这些信息,才算学会了“遗传语文”,读懂了这本“天书”。
赵国屏教授遂将话题转向“生物信息学”。人类基因组研究的迅猛发展造成了生物学数据的迅速膨胀;对数据搜集、管理、处理、分析、释读能力的要求迅速提升。这一切靠什么来“助阵”?靠的是信息科学,靠日益先进的计算机技术。计算机数字处理速度的日新月异,使处理“海量”的人类基因组研究产出的数据及相关的大量生物信息成为可能;并直接推动生物学向深度和广度进军。当然,这同时便产生了生命科学和信息科学的重大交叉前沿学科:生物信息学。
在上海漕河泾高技术开发区内的中科院上海生物工程研究中心实验室内,赵国屏教授打开计算机就可对全球生命科学研究的“风云”一一浏览。
赵国屏对生物信息学的开创及发展甚为乐观:“目前,生物信息学最活跃的前沿是‘基因组信息学’,它正在成为基因发现和钓取、基因组密码破译并推动实验科学的强有力工具。同时,与之相关的其它生物信息学的研究和应用,如药物生物信息学、医学生物信息学等等也正在蓬勃兴起,而且必将对药物学、医学及生物技术科学的发展产生强大的革命性作用。”
放眼世界,一些发达国家在生物信息学上已先行一步,争相投入巨资,抢占制高点,争夺通过生物信息研究与开发所获得的知识产权。中国的科学家正在联合起来,共同推进中国生物信息学的研究与发展。赵国屏指出:关键是要吸引生物学、数学、信息学及计算机科学等跨领域的人才加强合作。上海近期目标是:建设国家级生物信息库,首先是人类基因组数据库;同时,以为人类基因组大规模测序服务为核心,发展生物信息学软件,培养生物信息学人才,推动生命科学研究的发展。
“生物信息学是一门当今最具发展前途的新兴学科。它缘于近十年来生物学相关信息量的‘革命性爆炸’,它又得益于近十年来计算机技术的‘革命性发展’。”赵国屏教授说,“当此新千年来临之际,生物信息学正在解读你的生命‘天书’ 。今天,它在铸造辉煌;明天,它必将前程无限!”


