
Nature: 数学计算扩展生物信息学研究平台
生物谷报道: 两篇新近发表的研究论文揭示了计算工具在生物信息学中的巨大价值,它们可以将仅仅以序列为基础的生物信息学分析工作引入到像预测、去除和网络建设等这些更为高级的舞台之中。
随着人们对细胞器官蛋白质组学这一新兴领域的兴趣不断增加,研究者要想从海量原始数据中提炼出一种精确的理论假说,在生物信息学方面进行战略性的创新就变得尤为必要。计算方法和实验方法之间存在着一种共生关系,来自麻省理工学院和哈佛大学共建的Broad研究所的科学家Vamsi Mootha这样解释说:“它们互为补充,你不能将它们单个孤立开来。为了支持高质量的计算方法,你需要从高质量的数据系统着手。”
Mootha近来通过介绍一种更为先进的生物信息学方法,用于鉴定线粒体中的蛋白质,从而演绎了上面描述的共生关系。以前的实验策略主要着眼于与基元相关的标记物方面,但Mootha研究小组开展的“艺术大师”研究项目采取了一种更为全面的实验方法,他们以结构和实验两方面的数据为基础,将八种不同的标记物整合起来,以便获得预测对线粒体定位的可能性的方法。在使用一套包含有已知的阴性和阳性对照物的金标准检验“艺术大师”之后,Mootha的研究小组验证了几百种已知的线粒体蛋白质,同时他们还自信地认为鉴定出了先前并不为人知的近500种蛋白质。很显然,Maestro项目也被证明能够从实验角度鉴定几种和人类线粒体疾病有关的基因,其中包括至少一种先前并未被鉴定为和线粒体有关的基因。
丹麦技术大学的S?ren Brunak及其同事,近来介绍了一种描述细胞器官蛋白质组学的替代性计算方法;他们使用生物信息学方法,预测核仁中的蛋白质复合体。开始时,他们以公开的交互数据为基础,构建了已知的人类核仁蛋白质的整体相互作用系统;接着,他们将每个公认的复合体和那些以几十种蛋白质特征为基础的单元-单元计算分析方法联系起来,以便预测对核仁定位的可能性。运用保守性参数,Brunak的研究小组很有信心地预测出了15个核仁复合体;其中的几个是他们预计中的,但从功能学的角度讲,其它的很多个都是出乎意料的,比如说DNA修复中的蛋白质。这项研究工作也揭示出了11个新发现的核仁蛋白质,它们由Brunak的合作者Matthias Mann提供的实验数据所证实,这一过程两人称之为逆向蛋白质组学。
两个研究小组都受益于对现有数据系列的精明处理。Mootha建议,更多的数据对未来的计算研究来说应该意味着更多的选择。“从更广的层面讲,”他说:“如果我们获得了不同类型的高质量的功能基因组学数据系列,要重建所有细胞器官的生物信息学将是可能的。”但是,两种方法也都例证了运用保守的剪切方法在去除垃圾数据和确保分析工作的可信性这两方面的价值。“绘制某些东西经常意味着要舍去很多信息;我认为,这就是我们工作中希望做到的,” Brunak说。“我们绝对不想浪费掉实验专家的珍贵时间!”
原文出处:
More than just 'doing the math'
Michael Eisenstein
SUMMARY: Two new articles show how computational tools continue to move beyond mere sequence-based bioinformatic analysis into more advanced arenas of prediction, deduction and network
CONTEXT: ...Computational and experimental approaches have a symbiotic relationship, explains Vamsi Mootha of the Broad Institute of MIT and Harvard University: "They complement each...
Nature Methods 3, 420-420 (01 Jun 2006)
Full Text | PDF | Rights and permissions | Save this link
拓展阅读:
生物数学-BIOON生物频道
生物数学——计算的医学-BIOON生物频道
生物数学——计算的医学
生物数学——科学的热潮
生物谷---生物信息学
生物信息学——赵国屏教授访谈-BIOON生物频道
抽象的价值—数学与当代生命科学
第六节:生物信息学及其在基因组研究中的应用
NA计算与生物数学
生物信息学与新药的发现-BIOON生物频道
第一节:什么是生物信息学-BIOON生物频道
生物信息学辞典
纪念DNA双螺旋结构发现五十周年:
从基因、遗传密码到基因组学和生物信息学
摘要:DNA双螺旋模型的建成是20世纪生物学领域极为重要的发现,它为现代分子生物学的发展奠定了基础。DNA结构的发现和后来“中心法则”的提出,以及随后发明的重组DNA和分子克隆技术,使人类获得了崭新的干预生物进化和优化生物的某些功能的有效手段和途径。而20世纪90年代以来,基因组学和生物信息学无疑已成为当前和今后相当长的时期内较活跃和影响较大的生物科学前沿学科。回顾20世纪生物科学发展的主要路线和过程,可以清楚地看到,DNA双螺旋模型在其中所处的承上启下的关键位置和所起到的核心作用。因此,研究、了解DNA双螺旋模型产生的背景、条件,及其对生物学发展产生的积极影响,对我们深刻认识这一重大发现的科学价值,正确把握现代生命科学发展的规律和方向,是大有裨益的。
关键词:DNA,基因,基因组学
Celebrating 50 years of DNA: From gene, genetic code to genomics and bioinformatics
Abstract: the construction of the double helix model of DNA is the most important biological discovery in 20th century, and it has laid the foundation for modern molecular biology successfully. Together with the “central dogma”, DNA recombinant and molecular cloning techniques, it gave people very powerful means and effective protocols to intervene and optimize some functions of some species. In the 90s and the beginning of 21st century, Genomics and Bioinformatics become more and more active. In retrospect, we can conclude that the double helix model had played a Key role in the development of modern biological sciences. Therefore, enquiry and exploit the background, the condition, and its impact of the discovery of the double helix will have positive implication for us to fully understand the meanings & scientific values of DNA double helix.
Key words: DNA, Gene, Genomics
根据詹姆斯·沃森(James D. Watson)的回忆,1953年2月28日,弗朗西斯·克里克(Francis Crick)走进英格兰剑桥大学的“鹰(Eagle Pub)”酒吧,宣布“我们已经发现了生命的秘密”。实际上,那天上午,沃森和克里克已经构建出了双螺旋模型,并很快完成了相关的计算、解释和论证工作。1953年4月25日,他们的论文《核酸的分子结构------DNA的一种可能结构》在《自然》杂志上发表,向全世界宣布了这一发现。正是在这篇不足千字的、短信形式的论文中,沃森和克里克通过双螺旋模型的建构,阐明了脱氧核糖核酸即DNA的分子结构。随后,他们在5月30日的《自然》杂志上又发表了《DNA的遗传学意义》一文,更加详细地阐述了DNA双螺旋模型在解释生物遗传功能上的意义,并初步说明了DNA分子长链的自我复制的可能机制及其意义。因此,这两篇论文常被普遍视作分子生物学时代的开端。
今年是沃森和克里克发现DNA双螺旋结构50周年,为庆贺这一伟大发现,全世界的生物科学机构、组织和科学家们举行了一系列的活动以资纪念。这些活动的规模和盛况本身不仅说明了DNA双螺旋结构是20世纪生物学最为重要的成就,以及分子生物学从诞生到发展已经过去的50年的辉煌,而且表明生物学和生物技术乃至“生物经济”有着激发人们极大热情和想象空间的未来前景。英国首相布莱尔撰文指出:“(尽管)上个世纪科学成果显赫,但任何突破都没有50年前发现生命分子DNA结构影响更大。它为现代生物科学奠定基础,为医疗、制药、植物和动物科学行业的惊人进步打开大门”。 美国国会还特别决定将今年的4月25日定为美国全国的“DNA日”。事实上,DNA双螺旋模型的建成不仅极大地推进了人们对生物遗传机制的认识水平,而且开辟了生物学新的学科领域,为人类从分子水平认识人类自身的发生、发育、遗传和衰老以及各生物体内部的结构、功能和运行模式,奠定了坚实的基础。DNA结构的发现和后来“中心法则”的发现,以及随后发明的重组DNA和分子克隆技术,使人类获得了崭新的干预生物进化和优化生物的某些功能的有效手段和途径。
一、DNA双螺旋结构发现的前后:基因、染色体、和遗传密码
遗传机制一直是生物学家关注的重大课题,1865年,孟德尔通过豌豆子代遗传性状所显示的规律,提出生物的性状是通过独立的单位即“遗传因子” 一代一代遗传下去的,总结出著名的孟德尔遗传定律(Mendel's Law)。1869年,瑞士科学家米歇尔(Friedrich Meischer)第一次成功地从鱼的精子细胞核中分离出DNA分子,这使得科学家在更为精细的水平上探索生命的遗传机制有了坚实的物质基础。紧接着,弗莱明(Walter Flemming)描述了从染色体复制到有丝分裂的全过程,他的工作奠定了遗传的染色体理论的基础。1902年,萨顿(Walter Sutton)发现了生殖细胞的分裂方式——减数分裂(meiosis)[注[1]],并进一步将孟德尔遗传定律与染色体行为结合起来,扩充了染色体理论。此时,尽管科学家们从孟德尔的“遗传因子”到染色体和减数分裂已经取得了很大的成就,但是,究竟用什么样的概念来描述遗传因子一直没有一致意见,直到1909年,丹麦植物学家约翰逊(Wilhelm Johannsen)用“基因” (gene)一词取代了孟德尔的“遗传因子”。从此,基因便被看作是生物性状的决定者,生物遗传变异的结构和功能的基本单位,而“基因”这个概念仿佛注定要像“原子”和“比特”这些概念一样,成为一门学科里基础的、核心化的概念,这也就在某种程度上为后来生物遗传机制的进一步阐明提供了必要的理论抽象和概括。1926年,美国遗传学家摩尔根(Margan)发表了著名的《基因论》,指出位于染色体上的基因就是遗传的基本单位,并通过对模式动物果蝇的遗传规律的大量实验研究,验证了基因是组成染色体的遗传单位,在染色体上占有一定的位置和空间,呈直线式排列这一论断的正确性。虽然这一杰出的工作使摩尔根获得了诺贝尔生理学与医学奖。但是,基因的具体功能和作用机制还是不太清楚。
另一方面,DNA分子尽管很早就被发现了,但是,其分子结构一直是个谜。1950年科学家查伽夫(Chargaff)指出DNA中核苷酸分子A和T,C和G的数目是相等的。不管DNA分子从哪里取来,里面的A和T、C和G的数目都是一样的。1951年,科学家在实验室里得到了DNA结晶;1952年,发现病毒DNA进入细菌细胞后,可以复制出病毒颗粒;直到1953年威尔金斯(Maurice Wilkins)和罗莎林德·富兰克林(Rosalind Franking)研究小组拍出的当时最清晰的DNA结构照片―――DNA的X-射线衍射图谱才真正揭示了DNA微观水平上的分子结构特点。到了这个时候,DNA分子结构发现的时机已经开始逐步成熟了。DNA分子结构的发现虽然已经指日可待,但学术上的竞争则更为激烈,而最终花落谁家则是“学识、战略、学术氛围、竞争合作关系等等综合实力的较量结果” [注[2]]。
在此期间,有两件事情是对DNA双螺旋结构发现起了直接的促进作用:一是两次获得诺贝尔奖,有丰富经验的美国著名的化学家鲍林(Linus Pauling)在1950年成功地发现了蛋白质分子的α螺旋结构,给人以重要启示。并且,鲍林还提出了一个骨架在内的DNA分子的三螺旋模型,如果他有机会早一点看到DNA结构的X光分析照片,也很可能率先发现DNA的双螺旋结构。另外一件事是X射线衍射技术在生物大分子结构研究中得到有效应用,提供了决定性的实验依据。
DNA分子结构的发现过程中必须解决的关键问题主要有:①确定DNA分子是否是螺旋形结构。②具体判定究竟是双螺旋还是三螺旋结构。③确定由脱氧核糖和磷酸组成螺旋的骨架,双螺旋的两条骨架是反向平行的,骨架是在螺旋的外侧。④确定四种核苷酸分子A、G、C、T,组成遗传密码字母,它们排列在两条螺旋的骨架上,通过分子间化合键的作用按照A-T,C-G的方式配对,位于螺旋的中央,两条螺旋可携带相同的遗传信息。沃森和克里克的双螺旋模型为遗传物质提供了一个合理的、可能的复制和遗传机理的解释。到1958年,曼塞尔森(Matthew Meselson)和史塔尔(Franklin Stahl)证明了DNA半保留复制的正确性。随着后来人们对DNA复制机理的认识不断深化,生物遗传奥秘的大门已经打开,为人类认识和改造生物带来了美好的前景。发现双螺旋结构13年以后,科学家们解决了遗传密码的问题,即阐明了DNA分子如何携带遗传信息的机制问题。
二十世纪五、六十年代分子生物学的一系列重大科学发现,为后来的重组DNA和分子克隆技术,以及再后来的人类基因组计划、基因组学和生物信息学的发展,并为生物技术和基因工程的不断成熟、逐步走向应用奠定了坚实的科学基础。
“The human genome holds an extraordinary trove of information about human development, physiology, medicine and evolution.”------“人类基因组蕴涵着有关人类发育,生理,医学和进化的珍贵信息” [注[3]]。
1986年美国约翰·霍普金斯(Johns Hopkins)大学著名人类遗传学家和内科教授麦克库塞克(McKusick)造出了“基因组学”(Genomics)这个名词,意指从基因组水平研究遗传的学科。这个词一经提出立刻被广泛接受,频频出现于科学著作乃至大众传媒中。基因组学无疑已成为当前和今后相当长的时期内较活跃和影响较大的生物科学前沿学科之一。从20世纪90年代人类基因组计划启动和实施以来,它不但集中了许多国家政府的投入,而且吸引了不同学科精英的广泛参与,包括数学、物理、化学、计算机、材料等专业。基因组学,是以基因组结构为出发点,研究基因组生物学功能的学科,现已成为一门高度综合和跨学科的科学。
所谓“基因组”就是指生物体的遗传组成,通过遗传得到的信息总和,可部分地指导生命的整个过程。如果设想人体是一台复杂的生化机器,充满了各种相互作用的化学物质、分子和大分子,那么,基因组就是这台机器的蓝图。基因组内包含组装各种生物大分子组分的指令,这些指令就是基因。基因组并不是各个单独作用的基因的集合,它包含着对整个遗传信息全局的、高度协同的控制,使执行一系列细胞功能。基因组生物学的研究将揭示整合的生物体系的相互关系。
1、基因组学是以积累数据和新发现为导向的科学
基因组学发展的初期阶段主要是发展新技术,以高速度、高效率、大规模的方式积累数据。因为这些数据都是必需的、基本的生物信息。由于除了人类基因组以外,主要代表物种(动物和植物为主)的基因组,主要家畜、家禽和农作物基因组,都将可能进行较完整的DNA测序工作。其数据产量将无疑是空前的。
2、基因组学可能成为多学科相互渗透的“大科学”
基因组信息正在以天文数字的计算量,规模化地积累数据和信息。地球上现存物种无一例外,都具有各自的基因组,基因组作为信息载体,既是生命本质研究的出发点之一,又是生物信息学的归宿。基因组的起源与进化和物种的起源与进化一样是一个新的科学领域。基因组学研究包括对基因产物(转录子组和蛋白质组)的系统生物学研究,随后必然要上升到细胞机制、分子机制和系统生物学的水平。因为,基因组的信息是用来发现和解释具有普遍意义的生命现象和它们的变化、内在规律、和相互关系,在这里学科交叉合作就成为必然:基因组的复杂性必然导致多学科的引进和介入,例如,各生物学科、医学、药学、计算机科学、化学、数学、物理学、电子工程学、考古学和地学等。
基因组信息主要来自于高效率和规模化信息开采和实验数据的规模化产出,它的研究手段和技术走在生命科学研究的前沿,从某种意义上说,人类基因组计划的成功实施证明了基因组研究的必要性和可行性。
广义地说,生物信息学(bioinformatics)是用数、理和信息科学的观点、理论和方法去研究生命现象、组织和分析呈现指数增长的生物学数据的一门交叉学科。首先是研究遗传物质的载体DNA及其编码的大分子蛋白质,以计算机为其主要工具,开发各种软件,对逐日增长的海量DNA和蛋白质的序列和结构进行收集、整理、储存、发布、提取、加工、分析和研究,目的在于通过这样的分析逐步认识生命的起源、进化、遗传和发育的本质,破译隐藏在DNA序列中的遗传信息,揭示人体生理和病理过程的分子基础,为人类疾病的预测、诊断、预防和治疗提供最合理和有效的方法或途径。生物信息学已经成为生物医学、农学、遗传学、细胞生物学等学科发展的强大推动力量,也是药物设计、环境监测的重要组成部分。
生物信息学是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科,目的在于揭示核酸和蛋白质数据所蕴含的生物学意义。生物信息学也是随着人类基因组计划的启动而兴起的一门新学科,是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心研究领域之一。
人类基因组计划的成功完成标志着基因组学和信息生物学的真正开端。生物信息的积累催生出生物信息学。生物信息学在储存、运算和分析生物信息的基础上还要用科学的、理性的结果来解释生命现象,提出假说,设计实验,以及指导信息的收集方法等。
4、数据是信息和知识的源泉
数据并不等于信息和知识,但却是信息和知识的源泉和基础,关键在于如何从生命现象中挖掘它们。理解大量生物学数据所包括的生物学意义已成为基因组计划和后基因组时代面临的极其重要的课题。生物信息学的作用将日益重要。有理由认为,今日生物学数据的巨大积累将有可能导致重大生物学规律的发现。目前,生物信息学的发展在国内外基本上都处在起步阶段,与正在以指数方式增长的生物学数据相比,人类相关知识的增长却十分缓慢。一方面是巨量的数据;另一方面是我们在医学、药物、农业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高其生活质量。
计算机科学和数学 分子生物学 数据获取 数据解释 基因图谱 基因预测 三维结构预测 分子建模 药物设计 同源比较 分子进化 数据库检索 数据库建构
基因组中生物学信息的深刻内涵,蕴藏着基因组研究的宏大空间。发达国家正在加大投入,向基因组学的纵横两个方向进行拓展:横向是以基本生物信息开发为起点,对不同物种基因组进行测序、比较和功能研究的横向发展(如小鼠、大鼠、猪和水稻);纵向则包括基因的多态性(基因突变或变异)和基因的组织相关性表达(转录水平或称mRNA水平的表达,翻译水平或称蛋白质水平的表达)的研究。药物基因组学和蛋白质组学的诞生便是其代表产物,生物信息学作为基因组学的纵横拓展的核心支撑学科和技术,是这一发展的核心平台。基因组(包括蛋白质组和药物基因组)和生物信息学一体化的生物信息采集、分析和开发平台已成为21世纪最耀眼的新兴学科和产业发展方向之一。
三、双螺旋模型建立所带来的启示
“20世纪开始的数周,孟德尔遗传定律的重新发现——掀起了对遗传信息内容和本质的科学探索,推动了过去百年来的生物学发展。科学的进步自然地分为四个主要阶段,大致对应于本世纪的四个25年,第一个25年,建立了遗传的细胞基础——染色体。第二个25年,定义了遗传的分子基础——DNA双螺旋。第三个25年,解开了遗传的信息基础,伴随着细胞识别基因信息的生物学机理的发现,和DNA重组克隆和测序技术的发明,通过这些技术,科学家可以重复实验”[注[5]]。
“本世纪的最后25年,记载了科学家不屈不挠的历程,从破译第一个基因到全基因组,基因组学研究领域如雨后春笋蓬勃兴起。该领域的工作成果已经包括599个病毒和类病毒,205个天然质粒,185个细胞器,31个真细菌,7个古细菌,1个真菌,2种动物和1种植物的基因组序列”[注[6]]。这一段简明扼要的话语,概括了20世纪生物科学发展的主要路线和过程。从这里我们可以清楚地看到,DNA双螺旋模型在其中所处的承上启下的关键位置和所起到的核心作用。
诚然,生物科学的每一次突破都是其自身发展到一定阶段的产物,也是不同学科新理论、新技术相互渗透、引进和融合的结果,但它首先是科学家或科学家群体创造性劳动的结晶。因此,研究、了解DNA双螺旋模型产生的背景、条件,及其对生物学发展产生的积极影响,对我们深刻认识这一重大发现的科学价值,正确把握现代生命科学发展的规律和方向,是大有裨益的。
据沃森后来回忆,他认为对DNA分子双螺旋结构的发现做出相对直接的重大贡献的科学家一共有四位,他们分别是:克里克、沃森、威尔金斯和富兰克林。这四位科学家中只有沃森毕业于生物专业,克里克和威尔金斯是从事物理学研究的专家,而富兰克林则毕业于化学专业,他们四人具有不同的知识背景,在同一时间都致力于研究遗传基因的分子结构,在既合作又竞争,充满学术交流和争论的环境中,发挥了各自专业的特长,为双螺旋结构的发现做出了各自的贡献,这是科学史上由学科交叉、相互渗透、相互融合及相互借鉴产生的一项重大科学成果。
通过回顾、总结 DNA双螺旋结构发现50年来分子生物学的重大发展,以及展望未来生命科学与技术进展的未来前景,我们可以得到以下几点启示:
1、生命科学要在多学科的交叉和互动中发展。将一个学科已发展成熟的知识、技术和方法应用到另一学科的前沿,能够产生重大的创新成果,学科交叉是创新思想的重要源泉之一。
2、科学发现是一个知识、理论和实验依据不断积累,认识不断深化的过程。重大的科学发现不会孤立的出现,在浩如烟海的大量试验数据与观测结果面前,通过创新思维从中发现并进而总结出科学定律,本身就是一个重要的方法。
3、对于以探索生命奥秘为己任的生物科学工作者来说,要特别注重培养一流的空间想象能力,卓越的分析和综合能力,精确的量化和计算能力,以及出众的实验动手能力。科学发展的历史已经一再证明,无论是重大的理论创新还是优秀的技术发明,无不需要展现上述各项能力及其组合,并将它们与当时具体的科学发展的背景和条件相结合。
50年来,生命的很多秘密已经被解开,但剩下的秘密更多。一切不过只是刚刚开始。“今天比我起步的时候有更多的新的疆域”,沃森在接受美国《时代》周刊采访时曾表示,“未来几百年中,还会有足够多的(生物学)问题需要人们去应对”。时至今日,通过科学理论和实践的不断发展,人类认识到,不可能一下子洞穿自然界所有的奥秘,需要的是在前人的基础上不断累积新的发现,一步步“逼近”和“寻找”各个自然奥秘的答案。这种“逼近” 和“寻找”无疑需要严谨的科学态度、勤奋的工作精神、精密的推理计算、合乎理性的分析综合,再加上最为重要的人脑智慧火花的突然闪亮。
参考书目:
1、詹姆斯·沃森 著,《双螺旋——发现DNA结构的故事》,刘望夷等译,科学出版社,1984年8月。
2、詹姆斯·沃森 著,《激情DNA:基因、基因组和社会》,(A Passion for DNA: Gene,Genomes, and Society,Cold Spring Harbor, 2001.),冷泉港实验室出版社2001年出版。
3、C.丹尼斯 R..加拉格尔 编,《人类基因组:我们的DNA》,林侠等译,科学出版社,2003年4月。
中国社会科学院哲学研究所科技哲学研究室 助理研究员 林侠
2003年6月14日
[1]减数分裂(meiosis):通过两次连续的细胞分裂,从二倍体亲代细胞产生出四个子代性细胞的过程。每个子
代性细胞含有一套单倍体染色体组。
[2]参见周光召,《发展学科交叉,促进原始创新》,“中国科学家人文论坛”专题报告,2003年4月。
[6]【同上】
- 众说风云 (已有0条评论)
快速链接
