http://www.bioon.com 生 物 谷 网 站 目前,对大多数作物的育种来说,育种家可供利用的亲本材料有几百甚至上千份,可供选择的杂交组合有上万甚至更多。由于试验规模的限制,一个育种项目所能配置的组合一般只有数百或上千,育种家每年花费大量的时间去选择究竟选用哪些亲本材料进行杂交;对配制的杂交组合,一般要产生2000个以上的 F2 分离后代群体,然后从中选择1%~2%的理想基因型,中选的 F2 个体在遗传上是杂合体,需要做进一步的自交和选择,每个中选的 F2 个体一般需产生100个左右的重组近交家系才能从中选择到存在比例低于1%的理想重组基因型。育种早期选择一般建立在目测基础上,由于环境对性状的影响,选择到优良基因型的可能性极低,统计表明,在配制的杂交组合中,一般只有1%左右的组合有希望选出符合生产需求的品种,考虑到上述分离群体的规模,最终育种效率一般不到百万分之一。因此常规育种存在很大的盲目性和不可预测性,育种工作很大程度上依赖于经验和机遇。
生物个体的表型是基因型和环境共同作用的结果,植物育种的主要任务是寻找控制目标性状的基因,研究这些基因在不同目标环境群体下的表达形式,聚合存在于不同材料中的有利基因,从而为农业生产提供适宜的品种。生物数据可以来自生物的不同水平,如群体水平、个体水平、孟德尔基因水平和 DNA 分子水平等,各类生物数据为作物育种提供了大量的信息。尤其随着分子生物学和
基因组学的飞速发展,生物信息数据库积累的数据量极其庞大,但由于缺乏必要的数据整合技术,可资育种工作者利用的信息却非常有限,作物重要农艺性状基因( quantitative trait locus,QTL )的定位结果也难以用于指导作物育种实践。作物分子设计育种将在庞大的生物信息和育种家的需求之间搭起一座桥梁,在育种家的田间试验之前,对育种程序中的各种因素进行模拟筛选和优化,提出最佳的亲本选配和后代选择策略,从而大幅度提高育种效率。
1 作物分子设计育种相关基础研究现状及发展趋势
近年来,主要作物的基因组学研究,特别是拟南芥、玉米、水稻和小麦
基因组学研究取得了巨大成就,基因定位和 QTL 作图研究为分子设计育种奠定了良好基础,计算机技术在作物遗传育种领域的广泛应用为分子设计育种提供了有效的手段。国内外生物领域的高技术飞速发展,主要表现在以下5个方面。
1.1
生物信息学遗传信息数据库中的数据呈“爆炸式”增长
在过去的几年里,由于
基因组学和蛋白组学的飞速发展,3大核酸序列数据库,即欧洲生物信息研究所( European Bioinformatics Institute,EBI )维护的 EMBL 数据库、美国国家生物技术信息中心( National Center for Biotechnology Information,NCBI )的 GenBank 数据库和日本国立遗传学研究所( Japan National Institute of Genetics Center for Information Biology )的 DDBJ 数据库,截至1992年1月总计收录核酸序列数据只有59317条,共77805556碱基对;截至2005年3月,3大数据库收录的核酸序列已经达到43118204条,共计47099081750碱基对,年份间呈几何级数增长。2002年,国际3大机构 PIR ( Protein Information Resources,蛋白质信息资源,美国国家健康研究所)、EBI 和 SIB ( Swiss Institute of Bioinformatics,瑞士生物信息研究所)将3个蛋白质数据库 PIR、SWISS-PROT 和 TrEMBL 合并组建了单一的权威性蛋白质数据库 UniProt,截至2005年5月24日已经收录了1748002条蛋白质序列共计555158414个氨基酸。在这些数据库中,有关植物 DNA 序列主要来源于拟南芥、玉米、水稻和小麦等。
水稻作为模式植物和世界上最重要的粮食作物之一,其基因组学研究一直走在其他作物的前列,是第一个完成测序的重要农作物。我国在2002年完成了世界首张籼稻基因组草图,与 Syngenta 公司完成的粳稻基因组草图同时发表在 Science。随后完成了粳稻(日本晴)4号染色体的精确测序,是世界上首先完成的2条精确测序水稻染色体之一。同时还完成了籼稻(广陆矮4号)4号染色体80%的精确测序以及水稻4号染色体着丝粒的序列分析。上述工作的完成使我国水稻
基因组测序研究处于世界领先水平。
所有这些序列以及基因和蛋白质结构和功能的数据成为全世界科学界的宝贵资源和财富,这些海量的序列信息给高效、快速的基因发掘和利用提供了新的契机,在若干研究领域实现跨越式发展甚至“革命”的时机已经到来’。但是,如何收集和处理这些 DNA 和蛋白质信息,并在作物改良中加以应用仍是一个巨大的挑战。
1.2 分子标记技术发展日新月异
自20世纪80年代以来,先后开发出基于 Southern 杂交的第一代分子标记( RFLP 为代表)和基于 PCR 的第二代分子标记( SSR 为代表)。随着植物基因组学研究的发展,全
基因组序列、EST 及全长 cDNA 数量迅猛增长,成为开发新型分子标记的新资源。因此目前全世界正在大力开发基于基因序列的第三代分子标记,即来自 cDNA 序列的 SSR 和 SNP 标记。这类分子标记具有数目多、适于高通量检测的优点;更重要的是,由于 EST 和 cDNA 全长序列是表达基因序列,通过对现有的 EST 或全长 cDNA 数据进行标记查寻,再进行合适的标记引物设计和多态性检测,就可以找到稳定可靠的基于表达基因的特定分子标记。因为标记来自基因的转录区域,因此这些标记能更好地对基因功能的多样性进行更直接的评估。cSSR 标记还具有一个优点,即部分标记可以跨物种应用,因为在不同物种中的表达基因大多数是相似的,针对这些表达基因设计的 SSR 标记就可以在物种间通用。此外,根据 EST 序列信息或根据不同种质资源中的基因序列比较分析,还可以开发出针对特定等位基因的 SNP 标记,这些 SNP 标记将大大方便对有利基因的分子标记辅助选择。
1.3 基因和 QTL 定位研究广泛深入
作物重要农艺性状大多是数量性状,受多基因控制,这些基因间存在复杂的相互作用,基因的表达容易受环境因素的影响。分子标记技术的飞速发展,极大促进了基因定位特别是数量性状基因定位的研究,定位数量性状的基因位点( QTL ),阐明它们的效应、上位性以及与环境的互作,是当代遗传育种研究的一个重要方向。目前,植物 QTL 定位方面应用较广的方法有:区间作图、复合区间作图和基于混合线性模型的复合区间作图等。利用这些方法,对主要农作物的数量性状进行了大量的定位研究,截止2005年4月仅 CAB (国际农业和生物学中心文摘数据库)收录的各种 QTL 定位的论文就有3497篇,其中植物方面的 QTL 定位研究论文1581篇,研究比较深入的作物有水稻、玉米、小麦和番茄等。研究者从不同角度分析了 QTL 的主效应、 QTL 之间的互作效应、QTL 与环境的互作效应等,采用的作图群体包括重组自交系( RIL )、加倍单倍体( DH )、F2 及其衍生群体、回交群体、随机交配群体和染色体片段置换系( CSSL )群体等;在此基础上,进行单基因分解、精细定位和图位
克隆研究。
等位基因变异的检测与表型性状的深入鉴定相结合已成为从种质资源中发掘新基因的有效手段。自1995年以来,Eshed 和 Zamir 倡导利用高代回交导入系结合定向选择,大规模发掘种质资源中有利基因,从而获取 QTL 的复等位基因在不同遗传背景下的表达效应,以便将 QTL 定位研究与植物育种紧密结合起来,为分子设计育种提供全面、准确的遗传信息。
1.4 基因电子定位与电子延伸得到应用
利用 EST 或 cDNA 全长序列等信息对表达序列直接进行作图已成为发掘新基因和比较基因组学研究的重要途径之一。EST 是目前发现新基因的主要信息来源之一,尤其是对尚未进行全基因组测序的小麦和玉米等作物来讲,EST 是了解
基因组中基因序列特征、开发基因特异性标记的重要信息基础。例如,通过把与抗病基因或防御反应基因相似的 EST 在水稻染色体上进行作图,发现部分 EST 定位在以前就已明确含有抗病基因的染色体区域。通过 EST 序列还可以鉴定出那些编码特定代谢途径中的酶类基因,因此 EST 也是揭示作物代谢途径的重要方法。
NCBI 利用 BLAST 技术把 EST 数据进行了整理和分析,建立了 dbEST 数据库;为了更好地利用 EST 数据,NCBI 还根据基因序列对 EST 进行了分类,进一步建立了 UniGene 数据库,其中来自水稻、小麦和玉米的序列数分别为20607条、22959条和13193条(2003年7月数据)。研究表明,通过将 EST 或 cDNA 全长序列等信息对表达序列直接进行作图,可以把不同基因定位在染色体上。例如,Wu 等用6591个水稻 EST 进行了转录图的构建,明确了各表达基因在染色体上的位置。这些数据与全
基因组序列的基因注释信息结合起来,已使人们对水稻中的基因有了更清晰的认识。
1.5
转基因技术和标记辅助选择方法取得一定进展
利用转基因技术进行作物品种改良已取得一定进展。但是,目前转基因技术还仅限于利用主基因改良单一目标性状,对于由多基因控制的大多数重要农艺性状,
转基因技术尚无法发挥其优势。另一方面,国内外对分子标记辅助选择育种做了不少有益的尝试,但对主基因控制的性状,分子标记辅助选择并不比传统的选择方法有明显优势;对多基因控制的重要农艺性状,由于 QTL 在遗传上的复杂性、背景依赖性以及与环境的复杂互作,现有的 QTL 定位成果很难直接用于指导分子标记辅助选择育种。
2 我国开展分子设计育种的时机已经成熟
模式植物拟南芥和水稻的全基因组序列测定的完成,使得植物基因组学研究由结构基因组向功能基因组等各种“组学”迅猛发展。
基因组学和蛋白组学借助
生物信息学的力量让人们从分子水平上了解植物亚细胞生理活动及真核生物的多细胞是如何组成并实现其复杂的功能,各种“组学”把传统生物学迅速带入了
系统生物学的新时代,这一革命性的改变催生了分子设计( molecular design )的概念。目前,已有许多研究机构在做前期准备工作,朝此方向发展。美国农业部已投资在十几个研究单位建立各种作物的数据库,这些数据库的整合将成为未来分子设计育种的重要基础。其他比较有影响的研究机构如美国的先锋公司、澳大利亚的昆士兰大学和CSIRO,以及国际玉米小麦改良中心在基因型到表型建模、基因型与环境互作分析及育种模拟等方面开展了研究。中国水稻所2004年提出水稻基因设计育种的概念,就是在水稻全
基因组测序完成后,在主要农艺性状基因功能明确的基础上,通过有利基因的剪切、聚合,培育在产量、米质和抗性等多方面有突破的超级稻新品种。
目前我国开展分子设计育种的时机已经成熟,其主要表现有以下4个方面。(1)我国已拥有生物信息学的研究力量和技术。我国是世界上首次对水稻全
基因组测序并对水稻第4染色体精细测序的国家之一。在测序的过程中,生物信息学手段是完成序列组装和分析的关键。能完成这些大量的测序任务,本身就说明我国已拥有很高的
生物信息学研究水平。另外,从基因组序列、EST 信息和全长 cDNA 序列中发掘新标记和新基因的工作也已取得了一定进展。(2)已开展虚拟分子育种。我国利用分子数量遗传学和计算机技术研究 QTL 作图、QTL 与环境之间的关系方面位于国际同等水平,国家高技术研究发展计划(863计划)已经资助开展主要农作物的虚拟育种研究,在回交育种、聚合育种、杂种优势预测和亲本选配的计算机模拟研究等方面已经取得了一定进展。(3)已拥有建立大型的数据搜集和处理系统的技术和经验。我国的国家作物种质资源信息系统已建立多年,目前该系统中储存的数据已达数千万项,在大型数据库的建立、完善和维护方面积累了丰富的经验。(4)已拥有基因作图、比较基因组学研究、等位基因多样性研究等关键技术。我国在作物的基因作图方面开展得比国外晚,但近年来进步很大,并且涉及到各种重要作物的大多数重要性状。利用 DNA 和蛋白质序列信息,针对特定基因或基因类型进行作图在水稻之外的其他作物上也发展很快。此外,我国已开展小麦族内的物种之间、禾本科作物之间的比较
基因组学研究,并取得了一定进展,正在开展的等位基因多样性研究也已取得阶段性成果。
与国外同类研究相比,我们的差距主要存在以下3个方面。(1)主要农艺性状基因发掘和功能研究存在不足。近十年来,我国利用分子标记,在水稻、小麦、玉米等主要作物中已经开展了大量的基因(特别是 QTL )定位研究,积累了大量的遗传信息。但这些信息还处于零散的状态,缺乏集中、归纳和总结;对不同遗传背景和环境条件下 QTL 效应、QTL 的复等位性以及不同 QTL 之间的互作研究不够系统全面,不利于 QTL 定位的成果转化为实际的育种效益;重要农艺性状的遗传基础、形成机制和代谢网络研究还很欠缺,而这些正是分子设计育种的重要信息基础。同时,缺乏拥有自主
知识产权的计算机
软件,限制了将已有的基因或 QTL 信息应用到实际育种中去。(2)分子设计育种相关的信息系统不够完善。在国家高技术研究发展计划(863计划)和国家重点基础研究发展计划(973计划)等项目的大力支持下,主要农作物主要经济性状遗传研究取得了很大进展,国家已全面启动水稻等主要粮食作物主要经济性状的功能
基因组研究,但是距全面了解作物所有性状的遗传基础还比较遥远。我国现有的生物信息数据库中,已明确功能和表达调控机制的基因信息比较匮乏;在转录组学、蛋白组学、代谢组学以及表型组学等方面的研究与国际上存在较大差距,作物种质资源信息系统中,能被分子设计育种直接应用的信息还很有限。(3)分子设计育种理论研究相对滞后。目前,国内已经开始意识到分子设计育种将会成为未来作物育种的发展方向,但大多尚停留在概念上,还没有真正开展分子设计育种的理论建模和
软件开发工作。
3 我国作物分子设计育种的研究重点
我国的作物分子设计育种研究应集中在以下3个方面。
3.1 重要农艺性状基因 /QTL 高效发掘
构建水稻、小麦、玉米、大豆和棉花等作物的高代回交导入系群体,通过大规模回交导人系并结合定向选择,消除复杂的遗传背景对基因 /QTL 定位精度的不良影响,高效发掘种质资源中重要农艺性状的基因 /QTL。通过不同轮回亲本和供体亲本配制的高代回交组合定位结果的分析比较,探明基因 /QTL 的一因多效、多因一效、同一基因 /QTL 位点的复等位性、基因 /QTL 之间的上位性互作、基因 /QTL 与遗传背景之间的互作、基因 /QTL 与环境互作等信息。高代回交导入的遗传背景高度纯化,便于直接对主效应大、表达稳定的基因 /QTL 进行精细定位。
3.2 建立核心种质和骨干亲本的遗传信息链接
核心种质以最小的资源数代表最大的遗传多样性,即保留尽可能小的群体和尽可能大的遗传多样性;骨干亲本则是当前作物育种中广泛使用并取得较好育种成效的育种材料,其中含有大量有利基因资源。发掘这两类材料中的遗传信息并建立其分子设计育种信息系统和链接,可以快速获取亲本携带的基因及其与环境互作的信息,为分子设计育种模型精确预测不同亲本杂交后代在不同生态环境下的表现提供信息支撑。
3.3 建立主要育种性状的 GP 模型
GP(Genotype to phenotype) 模型描述不同基因和基因型、以及基因和环境间是如何作用以最终产生不同性状的表型,从而可以鉴定出符合不同育种目标和生态条件需求的目标基因型,因此 GP 模型是分子设计育种的关键组成部分。GP 模型利用发掘的基因信息、核心种质和骨干亲本的遗传信息链接提供的信息,结合不同作物的生物学特性及不同生态地区育种目标,对育种过程中各项指标进行模拟优化,预测不同亲本杂交后代产生理想基因型和育成优良品种的概率,大幅度提高育种效率。
4 分子设计育种实例
Peleman 和 van der Voort 对“设计育种”( Breeding by design ) 这一名词进行了商标注册,他们认为分子设计育种应当分3步进行:(1)定位所有相关农艺性状的 QTL;(2)评价这些位点的等位性变异;(3)开展设计育种。这里结合我们在水稻上的一些研究结果说明分子设计育种的过程。
4.1 研究育种目标性状的 QTL
这一过程包括构建作图群体、筛选多态性标记、构建标记连锁图谱、评价数量性状的表现型和 QTL 分析等步骤。这里有一包含65个染色体片段置换系 (chromosome segment substitution line,CSSL) 的群体,产生这一群体的2个亲本分别为粳稻 Asominori (背景或轮回亲本)和籼稻 IR24 (供体或非轮回亲本)。每个 CSSL 包含一个或几个来自 IR24 的染色体片段,其余染色体来自背景亲本 Asominofi。所有供体染色体片段覆盖了 IR24 的整个
基因组,不同染色体片段用不同的 RFLP 标记表示。
根据粒长的观测值,可以通过分析不同标记基因型间粒长的差异显著性来判断哪些片段上携带有影响粒长的 QTL。存在 QTL 的可能性常用 LOD 值的大小来衡量(图1.A),图1.A清楚表明标记 M23 和 M34 代表的染色体片段上包含有控制粒长的 QTL,它们分别解释粒长表型变异的36.9%和8.9%,因此可视为主效 QTL,尤其是 M23 染色体片段上的 QTL。但这2个 QTL 加性效应的方向相反(图2-B),即对于标记 M23 上的 QTL 来说,来自 IR24 的等位基因使粒长增加,来自 Asominori 的等位基因使粒长减小;对于标记 M34 上的 QTL 来说,来自 IR24 的等位基因则使粒长减小,来自 Asominori 的等位基因使粒长增加。
实践中,可根据不同研究目的选择 LOD 临界值去判定 QTL 的存在,如果研究目的在于 QTL 的
克隆和功能分析,则判定 QTL 存在时应选择较高的 LOD 临界值,如3.0或更高,以避免假阳性;如果目的在于预测基因型,则假阳性不会对结果造成较大的负面影响,此时可选择较低的 LOD 临界值,如1.0,以保证效应较小的 QTL 也能鉴定出来。在上面的实例中,当采用0.83的临界值时(对应于显著性水平0.05),我们一共鉴定出13个控制粒长的 QTL,8个控制粒宽的 QTL,同时也鉴定出一些上位性 QTL。
4.2 结合育种目标设计目标基因型
这一过程利用已经鉴定出的各种重要育种性状 QTL 的信息,包括 QTL 在染色体上的位置、遗传效应、QTL 之间的互作、QTL 与背景亲本和环境之间的互作等,模拟预测各种可能基因型的表现型,从中选择符合特定育种目标的基因型。
在我们的例子中,Asominori 是短粒和宽粒型品种,IR24 是长粒和窄粒型品种,但它们的 CSSL 后代在2个性状4个方向上均有超亲分离现象,因此2个性状的增效 QTL 和减效 QTL 在2个亲本中应该分散分布。通过对粒长的 QTL 作图,发现在染色体片段 M6、M12、M14、M23 和 M25 上的5个 QTL 具有正效效应,即对于这些座位上的 QTL 来说,来自 IR24 的等位基因使粒长增加;对于粒宽,只有一个 QTL 具有正效效应,说明增加粒宽的大多数基因来自 Asominori。除此之外还发现一些染色体片段如 M10、M12、M14 和 M23,同时携带有既控制粒长又控制粒宽的 QTL;在片段 M10 上,QTL 对粒长和粒宽效应都是正向的;在其他片段上,QTL 对粒长和粒宽效应却相反。这一点与根据表型估计的相关系数 r=-0.34**一致。
根据上面的信息,可以预测各种可能的基因型的表现型(图2),发现最小和最大粒长基因型的粒长分别是4.20 mm 和6.21 mm,最小和最大粒宽基因型的粒宽分别是2.12 mm 和3.07 mm。假定育种目标是长粒和宽粒型,由于一些 QTL 在2个性状上有负向的一因多效现象,不可能获得一个基因型既具有图2中最大粒长又具有最大粒宽。经模拟我们发现一个设计基因型,其粒长为6.05 mm,粒宽为3.00 mm,接近最大粒长6.21 mm 和最大粒宽3.07mm(图2)。至此我们设计出一个最符合长粒和宽粒型这一育种目标的基因型。
4.3 达到目标基因型的途径分析
获得图2中的设计基因型,需要 IR24 的4个染色体片段,即 M1、M6、M23 和 M25。在65个 CSSL 中,CSSL5 包含片段 M6;CSSL16 包含片段 M1 和 M23;CSSL19 包含片段 M25;因此可以作为产生设计基因型的亲本材料。但 CSSL19 包含有我们不需要的片段 M12,在选择过程中需要将其替换为 Asominori 的片段。
3个亲本间的三交(又称顶交)组合有可能将我们需要的染色体片段聚合在一起,产生三交组合的方式有3种,即三交组合1:(CSSL5×CSSL16)×CSSL19;三交组合2:(CSSL5×CSSL19)×CSSL16和三交组合3:(CSSL16 × CSSL19)×CSSL5。假定采用标记辅助方法选择目标基因型,可供选择的方案有很多,这里只考虑其中的2种,标记选择方案1:产生100个三交 F1 个体,每个产生30个 F2 个体,利用单粒传共产生3000个 F8 家系,然后从中选择目标基因型;标记选择方案2:产生100个三交 F1 个体,通过标记辅助选择只保留含有目标染色体片段的个体,每个中选个体产生30个 F2 个体,利用单粒传产生 F8 家系,然后从中选择目标基因型。以上过程借助遗传育种模拟工具 QuCim 实现。
对每个三交组合,2种标记选择方案得到的 F8 家系数相等(表1)。从三交组合1平均获得7.6个目标基因型 F8 家系,三交组合2平均获得23.8个,三交组合3平均获得11.8个(表1)。但从2种标记选择方案需要测试的 DNA 样品数和每个中选的 F8 家系需要测试的 DNA 样品数来看,2种标记选择方案有着巨大的差异。以三交组合1为例,利用标记选择方案1需要测试3000个 DNA 样品,而利用标记选择方案2需要测试459个 DNA 样品;对标记选择方案1来说,每个中选的 F8 家系需要测试的 DNA 样品数是395,对标记选择方案2来说,这个数字只有60。因此,包含两个阶段标记选择的方案2在基因聚合过程中可以大大地降低实验室测定标记的花费。
不同三交组合获得目标基因型的几率有显著差异。三交组合2的几率最高,达0.81%,组合1的几率最低,只有0.25%。因此三交组合2结合标记选择方案2是最佳的实现目标基因型的途径。
5 分子设计育种展望
作物分子设计育种是一个新的概念,它以生物信息学为平台,以
基因组学和蛋白组学等若干个数据库为基础,综合作物育种学流程中的作物遗传、生理、生化、栽培、生物统计等所有学科的有用信息,根据具体作物的育种目标和生长环境,在计算机上设计最佳方案,然后开展作物育种试验的分子育种方法。与常规育种方法相比,作物分子设计育种首先在计算机上模拟实施,考虑的因素更多、更周全,因而所选用的亲本组合、选择途径等更有效,更能满足育种的需要,可以极大地提高育种效率。值得指出的是,分子设计育种在未来实施过程中将是一个结合分子生物学、
生物信息学、计算机学、作物遗传学、育种学、栽培学、植物保护、生物统计学、土壤学、生态学等多学科的系统工程。
作物分子设计育种是一个综合性的新兴研究领域,将对未来作物育种理论和技术发展产生深远的影响。因此,我们应该把握机遇,充分利用植物
基因组学和
生物信息学等前沿学科的重大成就,及时开展品种分子设计的基础理论研究和技术平台建设。实现分子设计育种的目标,将会大幅度提高作物育种的理论和技术水平,带动传统育种向高效、定向化发展。
http://www.bioon.com 生物谷网站