来源
2007-8-1 10:19:14

曙光生物基因序列研究解决方案


 3.基因序列比对和数据库搜索   

    比较是科学研究中最常见的方法,通过将研究对象相互比较来寻找对象可能具备的特性。在生物信息学研究中,比对是最常用、最经典的研究手段。   

    最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。  

    此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。  

    比对还是数据库搜索算法的基础,将查询序列与整个数据库的所有序列进行比对,从数据库中获得与其最相似序列的已有的数据,能最快速的获得有关查询序列的大量有价值的参考信息,对于进一步分析其结构和功能都会有很大的帮助。近年来随着生物信息学数据大量积累和生物学知识的整理,通过比对方法可以有效地分析和预测一些新发现基因的功能。   

    4.序列比对软件   
           
 为了提高搜索的速度和效率,通常的序列搜索算法都进行了一定程度的优化,如最常见的FASTA工具和BLAST工具。   

    FASTA是第一个被广泛应用的序列比对和搜索工具包,用于序列两两比对,它包含若干个独立的程序,将一条序列与另一条序列进行比较或在数据库中查找同源序列并输出。  

    BLAST是现在应用最广泛的序列相似性搜索工具,用于序列两两比对,由NCBI研制。BLAST系统对于生物基因序列数据在计算机中的表达和处理作了许多的研究,建立在严格的统计学基础之上。由于功能强大,检索速度快,  BLAST工具流行于世界上几乎所有的生物信息中心。  

    基因序列比对程序需要处理的数据规模不断增大,而且,程序运行时间也不能满足要求,需要采用并行处理的方法。  

    Blast在进行检索时采用的方法是循环匹配所有的记录。只需将这种循环匹配平均地分配到并行系统的各个节点上,各个节点分别执行各自的匹配操作,最后将匹配的结果统计起来就可以初步实现Blast程序的并行操作。对Blast实行并行化实际上就是将整个检索空间分解成若干个子空间,为各个子节点分配一个子空间,子节点在各自的子空间进行检索,检索完成后,由主控节点归纳统计各个子节点上的结果,然后生成并打印最后的统计结果。     

        mpiBLAST就是对NCBI  BLAST的并行化,基于mpi并行环境,可以免费下载使用。   

        使用mpiBLAST,就可以在安装了mpi环境的计算机做并行搜索。   

        使用mpiBLAST的原因:   

        1,可以在查询大数据库时实现较好的加速比(线性,甚至超线性加速比);   

         2,在大量的批处理查询请求时,缩短查询时间。   

   目前使用最广泛的多序列比对程序是CLUSTALW(它的PC版本是CLUSTALX)。  

    CLUSTALW是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。  

    CLUSTALW的程序可以自由使用,在NCBI的FTP服务器上可以找到下载的软件包。CLUSTALW程序用选项单来逐步指导用户进行操作,用户可根据需要选择打分矩阵、设置空位罚分等。EBI的主页还提供了基于Web的CLUSTALW服务,用户可以把序列和各种要求通过表单提交到服务器上,服务器把计算的结果用Email返回用户。

    5.曙光公司基因比对解决方案  

    曙光公司专著于为用户提供高性能计算领域的全套解决方案。经过十几年的积累,曙光公司具有独特的优势:  

    1,熟悉应用,高性能集群系统针对应用特点而定制;  

    2,专业化、高性能的集群中间件;  

    3,专业化的各应用领域人才,保障用户应用的顺畅。  

    目前,各种基因序列比对软件在曙光的系列高性能集群系统上都得到了部署和应用。  

基因序列比对的对计算资源的要求不断提高,一方面是由于数据库不断增大,另外一个原因是检索时需要进行匹配的序列数据增多。这使得检索速度会变慢,并且随着数据库的进一步膨胀,比对的速度将会使用户不可忍受。   
             
    同时,每一种生物的基因序列数据都是一个极其庞大的数据,必须将它分解成几个基因序列数据库。一般典型的基因序列数据库大小在100MB~500MB之间,需要将数据库序列数据映象到内存中,这将会消耗大量的时间用于数据库数据的I/O操作,并且在运行中消耗大量的内存资源。  

    总结来说,基因比对应用有三个特点:  
1)检索速度慢;  
2)对系统的I/O的要求高;    
3)程序消耗内存大     
    
  机群系统可以为序列比对提供一个高性价比的应用平台,机群系统的特点非常适合序列比对的应用。   

  整个系统包含如下组成部分:  

  计算节点:用于计算,根据用户的实际需要选择配置和数量;  

  管理/登陆节点:用于系统的管理和外部接入;  

  I/O节点:连接磁盘阵列,提供网络共享文件系统;  

  计算网络:连接计算节点,使用高性价比的千兆以太网;  

  数据网络:和计算网络共用一套千兆以太网;  

  管理网络:配合集群中间件,对集群实现统一管理;  

  SKVM网络:大规模视频切换系统,实现本地化管理;  


方案拓扑图

  曙光高性能机群系统非常适合于基因序列比对的应用:  

    1,曙光机群系统提供了一个高性价比的方案。  

  2,序列比对软件都可以在曙光机群系统上得到无缝部署和应用。  

  3,机群中的各个节点可以同时运行多个串行查询的应用。  

  4,机群系统安装了mpi并行环境,可以运行并行版本的序列比对软件。机群系统很适合并行基因查询,如mpiBLAST的应用。  

    6.典型成功案例              

  用户单位:华大基因中心              

  应用:基因测序为主体的生物信息学应用              

 2000年7月,曙光公司与华大基因研究中心共建生物信息学联合实验室,华大向曙光订购了2套天潮2000-Ⅱ超级服务器,采用“全基因组鸟枪法”来进行测序工作。曙光高性能计算机使得华大基因中心的计算能力与测序能力相匹配,在人类基因组计划16个成员单位中位居第7位。              

 2001年,华大又向曙光购买了一套天潮3000服务器,保证了其快速和高质量完成丹麦猪和超级杂交水稻基因图项目。

上页  [1] [2] 

  • 众说风云 (已有0条评论)

聚焦

个人基因组测序将蓬勃发展

生物谷专访:全球首家个人基因组测序机构Knome公司总裁及CEO

Master

人物

成功的秘诀

Train to gain

招聘

为你的职业拓宽道路

分子生物学相关产品



定量PCR仪

Eppendorf Ep Master
定量PCR仪

实时定量PCR仪

ABI Stepone TM 实时定量PCR仪,最新的软件系统,界面友好,操作简单

PCR产物纯化

各种厂家和各种规格的PCR产物纯化试剂盒


定量PCR试剂

最全的定量PCR试剂


荧光定量PCR全套服务方案

从引物设计到实验全程服务