导航: 生物谷 >> 服务 >> 生物谷服务 >> 论坛精华 >> 数据库介绍 >> 期刊数据库 >> 服务正文
  

NCBI---The UniGene System

2003-10-12 3:05:00 信息来源:本站原创 
  •   NCBI---The UniGene System
http://www.bioon.com生物谷网站

UniGene是从属于GeneBank的一部分,专门收集非冗余性的基因来源的clusters数据。每一个UniGene Cluster包含代表单一基因的序列和相关的信息,例如基因表达的组织类型和图谱定位信息。

除了这些具有具有特征的序列以外,成千上万的EST也被收录在内。因此,相应的,这些收集的资源可以作为基因发现的来源。现在,许多实验室研究人员已经利用UniGene进行大规模的基因表达图谱分析,并且所有这些序列并没有被用来尝试产生ContigsConsensus。这里存在一些原因解释为什麽同属于某一基因的序列不用来产生一个单一的Contig.

  1. 所有属于同一基因的剪切变异被放在同一聚类中。

  2. 来从同一cDNA克隆EST序列,通常都有5’3’端的序列,但这些序列并不都具有重叠部分。

当前,Unigene已收录了Human 、RatMouseCowZebrafish的序列。选择这些物种是因为它们有大量的EST可用数据,其它物种的序列将在今后陆续被加入。

UniGene的数据可通过FTP下载

UniGene Build Procedure:

聚类是一个发现同属于一个大类中的小的亚序列的过程,可通过转换离散相似值为序列之间的布尔数学体系联系。也就是说,如果序列间的相似性超过某一阈值,则认为它们具有相关性。UniGene clustering 对于这种相关性分析提供更多的生物学意义上的考虑,聚类过程大致如下:

1.对序列中的载体、寡核苷酸、重复片段以及线粒体、核糖体等污染序列进行过滤。去除污染序列之后的序列至少要含有100bp的带有信息的序列才可作为候选序列。

2.Gene links

从属于同一基因的序列(包括 mRNA or genome sequences, 完整的 CDS)彼此之间要进行比较,足够相似的序列被放在一起,形成初始的clusters

3.EST to Gene links and EST to EST

通过megablastEST属于同一基因的序列进行比较,足够相似的序列 被加入到这些clusters。如果某一个序列,表现为可同时放在2不同clusters,但不能把2clusters联成一个cluster,这样的序列必须被剔除。另外,如果在clusters2个以上的带有 3’末端标记EST或在Cluster中没有带有polyA)信号的序列,这样的Clusters必须被抛弃。

经过这些标准筛选得到的clusters,称为锚定clusters 。因为这些clusters具有3’ 末端序列,并被假定为已知的。

4 根据克隆信息设定Cluster的边界。

这样可以确保如果同属于一个Cluster的5’末端3’末端ESTs即使中间没有重叠的片段将它们联系起来,也能认定它们属于同一个cluster。如果在一个Cluster中有两个3’末端ESTs,那么就可在相同的克隆中找到两个5’末端EST,并将其放到同一个Cluster中。并且可以提供Clusters之间合并的信息。

由于新的序列数据的加入和每星期的不断更新,因此在UniGene中的resulting Cluster每星期也随之重新整理,不断更新。Clusters之间会发生融合,因此使用Cluster的ID作为标识,是不明智之举,最好利用GB accession numbers比较安全。

目前,在UniGene中包括有48,000clustesClusters 大部分依据EST序列形成,每一个Cluster代表一个human gene 的转录子,当前估计人类基因组约有80,000100,000基因。利用UniGene Clusters的一个重要的目的是识别新的,非冗余的候选b表达图谱,为产生一个转录子图谱-识别基因组所有的编码序列。 

 

 UniGene References

一篇发表在NCBI NEWS(1997年8月)上的文章对clustering算法以及UniGene项目作了介绍,为我们提供了了解UniGene&Transcript Map project的背景知识(see Schuler et al., 1996, below).

其它参考文献:

Schuler (1997). Pieces of the puzzle: expressed sequence tags and the catalog of human genes. J Mol Med 75(10),694-698. [PubMed]

Schuler et al. (1996). A gene map of the human genome. Science 274, 540-546. [PubMed] [SCIENCE On-line]

Boguski & Schuler (1995). ESTablishing a human transcript map. Nature Genetics 10, 369-371. [PubMed] [Full Text]

服务录入:admin    责任编辑:admin 
评论】【收藏】【告诉好友】【打印】 【返回顶部】 【直达首页】 【进入论坛】 【转入博客】  
生物谷服务信息,更多精彩在首页,
我来评两句 用户名: * 游客填写 ·注册用户

最新资讯

推荐产品
推荐文章
关于我们 | 广告服务 | 联系方式 | 帮助信息 | 服务条款 | 法律声明 | 战略伙伴 | 友情链接 | 生意通 | 网站地图 | Bioon English
Copyright © 2001-2007 生物谷 bioon.com , All Rights Reserved. 版权所有
不良信息举报信箱:editor#bioon.com
网站备案:沪ICP备05022939号