CANCER SUBTYPE DISCOVERY AND INFORMATIVE GENE IDENTIFICATION WITH GENE EXPRESSION PROFILES
李泽 包雷 黄英武 孙之荣
摘 要:在分析基因表达谱数据特性的基础上,提出了一个将之用于肿瘤分子分型和选取相应亚型特征基因的策略.该策略包括三个步骤:首先采用一个无监督的基因过滤算法以降低用于分型计算的数据的噪声,其次提出了一个概率模型对样本中的分类结构进行建模,最后基于聚类的结果采用相对熵的方法获得对分类贡献大的基因作为特征基因.应用该策略对两个公开发表的数据集进行了再挖掘,结果表明不但获得了其他方法可以得到的信息,而且还提供了更精细、更具有显著生物学意义的信息,具有明显的优越性.
关键词:基因表达谱;聚类;特征基因
分类号:Q617 文献标识码:A
文章编号:1000-6737(2002)04-0413-05
基金项目:国家自然科学基金项目(19947006)
作者简介:李泽,1976年生,硕士生,电话:(010)62772237,E-mail:lize@tsinghua.org.cn.通讯作者:孙之荣
作者单位:李泽(清华大学生物科学与技术系,北京,100084)
包雷(清华大学生物科学与技术系,北京,100084)
黄英武(清华大学生物科学与技术系,北京,100084)
孙之荣(清华大学生物科学与技术系,北京,100084)


