摘要:我们为得到与核基因表达相关的新的蛋白对人类基因组进行搜索,核基因表达三个过程包括:转录、前体mRNA剪接和聚腺苷酸化。一系列新的因素被认为与核基因表达有关,与果蝇、线虫相比,揭示了实质性的不同,复杂度的增加是有实质性的。尽管原始基因组信息是有限的,但它仍提供了研究基因表达新的实验方法。
得知了人类和其他物种的基因组序列将会给生物医学各个领域的研究带来变革。但基因组本身作为基因表达的主体,它对我们研究基因表达过程产生的冲击意义尤为深远。这里,我们预计了人类基因组将为研究基因表达的人们提供这样的便利。
基因表达包括从最初基因在细胞核的转录,到mRNA在细胞质中的翻译等一系列过程,这里我们主要关心在细胞核中的三个步骤:转录、前体mRNA剪接、3‘末端的构成。这三个过程包括作为多蛋白复合体支架的核苷酸(DNA或RNA)的识别,并在复合体上进行相关反应(转录、剪接、3‘构成)。每一步的研究旨在弄清所有相关的组成部分,阐明反应是如何进行控制的。
主要的转录因子
与真核生物编码蛋白有关的转录因子根据RNA聚合酶可分为两类:主要的(或基本的)转录因子(general transcription factors, GTFs)和转录活化因子。GTFs是体外正确转录起始所必须的,包括RNA聚合酶Ⅱ在内还至少还需要6个GFTs:TFIID、TFIIA、TFIIB、TFIIE、TFIIF、TFIIH。GTFs和启动子装配后形成前起始复合物(preinitiation complex, PIC)。在GTFs中,TFIID是与DNA特异序列相结合的最基本的组分,它通过与TATA box的相互作用发动PIC的装配,它也是TATA box结合蛋白及与其相关的复杂因子的组成部分。基本转录机理从酵母到人,总的来说是高度保守的。
我们已经在人类基因组序列中找到了GTFs。与果蝇、线虫、酿酒酵母的基因组相一致,人类基因组包含编码RNA聚合酶Ⅱ、TFIIB、TFIIE、TFIIF和TFIIH组分的单拷贝基因,没有迹象表明有其它相关基因。最重要的一个例外是发现了与cdk7相关的3个基因,cdk7是与TFIIH有关的、依赖细胞周期的激酶。
我们还发现一些基因序列和许多TFIID的亚基有关,包括TBP、TFIIA和几个TAFs,这表明人类TFIID比果蝇更具有广泛的潜在多样性。比如,我们确定人类中有6个基因与TAF32有关,但果蝇中没有与同源的TAF40相关的基因。由此认为,所有的多细胞动物只有单个基因表达TBP,有2个基因编码的类似TBP的因子(TBP-like factor,TLF)。不同的是果蝇中有第三个与TBP相关的基因(TRF1)。但是,我们的研究还发现,在人类的14号染色体中也有第三个与TBP相关的序列。
转录活化因子
转录活性受到特殊的启动活化因子的激活。通常,在目标启动子有一些特定序列的DNA结合蛋白,它们的识别位点就在目标启动子上。活化因子根据基本的DNA结合域分为几个家族。对人类基因组序列的进行搜索,发现有2000多个编码转录活化因子的假设基因。C2H2锌指结构蛋白形成巨大的家族(大约有900个成员),在果蝇、线虫和酿酒酵母中也存在如此庞大的转录活化因子家族。在人类基因组中,亮氨酸拉链碱性区(basic region leucine zipper, bZIP)、核受体蛋白和螺旋-环-螺旋(helix-loop-helix)蛋白基序是果蝇基因组的2倍,比线虫和酿酒酵母的基因组多5~10倍。
我们对转录活化中bZIP蛋白的超级家族进一步进行分析。我们根据已有的bZIP蛋白基本序列的相关性将新的bZIP分别排到bZIP的亚家族中,诸如Jun,Fos,ATF,CREB和c/EBP。通过这种方法发现了18个新的编码bZIP基因,基本上属于Fos和CREB家族。3种新基因属于TEF/HLF小家族,它与线虫基因ces-2有很强的相似性,用来控制细胞程序性凋亡。以上举例说明了运用人类基因组序列如何找到与基因表达相关的新的因素,尽管这些因素的功能还不清楚。
前体mRNA剪接
前体mRNA剪接在大而复杂的剪接体中动态地进行。4个核小体蛋白(small nuclear ribonucleoprotein, snRNP)粒子(U1,U2,U5和U4/U6)和很多非核小体蛋白与前提mRNA进行有序的相互作用,来进行剪接体的装配。多细胞动物中,剪接体由U1snRNP5‘剪接的识别位点和U2snRNP辅助因素U2AF的多聚包嘧啶轨道的识别位点开始装配。我们已在人类基因组序列搜索到作用于早期的剪接体装配一些蛋白剪接因素,结果显示人类基因中比果蝇的要复杂得多。特别令人感兴趣的是一些新基因与U2AF的小亚基及U2AF相关性很高。
多聚腺苷酸化
真核mRNA3‘端有一个多聚腺苷酸的尾(polyA tail),长度约有200个核苷酸,加在转录后前体mRNA内切核苷酸切口处。额外的多聚A由多聚腺苷序列--AAUAAA指引,定位在多聚腺苷酸化位点上游10~30碱基处。多聚腺苷酸化需要各种蛋白组分,包括分裂/多聚腺苷酸特异性的因子(cleavage/polyadenylation specificity factor, CPSF),刺激分裂因素(cleavage stimulatory factor, CstF),其它分裂因子和多聚A聚合酶(poly A polymerase, PAP)。一些多聚腺苷酸结合蛋白(poly A binding proteins, PABs)与成熟的poly(A)尾结合。
我们确定了一些基因和mRNA的3‘端的结构因子相关,包括PAP和PAB。众所周知,PAP有多种可变剪接方式,但存在几个与PAP相关的基因序列是意料之外的,增加了这种酶潜在的多样性。这一结果表明人类的多聚腺苷酸机理比果蝇的要复杂得多。
基因组信息的有限性
尽管这些发现拓展了基因组信息的应用,但同时也反映了基因组的局限性。尤其相关的基因序列的存在并不能确定有相应的蛋白质:序列可能是不表达的假基因,事实上,一些新基因序列包含了终止密码子或缺乏内含子。我们知道有些相关基因的序列是表达的,因为它们存在于表达序列标签(expressed sequence tag, EST)的数据库中。即使相关序列是表达基因,我们仍不知道两个相关基因是否在同一细胞中同时表达,或这两个基因在表达上有何不同--比如,在组织或发育过程中是否有特异的表达方式。完备基因组信息是基因表达研究所必须的。最后要指出的是:很多因素是多个亚基的复合物,有时同一因素以多种复合的形式存在,它们的活性会有本质的不同。基因组序列信息的真正价值只有在与生物医学研究正确结合后才会被意识到。
研究基因表达的新的方法
真核生物的整个基因组序列将为研究基因表达的提供新的实验策略。在前基因组战略中,与基因表达有关的因素通过生物化学或遗传实验的方法来确定,重点在特殊基因的表达过程(如,转录途径)。人类基因组序列包含新因素,它们的序列暗示了它们在基因表达中的作用,它们准确地作用方式和功能还不知道。所以,后基因组时代的方法从新的基因(或它们的蛋白产物)开始。确定它们的作用方式和参与反应的途径。
考虑新的亮氨酸拉链碱性区(bZIP)蛋白,通过检测组织的表达模型,阐明DNA特异的结合位点,或作出染色体受体位点的图谱。最重要的是确定控制转录因子的基因,从而了解转录因子的功能,再将这些基因在细胞或动物模型中加以诱导,这些基因在正常情况下能否表达(可能会没有活性)为蛋白。对表达的结果进行推断,可以得出与转录有关的特殊基因。最有效的方法是将与转录相关的目的基因用高密度的基因芯片进行平行分析。
通过对热门的人类基因组序列草图进行搜索,我们已经确定了很多与转录、mRNA剪接、mRNA3‘尾结构相关的新的因子,人类基因表达机理复杂度的增加,暗示了基因表达在决定人的发育和生理特性方面显得尤为重要。
Expressing the human genome Nature vol.409 Feb.15,2001 p832~833


