生物谷专访杨竞博士和侯睿博士:

全转录组:测序数据分析及案例实践班

2017年,生物谷将与国家基因检测技术应用示范中心共同举办全转录组测序数据分析及案例实践班,同时,生物芯片上海国家工程研究中心和上海生物信息技术研究中心也将作为协办方共同完成此次培训。

编者按

转录组即某个物种或特定细胞在某一功能状态下产生的所有RNA的总和,包括mRNA和非编码RNA (Non-coding RNA)。现在主流的非编码RNA又包括:circRMA,microRNAs,及lncRNAs。转录组学是研究细胞表型和功能的一个重要手段。与基因组不同的是,转录组的定义中包含了时 间和空间的限定。同一细胞在不同的生长时期及生长环境下,其基因表达情况是不完全相同的。转录组测序(RNA-Seq)是指利用第二代高通量测序技术进行 cDNA测序,全面快速地获取某一物种特定器官或组织在某一状态下的几乎所有转录本。

基于高通量测序平台的转录组测序技术能够全面获得物种特定组织或器官的转录本信息,从而进行基因表达水平研究、新转录本发现研究、转录本结构变异研究等。通过对转录组测序数据的分析便能观察疾病发生过程中病灶部位内部的基因表达水平变化。在肿瘤研究中,使用RNA-seq技术也可以预测潜在的融合基因。同时,此项研究也能应用在新lncRNA预测和已知lncRNA表达水平研究中。

2017年,生物谷将与国家基因检测技术应用示范中心共同举办本次全转录组测序数据分析及案例实践班,同时,生物芯片上海国家工程研究中心和上海生物信息技术研究中心也将作为协办方共同完成此次培训。

本次培训从生物信息基础语言入门培训,到各类RNA测序分析介绍,再到lncRNA的鉴定与功能推断,最后到R语言基础与作图。整个理论和实操的培训课程下来,相信您对全转录组的生物信息学应用和分析会有一个全面的理解和运用,这也是本次培训班的办学目的。

为此,生物谷对基因编辑技术方面的专家侯睿博士和杨竞博士进行了采访。

侯睿博士谈基因编辑CRISPR/Cas9技术

一、生物谷:侯博士您好,非常感谢您此次接受生物谷的专访。近年来非编码RNA受到了越来越多的关注,请问您是怎样看待这一趋势的?非编码RNA的研究对于疾病防治有怎样的意义?

侯睿博士:非常感谢生物谷给我这次谈论非编码RNA领域研究动态及个人看法的机会。人类基因组只有不到2%的编码序列,十多年前普遍认为基因组中那些剩余序列大多是进化过程中产生的“垃圾”和“噪音”。然而ENCODE计划证明人类基因组剩余的“垃圾”序列至少80%都是有功能的,这些序列的转录产物就包括大量的非编码RNA。ncRNA中除了众所周知的tRNA、rRNA、内源性siRNA以外,多种具有调控功能的ncRNA越来越受到大家的关注。其中,miRNA的研究最为成熟,从20世纪90年代最早被发现到接下来的10年间miRNA研究突飞猛进。通过转录后调控作用,miRNA参与各种不同的生理过程,而miRNA的表达失调也与各种疾病相关;因其在各种体液中的稳定性,miRNA也逐渐成为重要的无创性生物标志物。随着这些研究的进展,miRNA的各种功能验证体系及分析套路越来越成熟。这时候恰逢高通量测序技术的出现,另一类长度超过200nt的ncRNA,即lncRNA在各种大规模测序中被大量发现。

lncRNA通过多种方式在表观遗传、转录以及转录后水平发挥多种调控作用。lncRNA迅速成为新的明星分子,而层出不穷的报道不断刷新着人们对lncRNA的认识。尽管如此,有关lncRNA参与生长发育、疾病发生发展等过程背后的具体机制大部分仍不为人所知。表面看来miRNA研究似乎受到了冷落,但其实只要翻阅近几年发表的文献,不难发现miRNA研究不仅没有退热,反而有更多全新的发现,令人惊喜的是很多更具“普适性”的规律被揭示出来,比如miRNA的早期加工与甲基化修饰的关系,miRNA早期加工中新的中间产物,miRNA控制蛋白表达的噪音等等。与此同时,miRNA与lncRNA之间也有一条纽带将二者联系起来,那就是ceRNA调控途径,即lncRNA作为海绵,竞争性结合miRNA从而影响miRNA对下游靶点的调控。在很多疾病或表型中,ceRNA调控和lncRNA的其他作用方式,比如染色质层面的表观修饰作用(招募染色质复合体并将其定位,从而改变该区域的染色质修饰状态),转录调控(与转录因子形成复合体,帮助转录因子定位到特定的靶点激活转录)及转录后调控(可变剪接、蛋白翻译及转运等)共同发挥功能。

对大多数人而言,lncRNA才刚刚露出冰山一角,又有新的非编码RNA进入人们的视野,那就是最近ncRNA研究领域的大热门——circRNA。circRNA的发现其实更早,早在20世纪70年代就有发现,但直到在很多高等生物中鉴定到大量circRNA才逐渐被重视。circRNA呈特殊的闭合环状结构,可能阻碍mRNA的翻译、作为蛋白运输的载体、招募蛋白质形成复合体,然而目前报道最多的同样是ceRNA。circRNA研究起步晚,可参考的文献较少,甚至对于绝大多数circRNA序列本身我们都并不清楚(测序只能鉴定到circRNA的back-splicng位点),因此在circRNA领域尚有更多未知有待发现。

众多证据表明,许多疾病的发生,包括癌症、心血管疾病、神经系统疾病及免疫系统疾病都跟以上提到的这些ncRNA失调有关,了解它们的作用机制有助于我们解释疾病发生发展的内在机理。另一方面,ncRNA的表达差异及时空特异性可作为疾病早期诊断及预后的生物标志物,也可以用于疾病的分型从而为病人选择合适的治疗方案,此外也可作为潜在的新型药物靶点,因此对疾病的防治具有重要的意义。

二、生物谷:目前国内外对于非编码RNA的研究还有哪些不足之处?

侯睿博士:非编码RNA研究还处在非常早期的阶段,研究方法的局限和人们认识的片面性是很正常的,要说不足之处我个人主要有三点看法:

1、生物信息学算法有待改进。比如对于lncRNA的高通量测序数据分析,lncRNA各种剪接异构体的区分、定量目前都是不完善的,分析结果中难免存在偏差甚至是错误;在新的lncRNA的预测和鉴定过程中也存在很多假阳性结果需要进一步实验验证。再比如circRNA的定量,因为目前我们只能利用back-splicng位点处的reads对circRNA进行定量,而这些reads出现的概率又比较低,所以定量上往往由于深度不够造成定量不准确。

2、数据库的冗余。对于lncRNA来说目前可用的数据库非常多,比如NCBI,UCSC,Ensembl三大数据库,还有一些专门收录lncRNA的数据库,比如Gencode,lncRNAdb,Noncode,LNCipedia等,这些数据库各自收录的lncRNA序列互相之间存在很多的冗余,但因为各自的编号和命名体系不同,研究人员很难搞清互相之间的关系,查询时也很不方便,对从转录组测序数据中注释这些已知的lncRNA也造成了困难,因此非常需要一个整合的lncRNA数据库。

3、忽视了非编码RNA的细胞定位。拿lncRNA来说,lncRNA调控分为转录水平和转录后水平,ceRNA是发生在胞浆内的转录后调控,所以,决定从ceRNA这一机制入手的时候,往往没有提前证实要研究的lncRNA是否也位于胞浆;同理,当考虑lncRNA的表观修饰作用时,我们也需要证明lncRNA位于细胞核内。

三、生物谷:近年来大热的基因编辑CRISPR/Cas9技术在非编码RNA研究中有着怎样的应用前景?

侯睿博士:利用CRISPR/Cas9敲除miRNA和lncRNA最近已经有不少相关文章发表了。对于基因的敲除来说,一般是利用Cas9核酸内切酶特异切割目标基因组DNA双链,产生DSB(Double-Strand Breaks)损伤,从而诱发DNA损伤修复机制,在修复过程中会随机引入或删除核苷酸对,导致目标基因内核苷酸对的删除或插入,从而形成移码突变,造成目标基因的突变,实现基因敲除。而如果在编码基因的目标外显子的5’侧翼和3’侧翼分别设计一个sgRNA,则可以实现片段式的基因敲除。miRNA的敲除类似于后者,CRISPR/Cas9能够精确找到microRNA前体的5’侧翼和3’侧翼序列,实现microRNA前体序列相对应的基因组区段的彻底敲除。而对于lncRNA来说,任何敲除或干扰都具有更高的挑战性。一方面,对于转录lncRNA的基因来说,小的插入缺失很可能并不会影响转录产物的功能。另一方面, lncRNA跟mRNA在基因组的相对位置上很靠近,这时候敲除lncRNA的同时可能会影响附近基因的表达,或者是附近其它功能元件,比如增强子。而在很多情况下, lncRNA和mRNA两者的序列具有高度的重叠,敲除lncRNA的同时可能就把同一区段的mRNA也敲除掉了。

最近发展起来一种CRISPR干扰(CRISPR interference, CRISPRi)技术,将dCas9(核酸酶活性缺失的Cas9)和KRAB抑制结构域融合在一起,所产生的融合蛋白能够识别基因组上的靶位点,抑制基因表达而无需切割DNA。令人惊讶的是,有研究表明以这种方式沉默基因表达要比永久性地切割基因组具有更好的准确性和更高的效率。CRISPRi主要是在转录水平发挥作用,可以阻碍RNA的转录起始,也可以抑制RNA的延伸,取决于sgRNA设计在promoter附近还是exon上。由于CRISPRi作用于特定的位置,因此可以通过将sgRNA设计在lncRNA的特异性序列上,从而尽可能避免干扰lncRNA的同时影响附近mRNA的表达。当然,由于lncRNA与 mRNA的位置关系太过复杂,一些情况下仍难以单独敲除lncRNA而不影响mRNA表达,比如bidirectional 类型的lncRNA,或者 lncRNA的promoter与其它基因的promoter位置重叠或临近。类似的,如果将dCas9与一些转录激活域融合,则可以激活靶位点的转录,叫做CRISPR激活(CRISPR activation, CRISPRa),利用此技术可以实现对lncRNA的过表达。

总之CRISPR/Cas9技术还在不断进步当中,相信一些难题会逐渐被解决,从而帮助科学家更高效的研究各种ncRNA的功能。

杨竞博士谈差异调控分析工具—DCGL

生物谷:杨博士您好,非常感谢您此次接受生物谷的专访。请您介绍一下,目前对基因表达调控的研究有哪些令人瞩目的进展?这些进展对疾病预测有哪些帮助?

杨竞博士:在转录水平,基因的表达调控是多种多样的,比如转录因子、microRNA、lncRNA均能调控基因表达。这些年,随着高通量测序的长足发展,我们越来越具备能力在全基因组水平研究基因的表达调控。例如,不少科研工作者致力于从差异共表达的角度研究基因表达调控,因为对表达谱的差异共表达分析有可能提示不同表型之间调控关系的改变;相比之下,差异表达是揭示调控关系改变后表达水平信号在全基因组范围内扩散的结果。因此差异共表达分析比差异表达分析更能接近转录水平的调控本质,著名的成果有:Log Ratio of Connectivity (LRC), Average Specific Connectivity (ASC),Weighted Gene Co-expression Network (WGCNA), Differential Co-expression profile (DCp), Differential Co-expression enrichment, ROS-DET, Gene Set Co-expression Analysis等;一些研究者致力于研究复合调控网络,例如,由转录因子、miRNA与它们的调控靶标组成的基因复合调控网络,这种调控网络在一定程度上确定了细胞内的蛋白质面貌,决定了细胞的分化和疾病的发生发展。

无论从何种角度研究基因调控,都是从组学角度研究人类复杂疾病的有效切入点,然后分析不同的元素与复杂疾病发生发展机制的相关性,从而对导致复杂疾病发生发展的基因表达调控机制产生深入认识。

二、生物谷:我们了解到,您自主研发了差异调控分析工具—DCGL,这一工具与其他的分析方法相比,有怎样的优越性?

杨竞博士:DCGL是一款致力于寻找不同状态的样本间(如疾病样本和正常样本)调控机制差异的工具。它主要运用了差异共表达的思想,首先分别挖掘两组样本内各自的共表达关系,这些被鉴定出的共表达关系被认为暗含着基因间的调控关系,然后利用拓扑学方法,设计了两套算法(DCp和DCe)分析两组样本的共表达关系间的差异(即差异共表达),最后利用人类已知的调控因子与靶基因间的关系,注释差异共表达信息从而得到差异调控信息,同时开发了两种对差异调控信息进行重要性排序的方法。

总体而言, DCGL包创新性的开发了包含两种性能优于以往策略的差异共表达分析方法算法,并首次在此基础上研发出基于差异共表达分析结果的差异调控分析方法,这个工具包不仅能鉴定差异共表达基因和基因对、差异调控基因和基因对,还能以差异调控基因对为核心综合展示差异共表达和差异调控信息,并且按照差异共表达特征强弱对转录因子进行重要性排序,是一个方便、高效、高应用价值的工具包。

三、生物谷:您在求学期间的主要研究方向为基因差异调控和不同疾病在基因差异调控水平上的相似性,这些经历对您现在的工作起到了怎样的影响?

杨竞博士:以往的学习经历为现在的工作提供了全新的视角进行疾病病因、发病机制的研究,以及药物的开发和治疗策略的探索。

基因差异调控被认为是在转录水平上导致不同样本间基因差异表达的原因之一,因此,如何从疾病组织和正常组织的表达谱数据中挖掘转录调控机制并比较其间的差异--即差异调控--成为人们迫切想揭示的问题之一。同时,越来越多的研究发现人类疾病不是相互独立的,而是错综复杂的,因此系统、全面研究疾病间的相互关系将能为我们打开了解疾病谱全貌的大门,也能为我们提供全新的视角去研究疾病的发病机制和疾病病因,例如将某个疾病的发病机制信息迁移到与其相似的疾病中,从而开拓相似疾病的发病机制和疾病病因学研究。同时,我们不仅仅能迁移疾病的发病机制等信息,更重要的是指导我们对疾病的治疗策略的迁移,如药物重定位即老药新用等。

杨竞博士

杨竞2015年6月获华东理工大学与中国科学院上海生命科学院联合培养博士学位,共发表第一作者论文6篇,主要研究内容为基因差异调控和不同疾病在基因差异调控水平上的相似性。2015年7月开始在上海慧算生物技术有限公司担任高级工程师。

已完成工作:

发现了单核苷酸多态性的致病性预测与数据集的分类有关,按照氨基酸种类对数据集分类有利于提高预测的准确性;

自主研发了差异调控分析工具—DCGL,利用差异共表达所蕴含的转录调控信息,开发出能进一步分析转录调控方式和对转录因子优先性排序的工具;

利用DCGL工具,分析了一百多种疾病在差异调控机制上的异同,并利用自主研发的分析方法构建了疾病网络,发现疾病间的关系同时受发病组织和疾病种类两个因素影响;

同时将分析疾病网络的分析方法实现为工具包--DSviaDRM,可供研究者免费使用;

另一方面,在基因表达调控的原理上,与合作者共同分析了位点特异性表达,并比较了现有挖掘位点特异性表达方法的优劣。


侯睿博士

侯睿,理学博士。2012年毕业于中国海洋大学遗传学专业,在校期间主要从事基因组学和生物信息学研究。参与多项国家“863”计划项目和自然科学基金项目;发表多篇学术论文;申请技术发明专利1项。目前在上海伯豪生物技术有限公司担任产品线总监和RNA测序产品经理,对高通量基因组学技术的应用及数据分析,尤其是lncRNA、circRNA等非编码RNA的研究,以及单细胞水平的测序技术有丰富的经验。

教育背景

2007-2012 中国海洋大学 遗传学 硕博连读

2003-2007 中国海洋大学(国家生命科学与技术人才培养基地)生物科学 本科

发表论文

[1] Li CL, Li KC, Wu D, Chen Y, Luo H, Zhao JR, Wang SS, Sun MM, Lu YJ, Zhong YQ, Hu XY, Hou R, Zhou BB, Bao L, Xiao HS, Zhang X. Somatosensory neuron types identified by high-coverage single-cell RNA-sequencing and functional heterogeneity. Cell Res 2015, 26(1):83-102.

[2] Jiao W, Fu X, Li J, Li L, Feng L, Lv J, Zhang L, Wang X, Li Y, Hou R, Zhang L, Hu X, Wang S, Bao Z. Large-scale development of gene-associated single-nucleotide polymorphism markers for molluscan population genomic, comparative genomic, and genome-wide association studies. DNA Res 2014, 21(2):183-93.

[3] Sun Y, Hou R, Fu X, Sun C, Wang S, Wang C, Li N, Zhang L, Bao Z. Genome-wide analysis of DNA methylation in five tissues of Zhikong scallop, Chlamys farreri. PLoS One 2014, 9(1):e86232.

[4] Hou R, Yang Z, Li M, Xiao H. Impact of the next-generation sequencing data depth on various biological result inferences. Sci China Life Sci 2013, 56(2):104-9.

[5] Wang S, Hou R, Bao Z, Du H, He Y, Su H, Zhang Y, Fu X, Jiao W, Li Y, Wang S, Hu X. Transcriptome Sequencing of Zhikong Scallop (Chlamys farreri) and Comparative Transcriptomic Analysis with Yesso Scallop (Patinopecten yessoensis). PLoS ONE 2013, 8(5):e63927. (Co-first author)

[6] Zhang L, Hou R, Su H, Hu X, Wang S, Bao Z. Network Analysis of Oyster Transcriptome Revealed a Cascade of Cellular Responses during Recovery after Heat Shock. PLoS ONE 2012, 7(4): e35484.

[7] Hou R, Bao Z, Wang S, Su H, Li Y, Du H, Hu J, Wang S, Hu X. Transcriptome sequencing and de novo analysis for Yesso scallop (Patinopecten yessoensis) using 454 GS FLX. PLoS ONE 2011, 6(6):e21