2015, 10(5): 1-14
doi: 10.15978/j.cnki.1673-5668.201505001
International Development Trend of Non-Coding RNA
李祯祺, 苏燕, 许丽, 王玥, 徐萍, 于建荣*,
中国科学院上海生命科学信息中心 上海 200031;
Li Zhenqi, Su Yan, Xu Li, Wang Yue, Xu Ping, Yu Jianrong*,
Shanghai Information Center for Life Sciences, Shanghai Institutes for Biological Sciences, Chinese Academy of Sciences, Shanghai 200031, China;
Li Zhenqi, Su Yan, Xu Li, Wang Yue, Xu Ping, Yu Jianrong. International Development Trend of Non-Coding RNA. SCIENCE FOCUS[J], 2015, 10(5): 1-14


进入21世纪以来,随着人类基因组计划的完成,非编码核糖核酸研究逐渐成为生命科学领域的研究热点。该文以Web of Science数据库为数据源,以Thomson Data Analyzer软件为工具,通过对非编码RNA相关文献进行分析,梳理该学科的发展历程与重点方向,为中国在该领域的发展提供参考。

关键词: 非编码RNA ; 文献计量学 ; 长非编码RNA ; 微RNA ; 发展态势

Key words: non-coding RNA ; bibliometrics ; long non-coding RNA ; microRNA ; development trend
1 引言

非编码RNA(Non-coding RNA,ncRNA)是指不编码蛋白质的RNA,从长度上可以分为小于50 nt11 nt即核苷酸(nucleotide)。)、50 nt~500 nt、大于500 nt三种类型。狭义上的非编码RNA主要是指不包括信使RNA(message RNA,mRNA)、转运RNA(transfer RNA,tRNA)和核糖体RNA(ribosomal RNA,rRNA)的其他RNA分子。而广义上的非编码RNA还包括细胞中含量最高的、获得较为透彻研究的两种常见ncRNA——rRNA与tRNA。

非编码RNA的研究始于最初的rRNA、tRNA、小核RNA(small nuclear RNA,snRNA)和小核仁RNA(small nucleolar RNA,snoRNA),逐渐发展到后来的微RNA(microRNA,miRNA)、小干扰RNA(small interfering RNA,siRNA)及与Piwi蛋白相互作用的RNA(Piwi-interacting RNA,piRNA),再到长链非编码RNA(long non-coding RNA,lncRNA)与环状RNA(circular RNA,circRNA)等。这些种类繁多、长短各异、功能多样的非编码 RNA被认为是基因组的“暗物质”[1],对其最终的认识和理解将对整个生命科学的发展产生难以估量的影响。

自1990年以来,随着基因组研究的不断开展与测序能力的持续提升,海量而又繁杂的基因组序列数据提示我们,编码蛋白质的DNA区域在人类基因组中的比例少于3%,而非编码序列虽然不能够编译蛋白质与多肽,但能够以非编码RNA的形式进行表达[2]。这些发现引起了研究人员的关注,相关研究发展迅速,尤其近10年,非编码RNA研究取得了一系列突破性成果,已经成为生命科学领域的热点之一。自2000年起,非编码RNA的相关研究内容连续多次入选Science杂志年度10大科学突破:2000年的“地球上的生命可能起源于RNA”、2001年的基因沉默和RNA干扰(RNA interference,RNAi)、2002年的小RNA(small RNA)与RNAi的研究成果连续列入当年Science 10大突破;2003年,科学家从早期的基因表达到发育过程进一步探索小RNA对细胞行为的影响;2004年,研究人员证实基因组中的所谓“垃圾DNA”作用要比原先认为的更重要,而这些“垃圾DNA”的产物便是非编码RNA;2006年,科学家们发现一类新的非编码RNA分子piRNA能够与Piwi蛋白家族成员相结合,参与生殖细胞生长发育过程中的调控;2012年,耗时9年的ENCODE项目研究成果表明,人类对于非编码RNA调控基因功能网络产生进一步认识;2013年,CRISPR成为炙手可热的基因组编辑技术,而发挥RNA介导的DNA切割作用所必不可少的辅助因子——CRISPR RNA(crRNA)与反式激活嵌合RNA(trans-activating chimeric RNA,tracrRNA)——均为非编码RNA。此外,两名美国科学家Andrew Z Fire和Craig Mello因证实了siRNA所引起的RNA干扰机制而荣获2006年度的诺贝尔生理学或医学奖[3]

研究已经表明,非编码 RNA 发挥了非常重要的生物学功能,参与了胚胎发育、干细胞维持、细胞分化、代谢、信号转导、免疫应答、癌症、衰老等几乎所有生理或病理过程的基因表达调控[4]。非编码RNA也与重大疾病(如癌症、心血管疾病)、神经退行性疾病(如阿尔茨海默病、帕金森病)和慢性病(如糖尿病、高血压)等疾病的发生有关,很多非编码RNA可作为药物治疗的潜在靶点。除此之外,由非编码RNA介导的RNAi技术与基因组编辑技术的“金剪刀”CRISPR能够从基因沉默和基因组改造的角度对生物医学的发展作出重大贡献。非编码RNA研究既是生命科学的重要基础前沿,也是促进技术开发和实际应用的典型范例。

2 数据来源与分析方法

文献部分利用Web of Science数据库,以所有已知的非编码RNA种类名称及其缩写形式作为关键词,检索SCI收录的生命科学相关学科分类文章,检索日期为2015年5月18日,文献类型选择Article和Review。采用此途径共检索获得相关文献115 935篇,2005–2014年文献89 487篇。

利用Thomson Data Analyzer(TDA)软件对检索的文献进行字段清洗与内容梳理,对年度、国家/地区、机构、关键词与被引频次等主要指标进行统计分析。利用CiteSpace软件,通过考察词频,将某段时间内频次变化率高的突发词(burst term)从近年来大量的主题词中探测出来,进行引用与聚类分析,形成时间轴与词云(word cloud),用以说明学科的发展历程及前沿热点。

3 非编码RNA学科发展态势



3.1 国际发展态势





1990年代初期,科研人员在真核生物及古细菌中发现大量的snoRNA,构成了不断扩大的“snoRNA世界”[11]。这类小型的非编码RNA分子主要包括C/D box、 H/ACA box、复合H/ACA与C/D box以及孤儿snoRNA等类别,能够引导rRNA或其他RNA的化学修饰(如甲基化)作用[12]

1993年,Lee等在秀丽隐杆线虫(Caenorhabditis elegan)中发现了第一个能时序调控胚胎后期发育的基因lin-4[13]。时隔7 年,Reinhart 等在秀丽隐杆线虫中又发现了一个异时性开关基因let-7[14],并将这类基因所编码的能时序调控发育进程的小分子RNA称之为时序调节小RNA(small temporal RNA,stRNA)。随着技术的进步,越来越多的此类小RNA在多个物种中被发现。2001年,Science刊文报道在线虫、果蝇和人的cDNA文库中鉴定出近百个与上述发现类似的小分子RNA,并将其统一命名为microRNA[15,16,17]。这也是RNA领域研究的重要里程碑事件。miRNA通过与目标mRNA结合,进而抑制转录后的基因表达,在调控基因表达、细胞周期、生物体发育时序、疾病发生发展等方面起重要作用,具有极其重要的生物学功能与意义。

RNA干扰现象是1990年由Jorgensen研究小组在研究查尔酮合成酶对花青素合成速度的影响时发现的[18]。1992年,Romano和Macino在粗糙链孢霉中发现这样一个事实——外源导入基因能够抑制具有同源序列的内源基因的表达[19]。1995年,Guo和Kemphues在线虫中也发现了RNA干扰现象[20]。经过上述研究的铺垫,Fire等于1998年在Caenorhabditis elegan中发现,加入siRNA能够产生比正义或反义RNA更强的基因表达抑制效果,并将这种现象正式命名为RNAi[3]。由于RNAi在基因沉默方面的简易高效,所以成为了基因功能研究的重要工具,并在药物靶标发现、确认以及疾病治疗方面获得了广泛应用。




2006年7月,Aravin等发现了piRNA的存在[21]。随后,Girard等也检测到了这种非编码RNA[22],并发现它们与生殖细胞发育密切相关。诸多研究表明,数以百万计的piRNA序列存在于生殖细胞之中,其数目远远超过其他非编码RNA总和。因此,piRNA肩负着在生殖细胞发育中调控基因表达的重要任务。它可以与Piwi蛋白结合形成piRNA复合物(piRNA complexes,piRCs),具备沉默转录基因过程、维持生殖系和干细胞功能、调节mRNA的稳定性等生物学功能。

与此同时,在小RNA研究的启示与新型技术的助力下,lncRNA也由于其与人类疾病具有密切联系,逐渐引起了人们的浓厚兴趣。尽管具有基因特异性调控作用的lncRNA(如H19和Xist)在1990年代早期就已经被发现,但随着2005年“转录噪声”观点的普及[23],lncRNA的研究才逐渐引起人们的重视。1990年,Brannan等在哺乳动物的细胞中鉴定出首个lncRNA(H19),并发现其与癌症及胎儿生长有关[24]。随后,Brockdorff等也发现Xist能够关闭第二个雌性X染色体,以确保基因的正确活性[25]。此后,多种lncRNA如雨后春笋般不断涌现在人们面前。它们主要分为[26]:(i)相对独立的不与编码基因重叠的 RNA,如MALAT1[27]和HOTAIR[28];(ii)天然反义转录本,如Xist和Tsix共同控制 X 染色体的失活[29];(iii)假基因;(iv)长的内含子区非编码 RNA,如 COLDAIR[30];(v)与启动子联系的转录本或增强子 RNA,如 pasRNAs[31]和 eRNAs[32]。lncRNA不仅能够调控基因转录及表达、调控基础转录元件,还可以参与转录后的剪接调控、翻译调控以及基因调控,此外还在表观遗传调控中起着重要作用。随着研究的不断深入,科研人员发现大多数lncRNA在癌症和其他重大疾病中的表达,因此它具备作为诊疗生物标记物和药物靶点的巨大潜力,这带动了lncRNA研究热潮的迅速兴起。


3.2 我国发展情况




3.3 国家/机构水平

从全球在该领域的发文数量分布(表1)可以看出,由于美国在非编码RNA领域的研究起步较早,且资助力度很大,因此占据领军地位,论文产出远超其他各国。最近10年我国在发文数量上为美国的一半左右,排名第二位。根据近10年的数据变化,可以发现虽然英国与法国等RNA研究传统强国起步较早,但近年来已经被韩国赶超。这与韩国的相关政策倾斜密不可分,如韩国先后开展了基因组分析项目、国家生物样本库项目与后基因组计划等大型项目。日本近10年发表的非编码RNA领域的文章数量已经超过德国,同样与哺乳动物基因组功能注释(Functional Annotation of the Mammalian genome,FANTOM)等大型计划的开展有关。


综合论文的发表数量、篇均被引频次和h指数22 h指数是指每篇论文至少被引了h次的h篇文章。)能够衡量不同机构的科研竞争力与学术影响力。综观近10年的学术影响力指标(图3)可以发现,中国科学院在发文数量(2 181篇)上已经跃升至全球首位,上海交通大学也出现在非编码RNA研究领域的TOP10机构榜单之上。哈佛大学近10年的高质量研究较多,h指数达到135。在发文数量上处于同一数量级的俄罗斯科学院(981篇)、霍华德休斯医学研究院(969篇)和上海交通大学(966篇)在文章影响力上有很大差异,霍华德休斯医学研究院的篇均被引频次高达69.45,而俄罗斯科学院和上海交通大学此项指标分别为10.04和13.69。


自我国开展ncRNA研究以来,综合考量国内研究机构的学术影响力(表2)能够看出,中国科学院的发文数量(2 414篇)领先于其他国内机构,h指数(72)同样排名首位。这说明中国科学院不仅发文数量较多,而且其中不乏高影响力的论文。香港大学的发文数量(425篇)虽然仅有中国科学院的五分之一左右,但h指数(48)和篇均被引频次(22.09)分别列第2名和第1名,说明香港大学在此领域的学术影响力相对较高。中山大学(h指数53,篇均被引频次15.81)、复旦大学(h指数44,篇均被引频次14.14)和中国医学科学院(h指数40,篇均被引频次15.53)在学术影响力方面表现突出。

1991–2014年中国ncRNA相关论文数量排名前10机构 (以论文数量排序)

3.4 学科前沿热点



根据该领域热点词的频率分布,发现非编码RNA 研究热点大致可以分为以下几类:(i)非编码RNA及其相关基因的识别与鉴定,如RNA基因(rna genes)、微RNA基因(mirna genes)与微RNA表达(mirna expression)等;(ii)非编码RNA的结构与功能,如生物学功能(biological function)、功能作用(function role)和生物学过程(biological process)等;(iii)非编码RNA的表观遗传调控,如DNA甲基化(dna methylation)、表观遗传修饰(epigenetic modification)与表观遗传机制(epigenetic mechanism)等;(iv)非编码RNA与疾病关联,如人类疾病(human disease)、癌症病程(cancer progression)和癌症疗法(cancer therapy)等;(v)非编码RNA资源,如小RNA(small rnas)、长非编码RNA(long non-coding rnas)和小干扰RNA(small interference rnas)等;(vi)非编码RNA相关技术及其应用,如RNA干扰(rna interference)、治疗靶标(therapeutic targets)和潜在生物标志物(potential biomarkers)等。




3.5 前沿热点进展



miRNA在动物的生长、发育中起着重要作用。2011年,Kim等在研究中发现了基于一种miRNA预测人类多能干细胞(hPSCs)向神经细胞分化命运的方法,证明miR-371-3有可能在人类多能干细胞神经性分化行为过程中发挥了关键性的作用,这为预测及控制多能干细胞神经分化命运提供了一个有潜力的作用因子[40]。随后,Colas等发现microRNA是胚胎发育时细胞命运的有力调控者[41]。Boon等发现miR-34a的表达与衰老诱导有关,并通过调控心脏的衰老过程,将miRNA、衰老和心脏功能联系在了一起[42]。以美国辛辛那提儿童医院为首的诸多机构通过研究发现,抑制LET-7这种小RNA发挥作用,可以让大脑神经元维持在“年轻”的状态[43,44]。Chen等破译了小鼠体内的一个“切换开关”——miR-155,发现其可以显著促进脂肪燃烧[45]。Pedersen等揭示了线虫中miR-79 调控神经发育的机制,研究显示其功能失常会造成线虫神经系统缺陷[46]。Tan等证实miR-128是神经细胞兴奋性和运动活性的最强调节物之一,而且是通过调节一种神经元信号途径来发挥作用的[47]。Zhang等通过实验证实在肌肉分化过程中,miR-1直接增强了线粒体基因的表达[48]

miRNA不仅能够调控动物的生长发育,对于植物的开花、抗逆、增产等方面也有着重要的影响。曹晓风等通过对负责加工产生小分子RNA的酶OsDCL3a的研究,揭示依赖OsDCL3a的24-nt小分子RNA主要通过调控转座子旁临基因的表达进而对水稻重要农艺性状精细调控[49]。王佳伟等揭示了miRNA调控多年生草本植物弯曲碎米芥(Cardamine flexuosa)成花诱导的分子机理[50]。Zhang等发现,microRNA OsmiR397过表达能够增加谷粒的大小,促进圆锥花序分枝,从而提高水稻的产量[51]。Robert 等发现植物要生成生殖细胞,必须首先删除附着在全基因组 DNA 上的一系列表观遗传标记,导致新形成的生殖细胞置于遭受遗传损害的巨大危险之下,而miRNA通过将转座子维持在失活状态以规避这种风险[52]

除此之外,人们更为关注的是miRNA与疾病/发病机制之间的紧密联系。Li等报道了miR-196b在混合性白血病中的新作用,指出了miRNA在肿瘤发生过程中的重要功能及其复杂的调控机制[53]。Wang等发现了miR-122在乙肝病毒复制以及持续感染途经中的新调控作用,为进一步了解HBV病毒的持续感染机制和肝癌发生途径提供了新的依据和阐释[54]。Dvinge等发文称人体自身免疫系统对抗乳腺癌是由小分子RNA控制,而后者对不同乳腺癌亚型的影响是不一样的[55]。Hasuwa等发现没有特殊类型小RNA的小鼠不会排卵,这一发现可能有一天会指导对人类不孕症的治疗[56]。Kornfeld等发现miR-802与胰岛素耐受性相关,该发现或为开发2型糖尿病新疗法提供思路[57]。Delorme-Axford发现胎盘microRNA能够保护胎儿不受病毒感染[58]。Xu等证实存在一种从前未知的TXNIP/miR-204/MAFA信号通路,其下调了胰岛素生成,推动了糖尿病的发生[59]。Peng等发现,肺癌中的microRNA-486是一种强效的抑癌分子,有助于调节肺癌细胞的增殖和迁移,并且诱导这些癌细胞程序性细胞死亡或细胞凋亡[60]。Chivukula等发现一个被认为在抑制结肠癌中起重要作用的 miRNA 簇——miR-143/145对肠伤口愈合至关重要[61]

基于miRNA的重要性,研究人员对其检测方法、疾病治疗等应用型研究也颇为关注。Sundaram等鉴定出miR-198能够控制皮肤细胞转移,这是伤口愈合所必需的,因此其将成为开发减少或预防慢性伤口的新方法的关键[62]。Langlois提出了一种miRNA标靶技术,为流感病毒研究加设安全措施,以降低人类因接触实验室病毒而受感染的风险[63]。Hindson等证明液滴数字PCR(Droplet Digital PCR,ddPCR)技术在不同情况下可被用于准确、可重复性的血浆和血清 miRNA量化检测,从而为 miRNA 及其他核酸用于循环生物标志物的应用铺垫了道路[64]。Schirle等描绘出了miRNA在原子水平的运作,大大增进了人们对于生物学中基本调控系统的认识,并加速开发出一些利用其能力的新疗法[65]。Schultz等已经在全血中发现了诊断性的微 RNA 检测指标组,通过它们能够在一定程度上对病患是否患有胰腺癌进行甄别[66,67]。Slack等发现了一种新型的传送平台,利用肿瘤微环境的独特特性,让类似于miRNA镜像的反义分子进入到癌细胞中,形成了一种以miRNA为基础的抗癌药物以及靶向性药物传递的开发新模式[68]


lncRNA在动植物的生长、发育及分子调控过程中均起着非常重要的作用。lncRNA通过表达作用、结合蛋白质因子及调节染色质结构,可以参与增强子功能。Orom等特别对此方面的进展做出综述[69]。Lai也详细描述了长链非编码RNA激活子促进基因表达的机制,这些非编码RNA激活子(non-coding RNA-activators,ncRNA-a)在胚胎发育早期过程中对某些基因开关起至关重要的作用[70]。Klattenhoff等发现一种新型lncRNA——Braveheart(Bvht)——在哺乳动物发育过程与心血管发育谱系维持方面扮演了重要角色[71]。Sun等发现了一种反义长链非编码核糖核酸COOLAIR能够影响植物的开花时间[72]。Wang等发现了lincRNA-RoR在胚胎干细胞和iPS自我更新调控环路中起到关键作用,并由此指出了一种调控胚胎干细胞维持和分化的反馈环路[73,74]。Xue等发现生物钟同样受到lncRNA分子的调控[75]。曹雪涛等发现一种名为lnc-DC的lncRNA能够控制人类树突状细胞的分化[76]

与miRNA类似,lncRNA和诸多人类疾病密切相关,并可以作为相应的药物靶点。Ramos等发现一种lncRNA在大脑发育中发挥了重要的作用,并有可能与几种毁灭性的神经系统疾病相关[77]。Yang等揭示了两种 lncRNAs可以阻止由于雄激素受体突变导致抵抗激素疗法的前列腺癌细胞的生长[78]。Nakagawa等发现一个lncRNA在某些情况下可能对于生育起着至关重要的作用[79]。Li等发现,在病原体入侵机体时,处在“激活”状态的巨噬细胞会生成一种含有lincRNA的新型复合体。这一复合体参与了免疫应答的调控,并且与川崎病(Kawasaki disease)有关[80]。Trimarchi等利用先进的遗传扫描技术鉴别出了6 023种长链非编码RNA,采用化学方法阻断其中LUNAR1的作用,可以遏制白血病的进展,该lncRNA可能成为治疗这种疾病的新型药物靶点[81]。Han等发现了一个此前未知的心脏lncRNA分子,其有可能是治疗和预防心力衰竭的关键[82]。Yang等揭示了lncRNA 通过调控肿瘤细胞瓦伯格效应(Warburg effect)促进肿瘤生长的作用机制[83]

IncRNA与基因组和染色体的三维结构有着重要联系,并能与其中的特异位点结合,展开调控等作用。Pennisi发现lncRNA可能改变染色体的三维结构[84]。Engreitz等阐明了利用lncRNA分子在三维基因组结构中所处的位置来追踪到靶基因的机制[85]。Dimond等发现哺乳动物基因组的三维空间立体结构能够帮助Xist RNA与其作用位点结合,促使基因表达沉默[86]。Simon等通过CHART-seq的方法,绘制了一个高精度的横跨整个发育过程的X染色体上Xist结合图谱,证实了Xist扩展是在特定阶段采取不同扩展形式的方式[87]

4 建议


4.1 加强战略部署,纳入重点计划



4.2 发展领域优势,补强技术短板


4.3 立足基础研究,开展转化医学研究


4.4 建设数据平台,推动开放共享




Related articles(if any):