北京基因组所(国家生物信息中心)马利娜等应邀在Nature Reviews Molecular Cell Biology揭晓长非编码RNA数据库评述文章
克日,GA黄金甲(国家生物信息中心)马利娜副研究员应Nature Reviews Molecular Cell Biology 约请,团结章张研究员,揭晓题为“The contribution of databases towards understanding the universe of long non-coding RNAs”的评述,系统总结了长非编码RNA(long non-coding RNA,lncRNA)数据库的类型及特点,讨论生物数据库在lncRNA研究的机缘和挑战中将怎样施展作用。
LncRNA是一类长度凌驾200个核苷酸的RNA分子,没有卵白编码能力或卵白编码能力有限。LncRNA普遍保存于动植物中,其在人类中的数目甚至凌驾了卵白编码基因,在疾病、稳态平衡、应激反应中施展至关主要的调理作用。随着lncRNA的普遍研究和相关组学数据的迅速积累,愈发需要周全网络lncRNA并提供高质量注释,以及周全相识lncRNA与种种疾病、性状和表型的关联,增进对lncRNA功效的系统研究。近年来,lncRNA相关数据库一直生长壮大,阻止本评述文章撰写之时,作者网络了130余个lncRNA专题或以lncRNA为主要研究工具的生物数据库,划分为“判断与整合”、“组学特征剖析”、“知识关联”三个主要类型。
“判断与整合”类型的数据库为研究lncRNA的多样性和生物学功效提供最为基础的序列和基因组注释信息,包括GENCODE、CHESS、FANTOM CAT、MiTranscriptome、NONCODE、LncBook、RNAcentral等数据库。其中人类lncRNA的判断和数据整合是研究重点,海内外已有10余个相关数据库。由于判断标准、测序计划、样本的差别, lncRNA数据集之间保存较大差别,并且随着差别物种中lncRNA的大规模判断,lncRNA的较量与整合将成为基因组学研究中的基础环节,迫切需要构建流程化和自动化的整合工具,以为各项研究提供周全和高质量的lncRNA数据集。
另一方面,lncRNA被称为基因组中的“暗物质”,大部分lncRNA具有生物学功效照旧仅为“转录噪音”仍是一个保存争议的话题。“组学特征剖析”数据库提供富厚多样的分子特征如动态表达、相互作用、基因组变异、表观遗传修饰、编码小肽、表达数目性状基因座等,为掘客具有潜在生物学功效的lncRNA并相识其调控机制提供数据参考。代表数据库包括TANRIC、LncExpDB、starBase/ENCORI、NPInter、DIANA-LncBase、LncBook、LncSEA等。鉴于现在仅有极小一部分lncRNA的功效被研究,且其主要调控机制尚不清晰,仍需对lncRNA的组学特征举行系统深入的描绘与剖析。
随着越来越多的lncRNA被实验研究,lncRNA相关知识逐渐积累,爆发了LncRNADisease、Lnc2Cancer、LncRNAWiki、EVLncRNAs等数据库或知识库。这些库主要通过文献审编获得lncRNA与差别疾病、性状和表型的关联,注释相关调控机制、靶基因、代谢通路、生物学历程等,增进对lncRNA功效的辖档退解,并为lncRNA生物学功效展望提供数据。然而由于标准不统一、命名不规范等, lncRNA的名称、基因结构、编码性子保存差别版本和转变,严重阻碍了lncRNA的数据审编和功效研究K剂康絣ncRNA与部分信使RNA(mRNA)具有相似的分子特征,并且一个基因可能同时编码卵白编码和非编码转录本,在基因层面举行严酷分类将会引发lncRNA功效研究的诸多问题,有须要生长新的基因分类和命名要领。
LncRNA是继mRNA后的另一大类RNA分子,调控人类康健与疾病,是未来临床检测治疗和药物研发的新靶点,是人类物种特征研究的要害工具。然而其数目重大、种类重大、功效多样,以及普遍特异性强、表达量低的特征,为深入研究带来极大挑战。数据库在数据审编与挖掘方面,需建设统一的lncRNA判断、表征和关联研究的标准和要领,以构建完整的lncRNA研究系统。国家生物信息中心将一连完善lncRNA数据资源系统,推感人类基因组的周全注释息争析。
文章链接