记者从北京基因组研究所得悉,该所下属的生命与健康大数据中心围绕国家精准医学和重要战略生物资源的组学数据,建立了海量生物组学大数据储存、整合与挖掘分析研究体系。
什么是组学?大数据中心研究员章张介绍,这是将基因、蛋白质及代谢物等生物分子以整体为单位进行系统性的研究,基因组学、转录组学、蛋白质组学和代谢物组学等相应产生。相较于此前以个体为单位的研究,组学最主要的特征就是大数据。
随着测序技术的发展,生命科学领域进入组学时代,海量的数据产出成为常态。搭建组学数据库,实现海量信息的存储、整合及共享成为一项重要任务。此前,在国际上被认可的生物组学数据中心主要有美国的NCBI、欧洲的EBI及日本的DDBJ。要想在国际期刊发表论文,需要先将自己的原始数据提交到这三个数据库中。
章张说,这种情况看似有利于国际科学数据的资源整合与共享,实际上对我国的科学研究发展带来了很大影响,不仅数据提交时效率低,在数据下载时更有各种限制。
大数据中心高级工程师赵文明告诉记者,《美国国家科学院院刊》《细胞研究》等多个国际期刊已经认可把数据提交到北京基因组研究所生命与健康大数据中心,标志着我国建设综合性基因组数据资源获得国际同行认可。
据了解,目前的数据资源系统包括高通量测序的原始组学数据归档库,围绕国家重要战略生物资源的基因组数据库,基于测序数据的基因表达数据库,基于中国人群以及国家重要物种群体的基因组变异数据库,基于全基因组DNA甲基化图谱的表观基因组数据库,以及基于大众审编的生命科学维基知识库。