?? 一、中心成立及定位
?? 一、中心成立及定位 亚星游戏于2
亚星游戏于2016年2月29日成立性命与健全大数据中心,是钻研所三大科研系统之一。中心面向我国人丁健全和社会可持续发展的重大战术需要,萦绕国度精准医学和重要战术生物资源的组学数据,成立海量生物组学大数据汇交、存储与治理的利用与共享平台,发展组学大数据系统整合、挖掘与分析的新技术、新步骤。2019年6月5日,由科技部、财政部批复,“国度基因组科学数据中心”依附亚星游戏性命与健全大数据中心,结合亚星游戏上海性命科学钻研院和亚星游戏生物物理钻研所共同建设。?

? 定位与指标?
二、中心运行机造与组成?
中心主任:鲍一明钻研员?
中心常务副主任:章张钻研员?
中心副主任:赵文化高级工程师?
工作团队:组学原始数据归档库、基因组数据序列库、基因组变异数据库、基因表白数据库、表观基因组数据库、性命科学维基知识库、中国人群参比数据库、电子健全治理系统和系统运维部等九个工作团队

? ?组织与结构?

? 大数据中心集体照?
三、年度重要科研进展?
1. 进一步美满国内从数据汇交存储、整合挖掘到转化利用的数据库系统
国度基因组科学数据中心自2019年6月正式成立以来,在依附单元中科院北京基因组钻研所,和共建单元中科院生物物理所和上海营养健全所前期数据资源建设基础之上,从数据、信息、知识三个档次,系统推动面向人丁健全和重要战术生物资源的生物大数据汇交共享平台和多档次资源系统建设。2019年,国度基因组科学数据中心颁布了基因组变异与表型关联、微生物分类与基因组资源、表观组关联分析、特色物种多维组学信息资源等8个新开发数据库,系统更新了原始测序数据归档库GSA、基因组归档数据库GWH、基因组变异数据库GVM、非编码RNA等15个资源库,并对云分析等4个网络服务工具进行了更新优化。
国度基因组科学数据中心免费向国内表用户提供方便快捷的多组学数据汇交和存储服务,目前,已汇交来自269个单元720个用户递交的超过1.4PB的组学数据,有关数据颁发于144种国内表期刊的237篇文章。GSA已被国际驰名出版商Elsevier收录为指定的基因数据归档库。此表,通过跨库检索大局,中心还整合了13家国内合作科研机构的25个专业特色数据库,极大丰硕了数据资源类型。

国度基因组科学数据中心主题数据资源 (Nucleic Acids Res, 2019)
2. 开发基因组变异与表型关联知识库:GWAS Atlas
全基因组关联分析(GWAS)在全基因组领域内筛选出与表型性状等有关联的遗传位点,是挖掘生物复杂性状遗传基础的关键技术。随着测序技术和分析算法的急剧发展,越来越多GWAS钻研工作被成功发展,并已解析了与很多动植物复杂性状有关联的遗传位点。但这些知识信息都分散在分歧文件中,不利于知识整合、挖掘与再利用。本钻研通过关键词检索、人为审编、词条比对注解等技术伎俩,结构化整顿了现有重要农作物和畜牧动物的基因型-表型关联知识,开发了世界上首个动植物基因组变异-表型关联知识库GWAS Atlas。
GWAS Atlas知识库整合了9个物种(蕴含棉花、梅花、玉米、油菜籽、水稻、高粱、大豆等7种植物和山羊、猪等两种动物)与614个性状关联的75467条基因型-表型(G2P)信息,并通过语义比对蹬壮射到五个分歧的性状本体上(植物性状本体PTO,六畜性状本体ATOL,作物本体CO等),方便用户通过基于本体的层级结构来查找感兴致的性状及对应的G2P关联信息。此表,钻研人员还分析并界说了与多个性状有关联的多效基因及遗传位点,支持用户通过分歧?樵谙咪馈⒓焖饔胂略。
GWAS Atlas 是全基因组变异信息数据库(Genome Variation Map,GVM)的延长,将为将来重要农艺性状的?榛糯暄泻陀掷锰峁┲匾试春推教。该项钻研成就以“GWAS Atlas: a curated resource of genome-wide variant-trait associations in plants and animals”为题在国际学术期刊Nucleic Acids Research在线颁发。

GWAS Atlas主页
3. 表观关联分析数据库系统构建
近年来,表观关联分析(EWAS)已成为索求复杂性状表观遗传基础的有效战术。DNA甲基化芯片数据和元数据的全面整合对于系统地表征和钻研分歧尝试前提下的甲基化状态以及索求与各类性状有关的表观遗传机造拥有底子意思。中心开发了针对EWAS的人为审编知识库EWAS Atlas,以及针对EWAS的DNA甲基化芯片数据存储和分析的数据库EWAS Data Hub,构建了较为齐全的表观遗传数据库系统。
EWAS Atlas是一个齐全基于人为审编和文件挖掘的知识库。当前版本的EWAS Atlas重要关注DNA甲基化这一重要的表观建饰,EWAS Atlas一共整合了618篇文件中1,038个钻研报路的472,268个高质量的甲基化与表型关联。这些关联一共涉及到140个组织/细胞,2,786个队列以及419种表型本体。此表,EWAS Atlas还建设了职能壮大的表型富集工具,用于钻研表型与表型、表型与表观变异的关系。
EWAS Data Hub整合了来自NCBI、TCGA、EBI和ENCODE的75,344个样本的DNA甲基化芯片数据和对应的元信息,并选取了有效的归一化步骤来解除分歧数据集之间的批次效应。EWAS Data Hub为485,512探针和36,397基因,提供了一系列有关的评估值(蕴含组织特异性,春秋有关性,性别差距和种族特异性)和分歧布景下的参考DNA甲基化图谱,涉及81种组织/细胞类型(蕴含25个脑部和25种血细胞类型),67种疾。ㄔ毯39种癌症),春秋,性别,种族和BMI。
表观遗传数据库系统的构建对于系统地表征和钻研分歧尝试前提下的甲基化状态以及索求与各类性状有关的表观遗传机造拥有底子性意思。

表观遗传数据库系统
4. 成立原核生物防御系统基因数据库
原核生物防御系统基因数据库(Prokaryotic Antiviral Defense System, PADS),网络、整合分析6,600,264个防御系统有关基因,这些基因来自古细菌和细菌的33,390个物种的63,701个基因组,分属于18个分歧的防御系统(图1A)。PADS整合了防御基因注解和演化分析职能,同时还通过泛基因组学分析,将防御基因动态变动信息可视化展示。在浏览?橹,所有实现图基因组通过分歧的分类学档次可视化展示。在搜索?橹,用户能够通过四种搜索步骤查问所需信息,重要蕴含防御系统类别、防御系统子类型和基因名等。在分析?橹,PADS集成一套防御系统基因在线交互注解分析流程,综合序列同源性搜索、多序列比对、系统发育分析等职能。另表,基因守旧度是理解防御系统机造的重要特点。为可视化防御系统有关基因跨物种的动态变动,PADS还集成了基因存在缺失变异(Presence–Absence Variation,PAV)分析职能。在PAV分析中,用户能够选择一个感兴致的物种来查看PAV分析了局(图1B)。同时,用户也能够基于泛基因组分析了局,选择一个防御系统来查看防御系统有关基因在物种水平上的动态变动。PADS是一个盛开的防御系统基因综合性数据库,能够有效推进原核生物防御系统钻研并为分子工具开发提供参考信息。

原核生物防御系统基因数据库(A)数据库首页信息 (B)PAV分析热图
5. 研发家犬多组学综合性数据库系统:iDOG
中心与昆明动物钻研所合作,通过整合挖掘公共数据和自产数据,形成集基因组、变异组、表观组、转录组等多组学为一体的综合性组学数据资源库。该项钻研成就以“iDog:an integrated resource for domestic dogs and wild animals”为题在国际学术期刊Nucleic Acids Research在线颁发。iDog是第一个致力于家犬(Canis lupus familiaris)和野生犬科动物的综合性数据资源库,为全世界从事犬科钻研的科研人员提供各类数据服务和在线分析工具,同时也为全世界的养狗爱好者提供家犬种类、疾病等信息查问平台。

家犬多组学数据资源组成
6. 研发生物进化与多组学综合分析软件云平台:eGPSCloud
中心与亚星游戏推算生物学重点尝试室、北京性命科学钻研院等多家单元组成结合攻关团队,合作开发的生物进化与多组学综合分析软件eGPS 1.0正式在线颁布。该项钻研成就以“EGPS 1.0: Comprehensive software for multi-omic and evolutionary analyses”为题于2019年6月18日在线颁发于National Science Review。eGPS1.0网络了生物进化与多组学分析领域的重要软件与可视化工具,为全世界从事生物进化与多组学分析的科研人员提供免费的分析平台。
eGPS软件蕴含单机软件版本eGPS Desktop和云推算eGPS Cloud,将基因组分析、群体数据分析、进化数据分析、网络分析以及图形可视化这五部门的分析有机整合起来,实现远程云推算职能,方便用户在不足推算资源的情况下急剧获得运算了局,并最终以图形、图表等大局直观展示。在eGPS Cloud和其他盛开式在线资源的支持下,eGPS Desktop提供了一键点击从候选基因到基因树的分析流程。egps结合了云推算和桌面利用的优势,拥有效户敦睦的图形界面和高度的交互能。

(A) eGPS Cloud网页界面,共蕴含15个软件以及20个可视化工具。(B) eGPS Desktop软件界面,共蕴含3大类16个职能?,并且支持第三方插件
7. 成功进行第四届国际性命与健全大数据论坛
10月13日至16日,第四届国际性命与健全大数据论坛(The 4th Big Data Forum for Life and Health Sciences)在亚星游戏成功召开。本次论坛依附亚星游戏“国际健全大数据共享打算”,由北京基因组所国度基因组科学数据中心和中国遗传学会结合主办,共有来自国内表数十家单元的200余名代表参与了会议。
与会专家学者萦绕性命与健全大数据盛开共享、精准医学数据分析与利用、海量生物组学数据存储汇交与分析利用系统、表观遗传与生物多样性等主题进行了学术互换与会商。国度基因组科学数据中心主任鲍一明钻研员介绍了中心的成立过程、当前数据库资源和今后发展方向,以及2018年牵头成立的国际生物多样性与健全大数据同盟(BHBD)情况,得到参会人员的宽泛关注和充分注定。

第四届国际性命与健全大数据论坛
8. 建成国内当先的组学大数据存储与推算中心
随着二代测序技术在基因组钻研中的宽泛利用,基因组、转录组、表观组等组学数据以井喷之势发作,性命科学钻研已经进入组学大数据时期。性命与健全大数据中心,在科学院以及大型仪器设备区域共享中心(以下简称“区域中心”)的支持下,不休提高和美满所内的推算能力,已拥有1Gbps总网络带宽,230万亿次/秒的聚合推算能力,建设6.5PB高机能存储系统,累计为中科院内表16家性命科研单元,87个科研机构的提供科学推算服务,均匀每天活跃用户超过500人。中心用于组学数据汇交的存储系统总容量超过4PB,已建设6PB数据归档备份系统,按分级存储、安全可用的准则,通过持续提升基础设施支持能力,实现海量组学大数据的高效治理。

中心服务器运算和存储能力增长趋向图
四、获奖及荣誉
职工
鲍一明钻研员被评为2019年度北京基因组钻研所身边的楷模
李茹姣高级工程师入选2019年度亚星游戏关键技术人才
马利娜副钻研员入选中科院2019年度“青年创新推进会会员”
组学原始数据归档库(GSA)案例被评为“2018年度亚星游戏信息化优良案例”
章张钻研员被评为2018年度北京基因组钻研所身边的楷模
章张钻研员获得2018年中科院BHPB导师奖
郝丽丽副钻研员入选中科院2018年度“青年创新推进会会员”
杜政霖高级工程师入选中科院2018年度“关键技术人才”
中心荣获2017-2018年度中央和国度机关青年文化号
赵文化高级工程师被评为2017年度北京基因组钻研所身边的楷模
宋述慧副钻研员入选中科院2017年度“青年创新推进会会员”
赵文化高级工程师入选亚星游戏2015年度“关键技术人才”
学生
王佩获得2019年钻研生国度奖学金
李兆华获得2019年钻研生国度奖学金
李萌伟获得2019年钻研生国度奖学金
杜强获得2019年中科院大学生奖学金
张源笙获得2019年亚星游戏大学三好学生
时硕获得2019年亚星游戏大学三好学生
王佩获得2019年亚星游戏大学三好学生
李兆华获得2019年亚星游戏大学三好学生
李兆华获得2019年优良团员
曹佳宝获得2018年钻研生国度奖学金
桑健获得2018年钻研生国度奖学金
桑健获得2018年BHPB奖学金
吕洪义获得2017年钻研生国度奖学金
徐行健获得2017年地奥奖学金
盛欣获得2016年钻研生国度奖学金
?