“这就是课题组的全部研究成果。”一位前辈科学家打开他的抽屉,里面塞满了移动硬盘。这让徐姚晨很是惊讶。
将数据中心藏在抽屉里,显然存在安全风险,至少应该进行异地备份。
而且,如此“分散堆放”的存储介质,也不利于后续在线的研究分析。
从抽屉里的数据中心开始
这是15年前的“故事”。徐姚晨现任中科院分子细胞科学卓越创新中心信息建设与运维部主管,他所在的研究所更是大有来头。
中科院生化与细胞所是中国
领域最具科研实力、最具影响力的国立研究机构之一,曾成功破解牛胰岛素拆分、合成的科学难题。这也可能是新中国成立后最早接近诺奖的一项研究成果。
虽然55年前,中国的前辈科学家仅依靠分液漏斗、三颈反应瓶,就可人工合成牛胰岛素,但如今,“抽屉里的数据中心”已经开始制约后辈科学家的工作效率。
“2006年,上海
研究院(2016年,上海
研究院从中科院生化与细胞所独立)建立了第一套300GB的存储系统。这已经是当时
领域较先进的存储系统。”徐姚晨回忆当时的起步略有感慨。
现在来看,300GB的存储容量确实小了一些,主流笔记本的硬盘配置也不止如此。甚至1TB移动硬盘的价格,还不到300元。但300GB的存储就是研究所“平台思维”的开始。
一花一世界
“目前,研究所数据中心的容量已经达到10PB,而且几乎全部采用浪潮的设备。”徐姚晨将话锋跳至10余年后。而从GB到PB不仅是两个数量级的差异,更代表了IT技术与
的深度融合。
2010年是一个重要时间节点,生物科学的试验手段和试验设备在此后均出现大规模更新换代。与此同时,需要采集的研究数据也呈现爆发式增长。
而这背后,更隐含着对存储空间、I/O性能、高并发性能的更高诉求,以及设备管理、子系统管理、数据管理等诸多问题。
所谓一花一世界,大致就可描述科学家对细胞的研究。因为显微成像、基因组学、蛋白质组学检测,均会产生海量数据。
而中科院生化与细胞所正是基于对上述课题的研究,决定进行数据存储设备采购,以数字化技术提升为细胞研究提速。
数据存储也必须分层
问题也由此而来。
中科院生化与细胞所下设数十个实验室,研究方向涵盖基因调控、RNA、表观遗传学,蛋白质科学,细胞信号转导,细胞与干细胞生物学,癌症和其他重大疾病机理等5大前沿领域。
研究所的存储平台达到峰值时,需同时支撑超过70个课题组、1000多名用户。而且,课题组的研究方向不一样,试验手段不一样,产生的数据类型也不一样,调用和分析数据的方法更不一样。
“科学家对计算和存储一直十分挑剔。”徐姚晨开始解释他的工作。可以想象,科学家经过几天不眠不休,将小鼠数字化,而一旦数据丢失,所有的研究成果都将付诸东流。“所以,我们的工作就是让科学家安心科研。”
经过与浪潮解决方案专家的联合研究,一套涵盖计算、网络、存储、大数据、虚拟化、安全、备份等多种IT设备,可服务数据全生命周期的存储解决方案,已经部署于中科院细胞所。而且,此解决方案已经实现了“分层”,即特定的需求黏性联接特定的产品。这样冷、热数据可以分层存储使用,系统效率大幅度提升。
对需求的理解会说话
其实,浪潮一直与国内多家高校和研究所保持着紧密的合作。这也使其有机会接触到更前沿的应用需求,研制出更具创新价值的产品功能。
基于与复旦大学在脑科学领域的合作,浪潮形成了“软拷贝”技术;基于与清华大学在RUSH脑成像领域的合作,浪潮存储提供了成熟的“回收站”技术。此外,浪潮在存储领域首创的零拷贝、闪搜索等技术,也都源自于科研院所的合作。
回到中科院生化与细胞所的应用,IT系统正在成为研究所之“胆”。浪潮存储为细胞研究配置了业界首创的文件系统级别的回收站功能,防止多人操作同一源数据时重要文件误删除。同时通过纠删码+副本的方式,进一步为数据提供保护。
而在数据保护方面,浪潮存储为中科院细胞所提供了备份软件、浪潮磁带库相结合的数据备份方案,采用LAN FREE和LAN备份方式实现集中、统一、快速、自动的数据备份,降低数据丢失风险。
也正是基于上述解决方案和合作,“动物复杂性状的进化解析与调控”等一批重点科研项目得以顺利进行。“这些项目,正是科学家原本在计算与存储方面不敢做、也做不动的课题。”徐姚晨最后说。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。