就在日前于北京举行的第六届全国杰出专业技术人才表彰大会上,500米口径球面射电望远镜(FAST)调试运行团队获得先进集体称号。FAST又称为中国天眼,自2020年1月正式运行以来,中国天眼每迈出一步都能吸引全世界的目光。但越来越多的观测数据也令中国天眼发出“呼救”,也就是说中国天眼正面临着“天文级”大数据存储和处理挑战。
“每秒采集的数据量最高可达38GB,每年新增数据量可达到数十PB。”中国科学院国家天文台FAST数据中心组组长黄梦林告诉《中国科学报》。
现在,这一问题随着“中国科学院国家天文台FAST数据中心方案”项目的出现而得以缓解。在前不久于上海举行的2021第六届IDC数字化转型年度盛典上,这一项目获得“未来数字基础架构领军者”大奖。获奖背后是中国天眼两次“牵手”浪潮信息,基于浪潮分布式存储平台构建天文大数据平台。
观测数据源源不断
几十亿光年外的某种光源、在毫秒级别的瞬间、发出超过整个星系的光源——快速射电暴自2007年首次被发现以来,其来源成为天文界探索的目标之一。确定快速射电暴的起源存在的挑战主要在于——其持续时间只有几毫秒,研究人员很难对其定位。
去年11月,中国天文科学家团队观测研究证实,极强磁场中子星(磁星)是快速射电暴的来源之一。这是天文学家第一次观测到位于银河系内的快速射电暴,也是目前唯一被观测验证的可以产生快速射电暴的天体。
这一观测结果正是来自于中国天眼。除此之外,中国天眼还在探索脉冲星、暗物质等方面取得突破性进展。
黄梦林介绍,中国天眼将采集到的原始数据,通过高速网络将数据传输至数据中心进行存储和处理,支撑起相关的科研工作。然而,随着时间推移和科研任务的深入,中国天眼源源不断产生海量观测数据。据统计,FAST每年新增约10PB数据,预计中国天眼未来五年的数据总量将超过100PB,对数据存储平台的容量需求不断增长。
数据的快速积累来源于中国天眼采用的19波束接收机。其将巡天能力和视场扩大数倍的同时,所产生的海量数据给团队带来了巨大的挑战。“观测时,以前每秒钟最多只产生2GB的数据。现在,峰值数据率每秒可以达到38GB。”黄梦林说道。
实际上,中国天眼捕捉到的海量原始数据本身不能立即告诉天文学家哪些是人类未知的天文现象,它需要对数据进行技术处理,使之成为科研工作者“看得懂”的数据,然后科研工作者再根据这些观测数据开展相关的科学研究。
除此之外,“中国天眼数据即使经过十几年甚至几十年也可能有新的发现。所以这些数据是宝贵的,需要长时间保存”。黄梦林说。
再次“牵手”
科研数据作为支撑国家科技创新的战略资源,正在成为科学研究与发现的新型驱动力,是科研领域重要的生产要素。浪潮信息首席架构师叶毓睿认为,科研数据往往具有数据密集型的特点,科研工作者需要利用大量数据的相关性、可取代因果关系和理论与模型,基于数据间的相关性能够获得新知识、新发现。
天文研究是典型的大数据场景,数据存储不仅需要让中国天眼“装得下”数据,更要成为全球科学家天文大数据研究的“加速引擎”。
在接受《中国科学报》采访时,叶毓睿介绍,浪潮存储基于超大规模分布式存储平台,在一个存储平台内部署高性能和高密度两种节点,提供30PB容量、百GB带宽和智能管理,以数据之力助力中国天眼在宇宙未知领域探索中发挥积极作用。
容量大、性能高、易于管理等,这正是中国天眼需要的。
以容量大为例,考虑到中国天眼数据中心的机房空间有限,浪潮分布式存储采用高密度、高容量的设计方案,将机房空间占用率降低30% 。基于智能统一存储管理平台InView ,在数百万个文件的环境下,通过人工智能技术实现存储部署、运维、管理、调优的自动化,保证故障盘90% 以上的预测准确率,实现机房空间的高效利用和便捷运维。
《中国科学报》记者了解到,这已是浪潮存储和中国天眼的“第二次握手”。早在2019年的首次合作中,浪潮存储提供了高性能和高密度两种分布式存储产品。本年度中国天眼存储采购项目中,浪潮存储再次脱颖而出,为中国天眼提供高密度分布式存储。
“现在我们已经扩容至50PB,但容量还是有点小。”黄梦林向记者透露:“可能未来考虑使用冷存储。”
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。