|
|
让数据沉淀的人 |
——记成思危优秀科研成果奖得主石勇 |
做数据挖掘的人,会和医学期刊扯上什么关系?
今年4月,一项关于疫情变化与复工复产的研究登上了医学期刊《柳叶刀》子刊EClinicalMedicine。作者将不同年龄人群划为7类,刻画了他们在家庭、学校、工作场合等情景下的接触模式,并据此分析出新冠病毒如何传播,用数量方法给出了多种疫情期间复工复产的模型。
领衔这项研究的作者之一,正是中科院虚拟经济与数据科学研究中心(下称中心)主任石勇。
石勇等人最先以武汉的城市模型为例,分析不同社交情景的接触模式后,他们发现早期新冠病毒的传播更多发生在家庭和公共场合,并据此推测2020年2月11日是当地传播风险最高的日子,这一推测与后续报告的病例数高峰(2月4日-14日)相吻合。
“我们在2月7日做出了首个疫情防控复工复产的模型,武汉。文章投稿后3天就被接收了”。石勇告诉《中国科学报》。
“数据模型是有生命力的,数据挖掘的结果是粗糙知识,进一步过滤叫智能知识,智能知识的发现比数据挖掘的结果更重要。”对石勇而言,大数据挖掘的意义在于让各方面的工作更好地推进。在他的团队,跨学科、跨行业的研究比比皆是。
而这些成果,恰恰源于多年的积累与沉淀。
迅速出成果的秘诀
采访中,石勇谈到,传统的传染病模型预测相对固定,将之与大数据结合、演算,就能发现病毒传播的端倪,并据此预测潜在风险。上述研究中,石勇所在的数据挖掘团队与来自上海和香港的传染病研究者合作,并在疫情早期就开始设想复工复产需要具备的条件。
完成武汉的城市模型后,团队又选取了北京,天津,杭州,苏州和深圳5个城市,根据各城经济发展的预期值进行实证分析,模拟出不同城市疫情防控强度与复工复产方案间的利弊关系。
结果显示,利用不同模型,决策者可根据当地防控工作和复工计划预测出相应疾病传播风险,得到城市长期经济发展的基本判断,为疫情防控与科学决策提供了有力支撑。
回看这项研究,石勇等人之所以能在疫情早期迅速发布相关研究模型,有赖于长期与合作伙伴保持的密切联络。
“我们可以把很多学科在短时间内集合到一起”,石勇坦言,这也是中心的使命——中心作为交叉学科单位,招生范围包括计算机、管理、数学、生物医学等专业——“只要把这些学生匹配起来,可以发挥很大的科研能动性。”
沉淀自己,也沉淀数据
石勇团队的研究生张林姿告诉《中国科学报》,由于疫情,在无法与国内合作者面对面交流的情况下,石勇每天会专门留出几小时用于交流工作、推动进展。
为了给疫情防控和复工复产提供科学决策支撑,疫情中的石勇仍然每天坚持工作数十个小时。“据说牛顿就是在瘟疫封闭期间发现了万有引力,所以不要焦虑,这是很好的沉淀自己的时间。”石勇对学生如是说。
那段日子里,石勇也在思考中心的过去和下一个十年。2004年正式成立以来,中心一直在为国家宏观经济发展提供决策依据。2010年,全国个人信用评分系统问世,该项工作由石勇团队与中国人民银行征信局和征信中心联合完成,这项涉及公民个人收入、年龄、职业、家庭人口等信息的系统,对中国人的日常商业银行经济活动产生了重大影响。
这些年来,石勇一直在强调异构数据、非结构化数据的概念。当下,让大量的、有噪声的随机数据沉淀下来,实现数据挖掘最优化,仍然是石勇的工作目标:“当针掉到海里,你要知道针可能掉到哪里去。”
最近,石勇正带领团队与中国金融期货交易所合作,对太字节级别体量的交易数据进行分析,预测金融期货的变化及可能产生的影响。“把期货交易的大数据放到太湖之光这样的超算里,去观察交易者的行为。”
“只有高质量的数据才能产生更好的结果。”石勇再次强调。
人与算法皆纯粹
作为首届成思危优秀科研成果奖得主,石勇表示,成思危先生生前影响了很多人,无论国内还是国外,中国科学院大学教育基金会的发展也要有全球视野,拓展出新的联系:“成先生的影响是全世界的,希望基金会支持更多学科、甚至是其他国家的学生,扩大我们国科大的国际影响。”
石勇自己的团队也在践行这一准则。在中科院中关村园区的办公室里,石勇团队每周都会举行一次讨论班,大家围桌而坐,讨论与数据挖掘有关的国际最前沿研究。
石勇团队成员李彪告诉《中国科学报》,讨论班的目的很简单:让大家一直跟着领域的前沿走。而因为讨论班的学术氛围太好,以至于已经毕业、甚至毕业多年的学生也愿意专门抽出时间赶回来参加。
这样的氛围与石勇本人的行事风格不无关联。在李彪等年轻后辈的眼中,石勇始终是一位简单、纯粹的学者。已过耳顺之年的他仍在不断学习,对新鲜事物保持关注,但他永远衣着朴素——深蓝色的夹克和登山鞋穿了多年,公文包磨破了却想不起来换。
“做科研不为搞多大名堂、创造多大利益。”李彪表示,这样的言传身教影响了每一位加入团队的后辈。石勇尊重每个人的想法,“但你必须踏踏实实地去做”,李彪说。
为了让学生更早地接触数据科学,石勇面向中国科学院大学的研究生开设了《多元统计分析与机器学习》这门课程,他会在课堂上介绍数据科学研究中用到的各种方法。
曾任课程助教的李彪还记得,这堂从不点名的课有40多人选修,但每次都有60多号人坐在教室,直到课程结束。“这学期上完,每个人都相当于完成了一个小规模的机器学习项目。”李彪说。
在石勇看来,算法“都是人写出来的”,“一点都不神秘”。而高精度的算法只有配上准确的数据,得到的结果才会更理想。未来,中心的目标依然是抓住大数据这个“牛鼻子”,他表示,“把大数据弄清楚,可以把各个方面的工作往前推进”。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。