谈及研究AI自动审稿系统的初衷,卡内基·梅隆大学博士后刘鹏飞说得颇具哲理性。
“在不同的时代背景下,都会有一些新的、不同的发展需求;一个人如果能感受到它并且把握住,那么就会成为所在领域在这个时代的弄潮儿,或者成为所在领域的领先者。”
科学研究的快速发展,使得同行评议的科学出版物呈现指数级增长。以知名的机器学习和计算神经科学国际会议——神经信息处理系统大会(NeurIPS)为例,2017年其投稿量有三千余篇,但至2020年,其投稿量一下子上升到了一万余篇。
繁重的审稿工作给现有的审稿机制带来了巨大的挑战。“所以我们思考自动审稿的可能性,即AI能否帮助我们从繁重的审稿工作中解放出来?”刘鹏飞于是和卡内基·梅隆大学硕士生袁玮哲、助理教授格雷厄姆·纽比格三人合作,着手研究AI自动审稿系统“ReviewAdvisor”。
从第一步解构“AI自动审稿”这一任务,到第二步建立模型实现这个任务,三人面临诸多技术挑战。“自动生成一篇论文的评审意见,是一个非常困难的任务。”袁玮哲介绍,这一任务主要有三个方面的挑战,即模型评价、数据集、模型训练。
但到了第三步,要解决“伦理”带来的挑战,是在三人意料之外的。
“系统本身会带有‘偏见’,比如英语为母语的作者的论文,似乎更能获得系统好的审稿意见;也有人提出,难道因为审稿比较耗时耗力,就该把它交给AI,让它自动化吗?”在日前的智源社区青源LIVE活动上,刘鹏飞与袁玮哲在线分享了研究AI自动审稿系统的心路历程。
解构
在两人的工作之前,也有极少数几篇论文尝试做“自动审稿”的任务,但这些工作几乎都是把AI生成的评审意见和人写的意见混在一起,让大家看看能不能区分。这些工作,很难评价AI生成的评审意见是否合理,是否是高质量。
“对于我们来说,首先需要回答的一个问题,就是什么才是一个好的评审意见。”袁玮哲认为,如果这个问题不能很好回答的话,那自动审稿系统就无从谈起,“因为就算设计出了系统,没有好的指标去衡量生成的评审意见的质量,也很难去提升系统。”
刘鹏飞的解释是:“当我们研究一个自动审稿模型的时候,在设计之初,就要对如何审稿有充分的了解,要有一些先验知识,不然的话很难设计出一个好的系统。”
可以说,AI自动审稿这项工作的第一个贡献,就是提出了一些评价指标,能够从多角度来刻画“评审意见”的质量。
为此,三人查阅了很多顶级会议的论文“评审指南”,总结出了一个好的评审意见所应该具备的特征,主要有五个方面:判断性、全面性、合理性、准确性、拟人性。
例如,判断性,是指评审意见对一篇论文质量好坏的评判,与这篇论文最后是否被接收之间的关联性;如果判断性的值越高,就代表这个评审意见能够较好地判断这篇论文的质量。
全面性,是指评审意见需要从论文动机、观点新颖等多个角度来对一篇文章的质量进行衡量;合理性是指评审意见要有理有据,尤其是提到一篇论文有哪些不足时,要给出相应的证据;准确性是指评审意见里所包含的内容,不要有事实性的错误。
同时,“我们也希望系统所生成的评审意见和人写的评审意见,在书写结构、语义逻辑等方面,都应该是比较类似的。”袁玮哲说。
建模
评价指标的挑战解除后,随之而来的是数据集的挑战。
数据集的挑战主要有两方面。“第一是数据非常稀少,第二是就算我们得到了数据,也都是纯文本,是没有标注的数据。”袁玮哲说。
“大家都知道,同行评审数据非常少,而且评审数据都是非常私人的,不愿意公开的。”袁玮哲认为,之所以此前很难做“自动评审”这样的研究,数据少且不公开是重要原因。
而后出现的“公开评审”平台,让人们有机会从中获得一些评审意见数据。但因为前几年的投稿量非常少,公开评审平台上只有几百或者上千条数据,这样的数据量也很难进行一些自动审稿模型的训练。
“现在是万事俱备,只欠AI风。”袁玮哲表示,近年来恰逢AI研究非常火热,投稿量基本上是年年翻倍,能够从公开评审平台上收集到足够多的数据,保证模型训练。
三人用网络爬虫工具,爬取了2017年-2020年的ICLR(国际学习表征会议)和2016年-2019年的NeurIPS会议的公开评审数据,一共收集到了8000多篇论文以及2.8万多条评审意见,一篇论文一般对应3-4条评审意见。
但爬取的这些评审意见数据,都是纯文本形式的,并没有对这些评审意见做很细腻度的数据标注,没有标注的数据,AI系统是无法理解的。
“我们需要对评审意见里的信息进行‘表征’定义,这个‘表征’结构体系包含8个方面,分别是总结、动机、创新性、正确性、充分性、可复现性、有意义的比较、清晰性。然后,我们采取了一种半人工半自动的方法,来对我们的数据集从上述8个方面进行标注。”袁玮哲表示,经过一系列努力,最终得到了质量非常高的数据集。
在其后的模型训练环节,挑战依然存在。“一篇论文,它的输入长度通常都是非常长的,现在流行的一些预训练模型,很难处理这种长度的输入。”袁玮哲说。
尝试了各种各样的方法后,三人发现只有一种策略是有效的。袁玮哲介绍:“我们先在论文中抽取一些非常重要的句子,用这些比较重要的句子来做评审意见的生成。”
在这种先抽取后生成的框架下,三人综合运用了三种抽取策略以及两种生成策略,并最终成功形成了AI自动审稿系统“ReviewAdvisor”。
伦理
事实上,在开始AI自动审稿研究之前,刘鹏飞也考虑过,这项工作到底有什么用?
做一个AI系统或模型,研究人员要在实践中不断改进,提高这个模型的处理任务的能力。“在帮模型提高能力的同时,他也提高了自己的能力。”刘鹏飞这样告诉自己。
也就是说,在做一个任务时,研究者积累了很多“领域知识”,并提高了科研所需的一些能力,这个能力可以是看论文的能力、找文献的能力,也可以是找“新点子”创新的能力、写论文的能力,甚至是写审稿意见的能力。
AI自动审稿系统“ReviewAdvisor”出来后,得到了很多正向的反馈。有人在试用了该系统后,表示该系统生成的评审意见,比过去他收到的一些由专家写的意见更具有建设性。在相关报道中,这一自动审稿系统被评价为“让论文作者预知缺陷,让论文读者秒懂内涵,让论文评审者黯然失色”。
论文审稿人真的就要被替代了吗?
三人把相关工作的链接、数据集等放到了网上。“但我们暂时没有在网上把系统放出来,原因是因为这是一个比较敏感的‘任务’。”袁玮哲说。
此前,谷歌公司曾在网上发布一个识图系统,但这个系统在试用过程中,把一张黑人的图片识别成了大猩猩,引发了很多“口水仗”。
在对一些客观条件识别方面,“ReviewAdvisor”具有明显的优势。例如论文违反了匿名规则,系统可以很快识别出来,直接给出“拒稿”意见。
但是,“我们的系统也会生成带有偏见的评审意见,所以希望等以后系统有所提升之后,我们再去公开系统。”袁玮哲说。
在研究中,三人也提出了一些方法去量化人类写的评审意见和系统生成的意见所包含的偏见。
对于英语为母语的作者的论文和非英语为母语的作者的论文,由人写的评审意见和系统生成的评审意见都认为,在论文的“清晰性”方面,英语为母语的作者表现得更好。袁玮哲认为,这或许是有一定道理的,“确实非英语为母语的作者在写文章的时候,在用英语表达观点时会有一些困难。”
但是,系统生成的评审意见还表现出“英语为母语的作者的论文更具有创新性”。“这很有可能就是系统本身所带有的一种偏见。一般来说,大家不会觉得不同国籍的作者之间的研究,其创新性有多大的差距。”袁玮哲说,这可能是系统目前在“偏见”方面存在的比较显著的问题。
三人的这项研究论文提交后,谷歌公司的科学家在推特上说,“可以尝试一下这个系统,但千万不要把这个系统的结果直接去应付审稿工作啊,否则也太对不起被审论文的作者了”。
“华盛顿大学医学院的一位教授也连续发了多条推特,我印象比较深的是,他说我们难道可以因为一个事情比较难做,并且比较耗时耗力,就去考虑把它自动化吗?”刘鹏飞非常欣赏这个观点,“因为我也觉得当然不是。”
类似于在家庭中,因为工作忙、带孩子繁琐,就可以不陪伴孩子吗?刘鹏飞说,“陪伴是最长情的告白,有些时候消耗时间本身就是有价值的。”
相关论文信息:https://arxiv.org/pdf/2102.00176.pdf
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。