面对申请表格中研究的领域细小分类应该如何选择,是很多科研“新手”们头疼的问题。随着科研项目申请迅速增长,学科划分不断细化,申请者及科研管理人员如何在具有层次结构的学科体系中选择项目申请所属的细分学科领域?
中国科学院计算机网络信息中心研究员周园春团队的博士生肖濛开发一种模型算法,为科研项目寻找到合理的领域与方向,从而协助科学家与科研管理者进行研究方向管理。该研究模型论文《由专家知识指导的科研项目变长学科层次标签生成》在国际电子电气工程师学会(IEEE)旗下会议(International Conference on Data Mining 2021)上作为长文发表。
研究初衷来自困扰自己的问题
“这项研究的启发点来源是科研项目申请中我观察到的一个小问题。当科研工作者在申请项目时,要面对上千个学科小类的选择。对于年轻的科研工作者来说,过于细分的小类让他们不知把项目投递到哪个学科小标签下更合适。此时,往往需要老一辈科研工作者的指导。”肖濛在接受《中国科学报》采访时说。
由于不同学科小类对应不同的评审专家,那么对于一些更小的领域来说,科研人员需要从中选择更细粒度的标签才能找到合适的评审专家。而且,在科研项目申请的过程中,不同领域的资助也不尽相同,有些科研人员在选择学科分类时可能会选择更高资助率的研究领域,从而挤占别的研究的空间。此外,部分的跨学科的项目申请书或是新研究领域的项目申请书可能难以通过既往的经验选择合适的学科小类。
为了帮助科研人员和项目管理者对项目资源的分配和选择更合适的评审专家,肖濛提出了Encoder-Decoder架构的层次多标签分类算法(HMC)。“通过这个算法,计算机可以通过科研人员在申请书中填写的标题、摘要、关键词等文本信息,推荐其最适合的学科小标签。”肖濛解释说。
翻译模型将粗粒度标签转变为细粒度
计算机算法往往将功能复杂的类称为粗粒度,向下细分后的功能单一类称为细粒度。在肖濛的演示中,如果科研人员只知道自己学科的含糊分类,在表格中选择粗粒度标签后,HMC算法会根据粗粒度标签生成下游标签,进而帮助科研人员找到合适粒度的层级标签。“这是一个类似树推理的过程,即从root到合适位置的推理。”肖濛解释说。
其中,编码器通过利用多层次的Transformer组件实现对申请书中文本文档内的字词、文本文档间的互动关系进行建模,从而完成多类别文本的语义抽取;解码器则利用自注意力机制抽取专家知识以及已生成标签的特征,并结合编码器所抽取的语义信息,依照学科体系结构逐层生成标签序列。该研究为科研项目分类场景提供了结合人工智能的解决方案,拥有丰富的应用场景。
在开发算法过程中,肖濛遇到的首要问题就是对现实中数据集的处理,“因为从众多的项目本子中整理出模型可以使用的规范化的数据工程是一项费时费力的工作”。之后,在模型选择时,虽然很多模型都能够解决层次多标签分类问题,但在肖濛需要的场景中,资深科研工作者的知识指导、接续生成标签十分重要,常规的文本分类模型无法处理这样的需求。“事实上,真正应用时,大多数人更愿意系统直接生成一个标签,而不是按照推荐逐级推荐一系列的标签。同样的,文本数据中标题、关键词、摘要等语义信息都是文本形式,但它们各自都是不同组成的文本数据,单纯采用循环神经网络、长短期记忆网络等序列建模模型难以体现数据的特性。”肖濛解释道。
于是,肖濛在编辑模型时的主要思路就是从现实中的场景出发,解决现有模型无法应用在现实场景的问题。首先,他认为,数据标签也就是学科体系具有天然的层次结构,所以这个问题被定义为层次标签分类问题。“我首先想到的是构建一个类似于翻译模型的模型,将文本的语义信息抽取出来,将文本序列映射到标签序列。由于启发从翻译模型来的,所以我最终选择Encoder-Decoder和翻译模型的思路,把学科体系树内标签之间的关系看作语言的语义语法,通过这样的思路构建文本语义到标签信息的映射。目前在做层次多标签分类任务还没有人采用我们的这个思路。”
不过,翻译模型面对的是两个相同体量的语言模型之间进行转换,故需要更复杂的模型来编码解码。“标签序列其实内蕴含的词法信息、语义信息是较为简单的,所以在实践中我在设计模型的过程花费了很多时间做减法。”肖濛坦言。
帮助科研人员在填报时进行分类,是肖濛想到的第一步。“我希望未来这一模型可以在项目管理工作、科研项目管理、国家资源掉配等几个方面可以进行应用。”肖濛说,目前该研究已经申请一部分专利,“期望之后在应用场景中可以为项目管理方的人工智能化贡献一臂之力”。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。