作者:李木子 来源: 中国科学报 发布时间:2026-5-12
选择字号:
对250万篇生物医学论文的审查发现:
伪造引文数量近年来急剧增加

 

本报讯 研究人员对250万篇生物医学论文进行了审查,发现近3000篇论文含有无法溯源的虚假参考文献。这一结果5月7日发表于《柳叶刀》,是首个评估生物医学文献中虚假引文规模的学术研究。

研究团队设计了一个自动化流程,用于筛选2023年1月至2026年2月发表于PubMed Central的论文。PubMed Central是一个可公开访问的生物医学文章数据库。

研究表明,在生物医学领域,论文中出现虚假引用正成为一个日益严重的问题。与2023年相比,2025年发表的含有伪造引文的论文数量增加了12倍。

该研究合著者、美国哥伦比亚大学的人工智能(AI)研究员Maxim Topaz表示,发现的数据只是保守的低估值。“我们筛查出的只是真实乱象的下限,如今只窥见了冰山一角。”

英国数字科学公司的科学计量学主管Kathryn Weber-Boer对此表示认同。她称这项研究向厘清虚假引用问题迈出了坚实的第一步。

《自然》4月发布的一项分析报告指出,从2025年开始,大约1.6%的论文至少包含一条指向似乎不存在的出版物的参考文献。

在这项研究中,Topaz团队开发了一套系统,用来检查250万篇论文引用的1.256亿条参考文献,并重点分析了其中9700万条拥有有效数字对象标识符(DOI)或由PubMed编号的参考文献。DOI是由出版商和预印本平台分配的唯一字母和数字字符串。

研究人员用大语言模型标记了每条参考文献的标题与其DOI或PubMed编号指向的论文标题的不匹配之处。他们还在四个学术数据库——PubMed、Crossref、OpenAlex和谷歌学术中检索了这些参考文献。如果一条参考文献的标题在所有数据库中均未被收录,研究人员就判定它是伪造的。

分析结果显示,有2564篇论文存在1至2条伪造的参考文献,还有246篇论文包含3条或更多的伪造参考文献。

Weber-Boer指出:“这些虚假引用究竟是AI生成的还是人为编造的,目前尚无定论。但这个问题发展得如此之快,足以说明可能存在AI的生成机制。”

在对500篇被标记的参考文献进行人工检查后,3名独立审稿人确认,其中七成的引用系伪造。

不过,这项分析可能低估了包含虚假引用的论文总数。Weber-Boer指出,谷歌学术并非一个可靠的文献验证渠道,因为一些伪造的参考文献确实会出现在该网站上,却无法追溯到真实的正规出版物。

此外,Topaz团队分析发现,综述类论文的伪造参考文献数量比其他类型论文高出了57%。其中有28项临床试验研究、79篇系统综述含有虚假引用。Topaz表示,这类文献最终都会被纳入临床指南,这是最令人担忧的地方。

在该研究标记的问题论文中,仅有1.6%被撤稿或更正。但撤稿原因均与虚假引用无关,而更正也未解决被标记的引用问题。

Topaz建议,期刊出版商应在同行评审前,将参考文献自动验证功能整合到投稿流程中。这些东西不应该出现在同行审稿人面前。

(李木子)

相关论文信息:

https://doi.org/10.1016/S0140-6736(26)00603-3

《中国科学报》 (2026-05-12 第2版 国际)
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
我国攻克硅基量子芯片关键材料 《自然》(20260611出版)一周论文导读
研究揭示链霉菌调控香蕉抗枯萎病分子机制 量子自旋液体存在“自旋子”首获实验证据
>>更多
 
一周新闻排行
 
编辑部推荐博文
 
Baidu
map