|
|
生物医学数据库中有多少“水”论文 |
1700万篇论文中,大约20万篇存在重复问题 |
美国科学家的一项最新统计表明,美国国立医学图书馆Medline数据库收录的1700万篇论文中,大约有20万篇存在重复问题,它们要么是同一作者一稿多投,要么是涉嫌剽窃他人的成果。该统计研究结果刊登在1月24日的《自然》杂志上。
美国德克萨斯大学西南医学中心的Mounir Errami和Harold Garner从Medline数据库中随机抽取了1995年以后的62000篇论文,利用文本匹配软件,他们对重复或者高度相似的论文摘要进行了检测,结果共找到421篇可能存在问题的论文。
随后,Errami和Garner对这些“水”论文进行了手动检查,他们估计,62000篇论文中大约有0.04%涉嫌剽窃,而另有1.35%是同一作者一稿多发。
由于缺乏足够的计算力对Medline中所有1700万篇论文进行对比研究,在了解最初找到的421篇“水”论文的普遍规律后,Errami和Garner采取了一种捷径——利用Medline数据库的“最相关论文”功能,将一篇论文的摘要与相关论文的进行对比。
这样,两位研究人员又对数据库中的700多万篇论文进行了研究,确定出7万篇嫌疑论文。在排除掉一些“假阳性”情况后,他们最终认为,有5万篇确实是重复或剽窃的论文。将这一结果外推到1700万篇论文,再考虑到一些修正因素,他们估计,Medline数据库中大约有20万篇“水”论文。
Errami和Garner现在已经将有嫌疑的7万篇论文上传到一个名为Déjà vu的开放数据库中,从而起到威慑的作用。他们制作的名为eTBLAST文本匹配软件也可以自由获取。
不过,令两人不解的是,他们的统计结果比例比此前的类似研究都低,其中的原因他们现在也无法说清。研究人员期望通过进一步的研究,能够找到一些论文问题的基本规律。初步的估计已经表明,一个国家的论文重复问题率(一稿多发或剽窃)与它总的论文量之间存在比例关系,而出自中国和日本的论文的这一比例大约为预期值的两倍。(科学网 任霄鹏/编译)
更多阅读(英文)