|
|
把“咪”换成 “猫”,就可能骗过查重软件么?| BMC Journal |
|
论文标题:Paraphrasing tools, language translation tools and plagiarism: an exploratory study
期刊:International Journal for Educational Integrity
作者:Felicity M. Prentice and Clare E. Kinden
发表时间:2018/12/19
数字识别码:10.1007/s40979-018-0036-7
原文链接:https://edintegrity.biomedcentral.com/articles/10.1007/s40979-018-0036-7?utm_source=other&utm_
medium=other&utm_content=null&utm_campaign=BSCN_2_WX_edintegrity_arti_scinet
微信链接:https://mp.weixin.qq.com/s/veGfO2vLbmXZUlz0vMS_gQ
最近发表在International Journal for Educational Integrity上的一项探索性研究对学生的论文(特别是需要使用标准医学术语的论文)进行了分析,这些论文的特点是均不符合语言规范且难以理解。该研究表明,使用与上下文不符的同义词取代专业术语的论文。更容易指向作者使用了在线改写工具而非语言翻译工具。
图片来源: Jason Leung, Unsplash.com
抄袭早已不是新鲜事了,但科技的发展为抄袭提供了各种新的机会;过去的抄袭往往是直接从其他来源进行复制粘贴,现在则发展为学生直接求助他人完成所有的作业来当作是自己的成果。当然,技术也为我们提供了识别潜在抄袭和剽窃的机会。Turnitin®等文本匹配软件可以生成相似性报告,即使文本中没有提到原始来源,我们也能据此找到原始来源。然而,现在又产生了一个能蒙蔽这类词汇匹配软件的最新技术——在线改写工具。
最近,在健康科学课程中,我们遇到了来自学生的形形色色的论文,这些论文会夹杂一些不符合语言习惯的表达,有些极端糟糕的论文甚至出现了令人几乎难以理解的表述。由于这些学生中有许多人的母语并非英语,因此我们推测他们是先用母语完成论文撰写,然后再使用在线语言翻译工具将其转换为英语。
然而,事实远非如此简单。我们偶然发现了一种免费的在线英英改写工具。很显然,学生们从其他来源获取了文本内容,并通过能自动替换同义词的软件将其进行“乔装”,从而隐藏了这些文本与原始来源的相似性。
例如,以下句子:
一天,当Dou外出散步时,他感到头昏眼花,随后便失去意识,倒在了地上。
One day while Doug was out walking, he felt lightheaded and then lost consciousness and fell to the ground.
经过在线改写工具的改造,可能会变成:
一个恒星日,Doug外出散步,他感到头昏眼花,随后便失去知觉,摔得粉碎。
One sidereal day, while Doug was out walk, he felt lightheaded and then lost knowingness and downslope to the pulverization.
不管怎么说,学生们使用语言翻译软件将自己所写的内容进行转换,这至少表明撰写内容的工作是其自身智慧的成果。但使用改写工具则是另一种情况,表明他们想要隐藏内容的原始来源。
有两篇文章让我印象深刻。其中一篇文章中描述到计算机轴向断层扫描(CAT)是从各个不同角度(原文中angels拼写错误,正确应为angles)获得的X线图像。而在另一篇文章中,则将CAT扫描图像描述为从各个不同的祝福信使(blessed messengers,angels的同义词)中获取的图像。很明显,第一篇文章是第二篇文章的原始来源,而第二篇文章是作者使用改写工具处理得出的。
缺乏学科专业术语是抄袭的标志
于是我们不禁要问,是否可以确定出一些标志来区分文本是进行过了语言翻译工具的处理,还是经过了英英同义词替换工具的加工?
为了探索这一点,我们选择了一个包含大量医学术语的文本语料库。整个医疗保健领域均要求使用标准的医学术语来减少歧义并促进清晰的沟通。学生必须对这些术语了如指掌,在使用这些术语时不应做改动,并且不用同义词进行替代。我们用谷歌翻译将该文本字面翻译成EAL(English as an Additional Language)学生所熟悉的六种语言;并用六种免费在线改写工具将其进行改写。
结果显示,在文本所包含的21个标准医学术语中,改写工具生成并替代产生了73个同义词,而谷歌翻译只产生了7个替代术语。 例如,对于术语“医院”,改写工具生成了以下同义词:治疗机构,医生机构,治疗中心,修复办公室和疗养院。而谷歌翻译并没有产生替代文本。
这项研究结果表明,虽然在线改写工具可能会使Turnitin®等文本匹配软件无法查重,但是其生成的语言有时很难理解。更具体地说,当出现使用与上下文不符的同义词取代学科专业术语的情况时,更大程度上意味着作者使用了在线改写工具,而非语言翻译工具。
摘要:
In a recent unit of study in an undergraduate Health Sciences pathway course, we identified a set of essays which exhibited similarity of content but demonstrated the use of bizarre and unidiomatic language. One of the distinct features of the essays was the inclusion of unusual synonyms in place of expected standard medical terminology.
We suspected the use of online paraphrasing tools, but were also interested in investigating the possibility of the use of online language translation tools. In order to test the outputs of these tools, we used as a seed document a corpus of text which had been provided to the students as prompt for the essay. This document was put through six free online paraphrasing tools and six separate iterative language translations through the online Google Translate™ tool.
The results demonstrated that free online paraphrasing tools did not identify medical terminology as standardised or accepted nomenclature and substituted synonyms, whereas Google Translate™ largely preserved medical terminology.
We believe that textual indicators such as the absence of standard discipline-based terminology may be of assistance in the identification of machine paraphrased text.
阅读论文全文请访问:
https://edintegrity.biomedcentral.com/articles/10.1007/s40979-018-0036-7?utm_source=other&utm_
medium=other&utm_content=null&utm_campaign=BSCN_2_WX_edintegrity_arti_scinet
期刊介绍:
The IJEI(https://edintegrity.biomedcentral.com/) is an international refereed journal where research on educational integrity is disseminated in an accessible and cost-effective format. The journal challenges readers to consider the changing nature of education in a globalised environment, and the impact that conceptions of educational integrity have on issues of pedagogy, academic standards, intercultural understanding and equity.
Articles of interest to the IJEI readership may include but are not limited to the following areas as they relate to educational integrity: plagiarism, cheating, academic integrity, honour codes, teaching and learning, institutional integrity and student motivation. Submissions may include original research (including practitioner research), theoretical discussions and review papers.
(来源:科学网)
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。