作者:钟楚滢 王亚赛 舒怡尔 孔家兴 来源:澎湃新闻 发布时间:2024/6/14 14:14:55
选择字号:
把AI检测当毕业论文硬性指标,是不是早了点?

 

“它(AIGC 检测)真的不是为了赚学生的钱吗?”

在提出这个疑惑之前,本科应届生易肖竹的毕业论文已经提交了五次 AIGC 检测。

四月底,在完成导师指导下的三轮修改后,她按照要求将论文提交至知网查重,AIGC 检测结果显示她的论文有一段 AIGC 低风险和一段高风险,“那段高风险内容我是自己写的,这个结果让我非常震惊”,那时的她还以为修改会比较简单,没想到后来“降 AI”的拉锯战竟会持续十天。

第一次修改时,她学着小红书教的方法,尽量多加介词和连接词,结果无效。于是,她改变策略,请朋友按照自己的写作习惯来改写高风险文段,但直至她检测到了第四次,文段依旧保持高风险。

正一筹莫展时,她想起另一位和她吐槽过相同经历的同学,彼时同学已经成功通关,同学给她支了个招——用 AI 改写 AI,这一版 AI 辅助的修改文段最终通过了 AIGC 检测。

这五次修改,易肖竹在 AI 检测上用了 10 天,花费了 171.5 元。但是,如何应对 AI 检测,她仍然没摸出什么门道。

今年年初,福州大学、中国传媒大学等高校陆续发布了毕业论文(设计)AIGC 检测的通知,2024 届毕业生成为 AIGC 检测元年的第一批探路者。

  ?

随着 AI 技术的发展,国内的论文检测系统陆续上线 AIGC 检测服务,为高校学术不端检测提供了新选项。从部分高校公开发布的毕业论文通知可以看出,高校对 AIGC 检测率的规范方式大致分为三种:影响考评、自主披露和限定占比。无论是高校公开发布的通知,抑或是流传在学生之间的学校文件,都可以感知到 AIGC 检测是毕业论文学术不端检测的大势所趋。“学校虽然没有明文规定 AIGC 检测率,但学院要求需要小于 20%,我的导师要求我们降到 5%以下”,在湖南上大学的陈慧敏如是说道。

在翟天临学术不端事件后,高校加大了对学生论文重复率的检查力度。然而,AI 检测成为毕业论文的“新杀手”:从前,在“降重”时只需要将重复率高的文本替换写法,重复与否容易区分,降重目标很明确;现在,“降 AI”却如同面对黑箱,需要反复猜测 AIGC 检测的标准是什么,目标变得抽象。

在“降 AI”这项工作中,刘鑫宇比易肖竹踩了更多的雷。她总共做了 9 次 AIGC 检测,问题五花八门:在格子达小程序里检测出无风险的文段,到格子达网页端又有风险了;本是“中风险”的论文,时隔九日重新提交检测时,疑似片段居然从 16 段上升至 28 段,论文重新变成了“高风险”。

“可能是我的文风太硬了吧,室友都说我写的像新闻联播”,被 AIGC 检测折磨得心力交瘁的刘鑫宇无奈地说道。

检测结果差异大,“降 AI”更像玄学

AI 检测到底有多玄学?为了体验易肖竹和刘鑫宇检测过程中的同款迷惑,澎湃新闻记者将一篇完全由 AI 生成的论文提交到四个高校常用的 AIGC 检测系统进行检测,发现这些平台由于模型差异,对于论文中 AI 生成占比的认定差异较大。同一篇论文,AI 占比最多能相差 32%,尽管这四个结果放在高校的毕业论文要求里都是不合格的水平。

  ?

不同软件之间的“AI 检出率”差距大,是不是意味着 AIGC 检测不靠谱?

这就要从检测的原理谈起。

根据国外一款 AI 检测器 GPTZero 的创始人 Edward Tian 介绍,GPTZero 的检测主要依靠于“困惑度”(Perplexity)和“爆发度”(Burstiness)两项关键指标。

困惑度可以理解为可预测性。当检测器可以准确猜测出文本的下一个词、下一句话时,文本的困惑度就越低,文章越可能被判定为 AI 生成。但这种判定方式也不一定准确,比如“我想吃一个(睡觉)”与“我想吃一个(苹果)”这种不合常理的胡言乱语,相比更有可能被判定人类所写,只因为 AI 也猜不出你接下来要说什么。

爆发度可以理解为句子长度与复杂性的变化。AI 生成的句子长度与结构趋向统一,而人类作文随心所欲,动态性更强,这也是“降 AI”教程中常提的加标点符号、长句变短句的意旨。

2023 年 7 月 20 日,OpenAI 低调关停仅上线半年的 AIGC 检测器“AI Text Classifier”,原因是“准确度较低”,但 AIGC 检测的发展步伐并未放缓。

另一款 AI 检测产品 GPTZero 在 2023 年初刚上线时,获得了超乎意料的关注;同时,也受到了来自学生群体的攻击。然而,用检测结果来“为难”学生,并不是这款产品的初衷,创始人 Edward Tian 在推特中表示道,“任何学生都不应该因为使用 AI 而受到老师的惩罚……直到政策得到全面制定前”。因此,在 GPTZero 的检测结果页面可以看到一行字,上面写道,“这个结果不应该用来直接惩罚学生”。

AIGC 检测率只是一个参考数值,这也是国际反剽窃巨头 Turnitin 的认识。

2023 年 3 月 16 日,Turnitin 在官网文章中提出,“鉴于我们的假阳性率不是零,您作为讲师需要应用您的专业判断、学生的知识以及围绕作业的具体背景”,在 Turnitin 看来,检测结果应该被视为一种指示,而不是指控,“我们的工作是创造方向正确的信息,供老师开启对话”,Turnitin 的首席产品官 Annie Chechitelli 在接受华盛顿邮报的采访时说道。

在国内,知网、维普、万方等服务于大部分高校的论文检测系统,在 AI 的发展潮流下陆续上线 AIGC 检测服务,并于 2024 年论文季开始广泛实践。但无论是知网、维普、万方还是其它检测系统,其官网都很难找到关于其 AIGC 检测产品的详细介绍。在 AIGC 检测技术发展尚不成熟的阶段,部分国内高校将检测结果作为毕业论文合格的硬性门槛,对检测结果体感最强的学生被无奈地困在了迷茫的“降率”中。

规范 AI 使用,国内外高校视角不同

除了类似“AI 检测率”这样的硬指标划定,国内一些高校也在探索其他规范使用 AI 的方式,比如中国传媒大学继续教育学部设计了《本科毕业论文(设计)生成式人工智能使用情况说明表》,由学生自主披露论文中的 AI 使用情况。

除了毕业论文之外,在更广泛的课堂上如何使用 AI 的问题,国外高校大多将决定权交给了任课教师。

  ?

例如,麻省理工学院邀请了四位对 AIGC 使用有所研究的本校教师发表观点,希望为其他教师提供参考。四位老师对 AIGC 的态度整体分为了支持和限制两个阵营,在文章的开头,学校保守地表示“这并不代表麻省理工学院对此的官方看法”,麻省理工学院将选择权交给了老师。

与麻省理工学院相似,杜克大学鼓励教师起草自己的 AIGC 政策。除此之外,杜克大学在面向教师发表的《人工智能政策:指导方针和注意事项》中指出,AIGC 检测软件存在系统不可靠、对部分群体存在偏见、无法跟上人工智能发展脚步的弊端,因此学校明确表示“不建议教师将 AIGC 检测器作为 AI 政策的一部分”,即使教师决定使用检测软件,也不应将检测结果作为衡量学生是否作弊的唯一标准。

相比于其他两校,波士顿大学的 AIGC 使用政策内容更为细致,该校政策认为“诚实和公平是在学业中使用人工智能的核心”,因此规定使用 AIGC 的学生需要提交一份附录详细说明作业过程中与 AIGC 的完整交流,同时,政策也对不同程度使用人工智能的学生划分了对等的赋分规范。值得提及的是,波士顿大学的 AIGC 使用政策由 47 名学生制定,政策在获得批准后应用在了整个计算和数据科学系。

虽然各校针对 AIGC 使用的政策内容不一,但内容背后折射出一个相似的价值观:人工智能的使用不仅关乎学生,也关乎教师,同时,教师承担着引导学生正确使用人工智能的角色。

所以,AI 写的论文怎么样?

澎湃新闻记者以澎湃美数课发布的稿件为样本(《114 万条招聘数据:考研,真的能带来好工作吗?》),请 AI 将其改写成一篇本科毕业论文。AI 拟定的标题就很有论文的派头:《考研与就业:基于招聘数据分析的研究生教育价值探究》,再往下,论文必要的引言、文献综述、研究方法等五脏俱全。难道,AI 写论文,没问题吗?

  ?

虽然高校会为学生分配毕业论文指导老师,但是对于部分毫无论文写作经验的本科生而言,基础问题不好意思提问,专业的表达很难临时抱佛脚。这时,永远在线,永远有问有答的 AI,成为他们最好的指导老师。

在小红书搜索“如何让 AI 帮你写论文”,可以得到上至框架下至致谢的所有指令,灵感枯竭时,AI 可以分点分行快速给出回答;不会措辞?把思路丢给 AI 就能得到一段表述完整的文本——在 AI 的帮助下,学生可以大大提升写论文的效率。

从改写的论文来看,AI 确实非常了解论文的谋篇布局,它甚至掌握各个专业的术语和研究方法,这意味着研究目标、研究方法这类可以依靠大数据“旧壶装新酒”的内容是 AI 的舒适区,同时也意味着 AI 很难提出新颖的思路和观点。

在写论文的所有环节中,引用文献是 AI“幻觉”频发的重灾区。在这篇 AI 改写的论文中,引用文献共五篇,但根据记者核实,其中有三篇论文并不存在。所以,如果想让 AI 帮你搜索参考文献,要小心有胡编乱造的风险。

AIGC 检测,是指示还是“指控”?

鉴于人工智能的诸多局限性,一篇内容单纯依靠 AI 生成的论文,在答辩过程中也大概率难以过关,和论文相比,AI 写的论文更像一篇有“论文味”的文章。

但在部分国内高校的实践中,AIGC 检测率却成为比答辩还难应对的合格门槛。“AI 应该作为辅助工具,为人类创作赋能”,这是人们提起 AI 时常提的立场,当高校将 AIGC 检测结果作为评估毕业论文的硬性指标时,是否夺走了学生的解释权?这种将数据简单化为标准的方式是否也是对工具的滥用?

目前人工智能的发展水平确实有造成学术不端的风险,但人工智能在校园的使用规范中,是否存在更弹性的空间,更软性的方式呢?

 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给: 
    
 
Baidu
map