斯坦福大学学生团队抄袭中国开源模型，致歉之后—新闻

作者：赵广立来源：中国科学报发布时间：2024/6/5 12:24:03

选择字号：小中大

斯坦福大学学生团队抄袭中国开源模型，致歉之后

一人失联、两人致歉，连日来轰动一时的“斯坦福大学AI团队抄袭中国开源大模型”事件迎来了最新进展。

北京时间6月4日凌晨，两位来自美国斯坦福大学的本科生——席德哈斯·夏尔马（ Sharma）和阿克什·加尔格（Aksh Garg）在社交平台X（原“推特”）上主动承认了抄袭行为，并“向原作者们道歉”。

Siddharth和Aksh分别在X上发推致歉。 截图自X平台

但作为三人团队中的关键人物——负责其项目代码部分的穆斯塔法·阿贾德里（Mustafa Aljadery），却“失联”了。“我们原本希望由Mustafa 首发声明，但自昨天以来一直无法联系到他。”Siddharth和Aksh在推文中写道。

美国名校——斯坦福大学的研究团队抄袭来自中国的大模型，这在许多中国网友看来堪称“魔幻”，该事件也被一些网友认为具有一定的标志性意义：“是时候重新认识中国AI的水平了。”

“斯坦福抄袭事件”始末

一切始于5月29日，一款名为“Llama3-V”的多模态大模型在开源社区GitHub上火起来。

来自斯坦福的创始团队声称，仅用500美元成本，就能基于Llama3训练出一个SOTA开源多模态模型。尽管规模不大（80亿参数），但它能在性能上比肩“顶流”的GPT-4v、Gemini Ultra等。

惹眼的宣传和斯坦福大学名校背景，很快就将Llama3-V推至聚光灯下。不出两日，Llama3-V就在HuggingFace的社区榜单（HuggingFace Trending）中跻身前五。

只有真金不怕火炼。国内AI领域的学者“Magic Yang”越看越不对劲，他发现Llama3-V的架构和代码，与一款来自中国团队的大模型几乎一模一样，即清华大学和面壁智能团队基于开源模型Llama3联合开发的MiniCPM-Llama3-V 2.5，该模型于5月中旬发布。

但是，Magic Yang没有看到斯坦福大学团队对中国团队模型表示任何形式的“致敬或感谢”——这在开源项目中往往是必要的。

他随即在GitHub下留言提出质疑，但换来的却是斯坦福大学团队的诡辩或回避，后者甚至声称自己的工作早于中国团队。而当他用模型代码对比、分词器对比等提出实质性质疑，后者竟然直接删除了他的留言。

这彻底激怒了Magic Yang。他转而来到清华大学和面壁智能开发的模型GitHub项目下爆料，并提醒面壁智能团队注意此事。

收到提醒后，面壁智能团队很快展开了调查。在Magic Yang提供证据的基础上，他们得出了同样的结论：“比较确信Llama3-V是对我们MiniCPM-Llama3-V 2.5的套壳”。

面壁智能首席科学家、清华大学长聘副教授刘知远给出“套壳”判断的一大理由，是其对于清华简的识别能力。

两模型对清华简的识别几无二致。刘知远供图 ?

“比较有意思的证据是，MiniCPM-Llama3-V 2.5研发时内置了一个‘彩蛋’，就是对‘清华简’的识别能力。这是我们从清华简逐字扫描并标注的数据集，并未公开，而Llama3-V展现出了一模一样的清华简识别能力，连做错的样例都一样。”刘知远说。

面壁智能CEO李大海介绍，这项工作是团队耗时数月、从卷帙浩繁的清华简中一个字一个字扫描下来，并逐一进行数据标注、融合进模型中的。

刘知远（右）与李大海（左）在分享活动中。 图源：面壁智能 ?

斯坦福教授愤怒，中国作者：选择原谅

面对Siddharth和Aksh几乎一模一样的致歉推文以及疑似“甩锅”队友（那位失联的“代码哥”）的操作，斯坦福人工智能实验室主任克里斯托弗·曼宁（Christopher Manning）在得知该事件后，忍不住发推批评：“这是典型的不承认自己错误！”（How not to own your mistakes!）

Christopher Manning同时表示，他对这一研究毫不知情：“这似乎是由几位本科生完成的，其中一些人在斯坦福大学。”不过，他认为抄袭事件是在给斯坦福大学蒙羞：“‘成功之前先假装成功’，这在硅谷是不光彩的。”

在被爆料之后、发道歉推文之前，Llama3-V团队“出于对原创者的尊重”，已经在Huggingface、GitHub上删除和撤回了该模型。

“开源共享的基石是对开源协议的遵守，对其他贡献者的信任，对前人成果的尊重和致敬，Llama3-V团队无疑严重破坏了这一点。”刘知远感慨，人工智能的飞速发展离不开全球算法、数据与模型的开源共享，面壁智能团队此次开源的MiniCPM-Llama3-V 2.5就用到了最新的Llama3作为语言模型基座。

不过，他表示，Llama3-V团队在受到质疑后已在Huggingface删库，而且团队三人中的两位也只是斯坦福大学本科生，他们“未来还有很长的路，如果知错能改，善莫大焉”。

李大海则在他的社交媒体动态中谈到，尽管对斯坦福大学学生团队套壳事件深表遗憾，但同时也认为“这也是一种受到国际团队认可的方式”。

中国AI崛起了吗？

值得一提的是，在“套壳事件”发生之前，MiniCPM模型并未受到太多的关注。这一点，就连谷歌DeepMind研究员、深度学习模型ViT的作者之一卢卡斯·拜耳（Lucas Beyer）都为之鸣不平。

“这起事件中有趣的一部分是，斯坦福学生所描绘的‘低成本、高性能’模型是存在的，它就是MiniCPM-Llama3-V 2.5。”卢卡斯说道：“只不过它受到的关注不多，主要原因似乎是因为，它是出自中国团队——而非常春藤盟校的团队之手。”

这次事件，也让刘知远感慨良多。“过去十几年科研经历的斗转星移”让他感受到，十多年来中国AI科学技术水平其实是一直在进步的。

“回想2006年我读博时，大家的主要目标还是在国际顶级会议上发篇论文；到2014年我做老师时，只有获得国际著名会议的最佳论文等重要成果，才有机会登上系里的新闻主页。”他写道。

不过，刘知远也体会到，2022年底OpenAI推出ChatGPT之后，国内公众还是认识到了中美在AI领域的差距：“特别是2023年Llama等国际开源模型发布后，开始有‘国外一开源、国内就自研’说法。”

而今，中国团队的大模型成果被来自斯坦福大学的团队“套壳”——虽然是几个学生，但也侧面反映了中国的AI创新成果正在受到国际关注。

“从横向来看，我们显然仍与国际顶尖工作如Sora和GPT-4o有显著差距；但从纵向来看，我们已经从十几年的nobody，快速成长为人工智能科技创新的关键推动者。”刘知远说，所以，“面向即将到来的AGI时代，我们应该更加自信积极地投身其中。”

多读一点：同为开源，为何面壁智能是创新？

许多人不解：清华大学—面壁智能团队的模型也是基于Llama 3开源模型开发的，为什么他们的工作可称作创新，而斯坦福大学本科生的“工作”是套壳、抄袭呢？

其实，这两者是有性质上的不同的。

具体而言，MiniCPM-Llama3-V 2.5是在原来MiniCPM-v2和Llama3开源项目的基础上，使用公开或自有的图文等数据集进行训练、调优等升级而成的视觉语言模型，它具有视觉识别、自然语言交互等能力，具有潜在的应用前景，MiniGPT-4、LLaVA等均属于此类。

而llama3-v根本没有自己任何的创新，属于“复制—粘贴”代码和模型结构的“产品”。有行业人士指出，Llama3-V的团队是在MiniCPM-Llama3-V2.5的基础上加入高斯噪声，进而伪造出了一个不同哈希值的“新模型”。表面上看起来它变得不一样了，但实质上是完全的“套壳”。可以说，llama3-V只是MiniCPM-Llama3-V2.5的“加噪版本”。

开源社区的精神是分享，以让更多人在开源技术的基础上添砖加瓦、贡献智慧、实现价值。事实上，斯坦福大学也有许多科学家对开源社区有非常大的贡献。比如斯坦福大学计算机科学专业的华人博士生张吕敏，就对AI绘画工具的开源共享作出许多贡献。但是，将别人的开源贡献套一层外壳，再宣称是自己的成果，不仅有违开源精神，更是欺世盗名、不为人齿。

编辑部推荐博文
问答之间｜idea被别人做过，要转变方向吗？饮酒与戒酒（二）瓶子酒科学家解开自私的B染色体之谜植物写真\|“森林明珠” 银杉上海交大郭益平课题组：用于结构健康监测和机器人感知的超高灵敏度各向 ... 给课堂以想象的空间更多>>