梯度下降依赖于试验和错误来优化算法,目标是在三维景观中使其最小化。
图片来源:ALEXANDER AMINI/SCIENCE
加州旧金山谷歌人工智能(AI)研究人员Ali Rahimi去年12月对其所在研究领域进行了一次猛烈的抨击,并获得了40秒的掌声。在一次AI会议上,Rahimi指责机器学习算法,即计算机通过反复试验和纠错来学习已经成为某种形式的“炼金术”。他说,研究人员并不知道为什么有些算法会起作用而另一些则不会,他们在选择一个AI架构而非另一个时也没有严格的标准。在近日于加拿大温哥华举行的关于学习陈述的国际会议上报告的一篇论文中,Rahimi和合作者列举了他们所看到的“炼金术问题”,并为提高AI的严格性开了“药方”。
“这个领域有一种痛苦。”Rahimi说,“我们很多人觉得自己在使用一种完全不同的技术。”
这个问题与AI的再现性问题截然不同,由于实验和出版实践的不一致,研究人员无法复制彼此的结果。它也不同于机器学习中的“黑箱”或“可解释性”问题:解释某一特定AI如何得出结论的难题。正如Rahimi所言,“我试图把机器学习系统的“黑箱”与转变为黑箱的整个领域区分开来。”
他说,如果不深入了解构建和训练新算法所需要的基本工具,研究人员创建AI就会像中世纪的炼金术士一样诉诸于谣言。加州山景城谷歌计算机学家Francois Chollet补充道:“人们被狂热崇拜所吸引”,依赖的是“民间传说和魔法咒语”。他举例说,他们采用宠物的方法调整AI的“学习速率”(一个算法在每个错误之后会在多大程度上进行纠正),而不是了解为什么一个算法比其他的更好。在其他情况下,AI研究人员训练其算法只是在黑暗中磕磕碰碰。例如,他们执行所谓的“随机梯度下降”,以此优化一个算法的参数,以获得尽可能低的失败率。然而,尽管有数千篇关于这一主题的学术论文,以及无数应用该方法的途径,这一过程仍然依赖于尝试和纠错。
Rahimi的论文强调了被浪费掉的努力以及可能导致的次优表现。例如,它指出,当其他研究人员从最先进的语言翻译算法中去掉大部分的复杂性时,它实际上能够把英语更好地翻译成德语或法语,而且效率更好,这表明其创建者并没有完全理解那些额外部分有什么好处。相反,英国伦敦推特网机器学习研究人员Ferenc Huszar说,有时候,附加在算法上的铃声和哨声是唯一优秀的部分。他说,在某些情况下,算法的核心存在技术缺陷,这意味着其得出的好结果“完全归因于在上面应用的其他技巧”。
Rahimi对了解哪种算法最有效提供了若干建议。他说,对于初学者来说,研究人员应该像翻译算法那样进行“切除研究”:一次删除一个算法的某些部分,以查看每个组件的功能。他呼吁进行“切片分析”,在此过程中,需要对一个算法的性能进行详细分析,以了解某些地方的改进是否会在其他方面产生成本。他还说,研究人员应该对其算法进行许多不同条件和设置的测试,并报告所有测试的性能。
加州大学伯克利分校计算机学家、Rahimi炼金术主题演讲论文的共同作者Ben Recht表示,AI应向物理学取经,该领域的研究人员经常把问题缩小到更小的“玩具问题”。他说:“物理学家在设计简单的实验以找到现象的解释方面非常惊人。”一些AI研究人员已经开始采用这种方法,在处理大型彩色照片之前,先在小黑白手写字符上测试图像识别算法,以更好地理解该算法的内部机制。
伦敦深度思维计算机科学家Csaba Szepesvari表示,该领域还需要减少对竞争性测试的重视。他说,现在如果一篇论文报告的算法优于某些基准,而非阐明该软件的内部工作原理,就更有可能被发表。这就是花哨的翻译算法通过同行评审的方式。“科学的目的是产生知识,”他说,“你需要生产出别人可以使用并可以以它为基础的东西。”
并非所有人都同意Rahimi和Recht的批评。脸谱网纽约首席AI科学家Yann LeCun担心,把太多的精力从尖端技术转移到核心理解上,可能会减缓创新,阻碍AI的实际应用。“这不是炼金术,而是工程学。”他说,“工程学是散乱复杂的。”
Recht发现一个适合系统性且容许冒险研究的地方。“我们两者都需要。”他说,“我们需要了解故障来自哪里,这样就可以建立可靠的系统;我们必须向前推进边界,这样就能沿着这条路线拥有更好的系统。”(晋楠编译)
更多阅读
《科学》相关报道