清华团队为“AI司机”量身“设计考题”—论文

作者：封硕等来源：《自然》发布时间：2023/4/5 15:38:38

选择字号：小中大

清华团队为“AI司机”量身“设计考题”

飞速发展的自动驾驶技术让汽车迈入“无人之境”的梦想不再遥不可及，但要想真正实现自动驾驶汽车的大规模商业化落地，安全测试验证成为了阻碍行业进一步发展的重要因素。

近日，清华大学自动化系智能交通研究团队助理教授封硕与美国密西根大学科研人员合作，研发出一套全新的安全测试系统，为“AI司机”量身定制出一套“驾考试题”。该成果发表在《自然》（Nature）正刊上，并登上当期封面。

《自然》当期封面清华大学供图

随着自动驾驶技术的发展，当驾驶水平越来越接近人类驾驶员，无人驾驶汽车的安全性能测试变得愈发重要，但同时也更难以开展。封硕表示：“目前业内对此已初步达成了研究共识——亟需解决‘百亿公里’难题。”

所谓“百亿公里”难题，指在自动驾驶汽车投入大规模应用前，需要开展大规模的道路测试，从统计学上验证自动驾驶汽车的安全性。据估算，这个测试规模至少要达到百亿公里。从时间、资源与成本上来看，在实际道路上进行测试显然难以实现。

如何以最小的成本、最高效地找出自动驾驶汽车的安全问题？封硕带领团队从统计学的视角寻找研究切入点。

经验丰富的司机在开车时遇到突发状况，会结合道路情况、附近车辆的反馈，凭借直觉判断并迅速作出反应，那么同样的情况摆在人工智能面前，它该如何作出决策？

“这本质上是一个超高维空间小概率事件的期望估计问题。”封硕解释道，“人机交互的复杂性与道路交通状态的复杂性决定了自动驾驶汽车需要处理超高维空间内发生的各种情况，这是我们面对的‘维度灾难’。而在测试中为了验证安全性，我们需要自动驾驶汽车能够学会处理各种危险状况下的交通事件，由于危险状况往往是小概率事件，所以我们还会面临‘稀疏度灾难’。”

密集学习方法通过删除非关键状态、连接关键状态来编辑马尔可夫过程，再通过编辑后的马尔可夫过程训练神经网络清华大学供图

将实际问题从统计学的视角转化为学术问题后，封硕团队从理论层面寻求突破，创造性地提出了密集强化学习方法（D2RL），通过识别和删除非安全关键状态、连接安全关键状态，并在编辑后的马尔科夫过程中训练神经网络，解决了“稀疏度灾难”。同时利用密集强化学习方法训练交通环境中的背景车辆，构建出一个由自动驾驶汽车和背景车辆组成的智能测试环境，从而实现了模拟环境替代实际道路环境。

“通俗来讲，我们的智能测试系统将自动驾驶汽车周围的背景车辆模拟成为一个个智能体，大家有着不同的驾驶目的——自动驾驶汽车希望更安全地行驶，背景车辆希望更好地帮助自动驾驶汽车发现安全问题。这样我们就可以通过改变背景车辆的行为来实现对自动驾驶汽车安全性能的测试，让测试里程大幅减少，让测试过程变得更高效。”封硕形象地将这一过程比喻为“AI司机”寻找“陪练”。

为了让“陪练”更精准有效地提供帮助，研究团队收集到海量人类驾驶数据对“陪练”进行拟人化训练，从而确保测试环境更加贴合人类驾驶环境。同时还通过技术手段增加“陪练”司机的“危险系数”，让它们在行驶过程中表现出更强的侵略性与对抗性，从而增加测试环境的挑战性。

基于增强现实测试平台，研究团队根据其研究思路对L4级自动驾驶汽车开展了安全性测试。结果表明，这种方法不但可以有效学习生成智能测试环境，并且与直接在自然驾驶环境中测试自动驾驶汽车相比，智能测试环境可以加快评估过程多个数量级（约10³-10⁵）。这意味着实验中每1公里的测试，近似等价于实际道路测试中1千到1万公里的结果，这就极大地加速了安全测试流程。

“我们这套方法为‘AI验证AI’这种研究思路提供了一个可供借鉴的具体案例，”封硕对于当前的研究还有更长远的构想，“这套方法未来有潜力拓展到更广泛的领域，这也是我们未来的研究方向。”（来源：中国科学报陈彬）

相关论文信息：https://doi.org/10.1038/s41586-023-05732-2

编辑部推荐博文
研究生迷茫常见原因及应对之策人机协同的旋转探秘神农架：小龙潭观鸟张锋团队揭示真核基因编辑器Fanzor的结构多样性数学家揭穿了GPS的假设，提出来改进方案对牛津剑桥中国学生发展通道的一些观察和建议更多>>