·生产中的模型由“安全系统”团队管理。开发中的前沿模型有“准备”团队,该团队会在模型发布之前识别和量化风险。然后是“超级对齐”团队,他们正在研究“超级智能”模型的理论指南。
·一个新的“安全顾问小组”将位于技术团队之上,向领导层提出建议,并且董事会被授予否决权。
当地时间12月18日,OpenAI在官网中宣布,其正在扩展内部安全流程,以抵御有害人工智能的威胁。一个新的“安全顾问小组”将位于技术团队之上,向领导层提出建议,并且董事会被授予否决权。
这项更新引起注意很大程度上是因为,此前OpenAI首席执行官山姆·奥特曼(Sam Altman)被董事会罢黜的一个缘由似乎与大模型安全问题相关。而在高层人事混乱后,OpenAI董事会的两名“减速主义”成员伊尔亚·苏茨克维(Ilya Sutskever)和海伦·托纳(Helen Toner)就失去了董事会席位。
在文章中,OpenAI讨论了其最新的“准备框架”,即OpenAI跟踪、评估、预测和防范日益强大的模型带来灾难性风险的流程。如何定义灾难性风险?OpenAI表示,“我们所说的灾难性风险是指,任何可能导致数千亿美元经济损失或导致许多人严重伤害或死亡的风险——包括但不限于生存风险。”
三组安全团队覆盖不同的时间框架和风险。
根据OpenAI官网信息,生产中的模型由“安全系统”团队管理。开发中的前沿模型有“准备”团队,该团队会在模型发布之前识别和量化风险。然后是“超级对齐”(superalignment)团队,他们正在研究“超级智能”(superintelligent)模型的理论指南。
OpenAI的团队将根据四个风险类别对每个模型进行评级:网络安全、“说服”(例如虚假信息)、模型自主性(即自行行动)和CBRN(化学、生物、放射性和核威胁,例如创造新病原体的能力)。
OpenAI假定了各种缓解措施:例如,模型对于描述制作凝固汽油或管式炸弹的过程保持合理的保留态度。在考虑已知的缓解措施后,如果一个模型仍然被评估为具有“高”风险,它将无法部署,如果一个模型存在任何“关键”风险,将不会进一步开发。
而制作模型的人不一定是评估模型和提出建议的最佳人选。正是由于这个原因,OpenAI正在组建一个“跨职能安全咨询小组”,该小组将位于技术层面,审查研究人员的报告并从更高的角度提出建议,希望为其发现一些“未知的未知”。
这个过程要求这些建议同时发送给董事会和领导层,领导层将决定是继续还是停止运行,但董事会将能够撤销这些决定。这有望避免在董事会不知情的情况下让高风险产品或流程获得批准。
不过,依然令外界担心的是,如果专家小组提出建议,首席执行官根据该信息做出了决策,那么OpenAI目前这个董事会真的会感到有权反驳并踩下刹车吗?如果他们这样做了,外界的公众会听到相关的声音吗?目前除了OpenAI将征求独立第三方审计的承诺之外,其透明度问题实际上并没有真正得到解决。
OpenAI“准备框架”五个关键要素:
1.评估和打分
我们将运行评估并不断更新我们模型的“记分卡”。我们将评估所有前沿模型,包括在训练运行期间增加两倍的有效计算量。我们将把模型推向极限。这些发现将有助于我们评估前沿模型的风险,并衡量任何拟议的缓解措施的有效性。我们的目标是探测不安全的特定边缘,以有效地减轻暴露的风险。为了跟踪我们模型的安全水平,我们将制作风险“记分卡”和详细报告。
“记分卡”将评估所有前沿模型。
2.设定风险阈值
我们将定义触发安全措施的风险阈值。我们根据以下初始跟踪类别定义了风险级别阈值:网络安全、CBRN(化学、生物、放射性、核威胁)、说服和模型自主。我们指定了四个安全风险级别,只有缓解后得分为“中”或以下的模型才能部署;只有缓解后得分为“高”或以下的模型才能进一步开发。我们还将针对具有高风险或严重风险(缓解前)的模型实施额外的安全措施。
风险级别。
3.设定新的监督技术工作和安全决策运营结构
我们将建立一个专门的团队来监督技术工作和安全决策的运营结构。准备团队将推动技术工作来检查前沿模型能力的极限,进行评估并综合报告。这项技术工作对于OpenAI安全模型开发和部署的决策至关重要。我们正在创建一个跨职能的安全咨询小组来审查所有报告并将其同时发送给领导层和董事会。虽然领导层是决策者,但董事会拥有推翻决定的权利。
新的监督技术工作和安全决策运营结构。
4.增加安全性和外部问责制
我们将制定协议以提高安全性和外部责任。“准备团队”将定期进行安全演习,以针对我们的业务和自身文化进行压力测试。一些安全问题可能会迅速出现,因此我们有能力标记紧急问题以进行快速响应。我们认为,这项工作从OpenAI外部人员那里获得反馈并希望由合格的独立第三方进行审核是很有帮助的。我们将继续让其他人组成红队并评估我们的模型,并且我们计划与外部共享更新。
5.减少其他已知和未知的安全风险
我们将帮助减少其他已知和未知的安全风险。我们将与外部各方以及安全系统等内部团队密切合作,以跟踪现实世界中的滥用情况。我们还将与“Superalignment”(超级对齐)合作跟踪紧急的错位风险。我们还开创了衡量风险如何随着模型规模扩展而演变的新研究,以帮助提前预测风险,这类似于我们早期在规模法则方面取得的成功。最后,我们将运行一个连续的过程来尝试解决任何新出现的“未知的未知”。
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。