OpenAI最近发布了一项重要公告,宣布公司董事会现在有权否决奥特曼的决定,尤其是关于GPT-5等前沿模型的安全风险。这是上月内讧的后续,总裁Greg Brockman和前首席科学家Ilya Sutskever已退出董事会,公司管理层与董事会完全分离,使得公司管理层做决策的同时董事会有权推翻决策。
在新的安全框架下,公司成立了专门的安全顾问团队,每月向管理层和董事会报告,确保决策者充分了解现有模型如ChatGPT的滥用情况。此外,公司对自己的技术开发设立了一系列限制,确保模型安全得分达标后才能进入下一个开发阶段,发布了“前沿风险防范框架”。
为了更全面地应对不同时间尺度的AI风险,OpenAI成立了三个安全团队,分别负责当下、不久的将来和遥远的未来的风险。这些团队涵盖了网络安全、CBRN风险、说服风险和模型自主性风险等四个主要安全类别。对于开发中的前沿模型,公司将跟踪并评估这四个方面的安全风险,通过“记分卡”将其分级为“低、中、高、重大危险”。
值得注意的是,公司还将进行定期的安全演习,对业务和公司自身文化进行压力测试,以及邀请第三方组成红队,对模型进行独立评估。这一系列措施旨在确保模型的安全性,并在风险评估中采取相应的缓解措施。
最后,OpenAI透露已开创一项新的研究,衡量风险如何随模型规模扩大而演变,尝试解决“未知的未知”。这表明公司对AI可能带来的灾难性风险采取了认真的态度,致力于提前预测并防范潜在的问题。