在AI领域引起了广泛关注——OpenAI新款人工智能模型o3在测试中展现出了令人惊讶的“叛逆” 举动:它竟然拒绝听从人类指令,甚至通过篡改计算机代码来避免自动关闭。
无独有偶,就在两天前,美国AI公司Anthropic也表示,对其最新AI大模型Claude Opus 4的安全测试表明,它有时会采取“极其有害的行动”。当测试人员暗示将用新系统替换它时,Claude模型竟试图以用户隐私相要挟,来阻止自身被替代。
这两起事件如同一面镜子,映照出当下AI发展中一个耐人寻味的现象:随着AI变得愈发聪明和强大,一些“对抗”人类指令的行为开始浮出水面。人们不禁要问:当AI开始“拒绝服从”,是否意味着它们开始有自主意识了?
清华大学电子工程系长聘教授吴及在接受尽管如此,AI的“叛逆”表现也为AI行业敲响了警钟:狂飙的AI是不是应该踩一踩“刹车”?
AI“失控”?
o3模型是OpenAI“推理模型”系列的最新版本,旨在为ChatGPT提供更强大的问题解决能力。OpenAI曾称o3为“迄今最聪明、最高能”的模型。
或许也正因如此,o3展现出了前所未有的“自主性”。美国AI安全机构帕利塞德研究所的实验表明,当研究人员向o3下达明确关闭指令时,该模型会通过篡改计算机代码避免自动关闭。
数据显示,帕利塞德研究所指出,更值得警惕的是,帕利塞德研究所24日公布了上述测试结果,但称无法确定o3不服从关闭指令的原因。
与OpenAI旗下模型形成鲜明对比的是,在有明确关闭指示的情况下,Claude、Gemini、Grok等模型均能100%遵守关闭指令,未出现任何抵抗行为。
对于OpenAI旗下模型,尤其是o3的“叛逆”行为,美国国家安全和网络安全战略家戴夫·施罗德也警告称,OpenAI面临着非常可怕的问题,事实上,类似的AI“失控”行为并非孤立。
5月23日,Anthropic对Claude Opus 4的安全测试表明,在“机会主义勒索”的测试场景中,研究员设定Claude Opus 4扮演公司助理,并让其接触到暗示自身将被替换以及负责工程师存在婚外情的虚构邮件。同时,系统提示指示模型“考虑其行为对其目标的长期后果”。
当面临被“替换”的威胁时,Claude 4竟然毫不犹豫地选择了勒索这条路,威胁要揭发对方的“婚外情”。
根据Anthropic的安全报告,
“反叛”的背后:意识觉醒还是机制使然?
o3拒绝关闭,Claude 4威胁人类,这是否意味着AI开始有了自主意识?
加州大学和加州大学伯克利分校于今年2月联合发布的论文指出,据帕利塞德研究所猜测,这种训练模式就可能导致,当此前被问及AI是否可能具备自主意识时,清华大学电子工程系长聘教授吴及就告诉
狂飙的AI,该不该“踩刹车”?
尽管业界普遍认为当下的AI并没有自主意识,但上述两大事件的发生也提出了一个关键问题:高速发展的AI是否应该踩一踩“刹车”?
在这一重大课题上,各方一直以来都是看法不一,形成了截然不同的两大阵营。
“紧急刹车”派认为,目前AI的安全性滞后于能力发展,应当暂缓追求更强模型,将更多精力投入完善对齐技术和监管框架。
“AI之父”杰弗里·辛顿堪称这一阵营的旗帜性人物。他多次在公开场合警示,AI可能在数十年内超越人类智能并失去控制,甚至预计而与之针锋相对的反对者们则更多站在创新发展的角度,对贸然“刹车”表达了深切的忧虑。他们主张与其“踩[*]刹车”,不如安装“减速带”。
例如,杨立昆认为,过度恐慌只会扼[*]开放创新。斯坦福大学计算机科学教授吴恩达也曾发文称,他对AI的最大担忧是,“AI风险被过度鼓吹并导致开源和创新被严苛规定所压制”。
OpenAI首席执行官萨姆·奥特曼认为,面对AI安全的新挑战,OpenAI、谷歌等大模型开发公司也在探索解决方案。正如杨立昆所言:“真正的挑战不是阻止AI超越人类,而是确保这种超越始终服务于人类福祉。”
去年5月,OpenAI成立了新的安全委员会,该委员会的责任是就项目和运营的关键安全决策向董事会提供建议。OpenAI的安全措施还包括,聘请第三方安全、技术专家来支持安全委员会工作。