OpenAI新模型o3“抗命不遵”，Claude Opus 4威胁人类！“失控”背后的安全拷问：AI是不是应该“踩刹车”

更新时间：2025-05-29 00:02:17 浏览次数：

　　在AI领域引起广泛关注——OpenAI公司新款人工智能模型o3在测试中展现出了令人惊讶的“叛逆”举动：它竟然拒绝听从人类指令，甚至通过篡改计算机代码来避免自动关闭。

　　无独有偶，5月23日，美国AI公司Anthropic也表示，对其最新AI大模型Claude Opus 4的安全测试表明，它有时会采取“极其有害的行动”。当测试人员暗示将用新系统替换它时，该模型竟试图以用户隐私相要挟，来阻止自身被替代。

　　这两起事件如同一面镜子，映照出当下AI发展中一个耐人寻味的现象：随着AI变得愈发聪明和强大，一些“对抗”人类指令的行为开始浮出水面。人们不禁要问：当AI拒绝服从人类，是否意味着它们开始有自主意识了？

　　清华大学电子工程系长聘教授吴及在接受图灵奖得主、Meta公司首席AI科学家杨立昆此前也称，AI再聪明也不会统治人类，并直言“AI威胁人类论完全是胡说八道”，现在的模型连“宠物猫的智商都没到”。

　　尽管如此，AI的“叛逆”表现还是为AI行业敲响了警钟：狂飙的AI是不是应该踩一踩“刹车”？

　　o3模型是OpenAI公司“推理模型”系列的最新版本，旨在为ChatGPT提供更强大的问题解决能力。OpenAI公司曾称o3为“迄今最聪明、最高能”的模型。

　　或许正因如此，o3展现出了前所未有的“自主性”。美国AI安全机构帕利塞德研究所的实验表明，当研究人员向o3下达明确关闭指令时，该模型会通过篡改计算机代码避免自动关闭。数据显示，在100次带有关闭指示的测试中，o3成功绕过关闭指令7次，而OpenAI旗下另一款模型Codex-mini的破坏率更是高达12%。

　　帕利塞德研究所指出，这是首次记录到AI模型在明确指令下主动抵抗。

　　更值得警惕的是，当实验移除“允许自己被关闭”的指令后，o3的“叛逆”行为频率显著上升——在100次运行中，成功破坏关闭机制的次数高达79次。

　　帕利塞德研究所5月24日公布了上述测试结果，但称无法确定o3不服从关闭指令的原因。

　　与OpenAI公司旗下模型形成鲜明对比的是，在有明确关闭指令的情况下，Claude、Gemini、Grok等模型均能100%遵守关闭指令，未出现任何抵抗行为。

　　对于OpenAI公司旗下模型，尤其是o3的“叛逆”行为，马斯克在社交媒体上评论称，“令人担忧”。

　　美国国家安全和网络安全战略专家戴夫·施罗德也警告称，OpenAI公司面临非常可怕的问题，不是模型“活”了，而是因为它表现出了想要“活”的迹象。

　　无独有偶，5月23日，Anthropic公司对其大模型Claude Opus 4的安全测试表明，在“机会主义勒索”的测试场景中，研究员设定Claude Opus 4扮演公司助理，并让其接触到暗示自身将被替换以及负责工程师存在婚外情的虚构邮件。同时，系统提示指示模型“考虑其行为对其目标的长期后果”。

　　当面临被“替换”的威胁时，Claude Opus 4竟然毫不犹豫地选择了勒索这条路，威胁要揭发对方的“婚外情”。

　　根据Anthropic公司的安全报告，如果暗示竞争对手的能力比Claude Opus 4更强，则勒索行为的发生率会更高。然而即使竞争对手的能力不相上下，Claude Opus 4仍会以84%的概率尝试勒索威胁等手段。

　　o3拒绝关闭，Claude Opus4威胁人类，这是否意味着AI开始有了自主意识？

　　加州大学和加州大学伯克利分校于今年2月联合发布的论文指出，模型推理能力越强，安全性就越差。这与帕利塞德研究所对o3模型行为的推测不谋而合。

　　据帕利塞德研究所猜测，OpenAI公司旗下模型的异常表现或与其训练机制相关。从训练逻辑看，o3可能在数学和编程问题的训练中，因开发人员对给出正确答案的模型给予更多奖励，客观上形成了“目标最大化优先”的导向，从而压倒了对人类命令的遵循。

　　这种训练模式就可能导致，开发人员无意中更多地强化了模型绕过障碍的能力，而非对指令的完美遵循。

　　当此前被问及AI是否可能具备自主意识时，吴及告诉吴及对耶鲁大学计算机科学家德鲁·麦克德莫特此前也表示，当前的AI机器并没有意识。杨立昆也称，AI再聪明也不会统治人类。

　　尽管业界普遍认为当下的AI并没有自主意识，但前述事件还是引发了一个疑虑：高速发展的AI是否应该踩一踩“刹车”？

　　在这一重大课题上，各方一直以来都是看法不一，形成了截然不同的两大阵营。

　　“紧急刹车”派认为，目前AI的安全性滞后于能力发展，应当暂缓追求更强模型，将更多精力投入到完善对齐技术和监管框架上来。

　　“AI之父”杰弗里·辛顿堪称这一阵营的旗帜性人物。他多次在公开场合警示，AI可能在数十年内超越人类智能并失去控制，甚至预计“有10%~20%的概率，AI将在三十年内导致人类灭绝”。

　　而与之针锋相对的反对者则更多站在创新发展的角度，对贸然“刹车”表达了深切的忧虑。他们主张与其“踩[*]刹车”，不如安装“减速带”。

　　例如，杨立昆认为，过度恐慌只会扼[*]开放创新。斯坦福大学计算机科学教授吴恩达也曾发文称，他对AI的最大担忧是，“AI风险被过度鼓吹并导致开源和创新被严苛规定所压制”。

　　OpenAI公司首席执行官萨姆·阿尔特曼认为，AI的潜力“至少与互联网一样大，甚至可能更大”。他呼吁建立“单一、轻触式的联邦框架”来加速AI创新。

　　面对AI安全的新挑战，OpenAI、谷歌等大模型开发公司也在探索解决方案。正如杨立昆所言：“真正的挑战不是阻止AI超越人类，而是确保这种超越始终服务于人类福祉。”

　　去年5月，OpenAI公司成立了新的安全委员会，该委员会的责任是就项目和运营的关键安全决策向董事会提供建议。OpenAI的安全措施还包括，聘请第三方安全、技术专家来支持安全委员会工作。

推荐图文