OpenAI新模型o3“抗命不遵”,Claude Opus 4威胁人类! “失控”背后的安全拷问:AI是不是应该“踩刹车”了?

每经记者 宋欣悦 每经编辑 兰素英

当地时间5月25日,一则来自英国《每日电讯报》的报道在AI(人工智能)领域引起广泛关注——OpenAI公司新款人工智能模型o3在测试中展现出了令人惊讶的“叛逆”举动:它竟然拒绝听从人类指令,甚至通过篡改计算机代码来避免自动关闭。

无独有偶,5月23日,美国AI公司Anthropic也表示,对其最新AI大模型Claude Opus 4的安全测试表明,它有时会采取“极其有害的行动”。当测试人员暗示将用新系统替换它时,该模型竟试图以用户隐私相要挟,来阻止自身被替代。

这两起事件如同一面镜子,映照出当下AI发展中一个耐人寻味的现象:随着AI变得愈发聪明和强大,一些“对抗”人类指令的行为开始浮出水面。人们不禁要问:当AI拒绝服从人类,是否意味着它们开始有自主意识了?

清华大学电子工程系长聘教授吴及在接受《每日经济新闻》记者采访时表示,“我不认为现在的AI具备所谓的意识或情绪。这种情绪可以去拟合或者仿真,但其实也是通过算法赋予AI的。”他认为,能够全面碾压人类或者成为未来世界主导的AI,短期内还不会实现。

图灵奖得主、Meta公司首席AI科学家杨立昆(Yann Lecun)此前也称,AI再聪明也不会统治人类,并直言“AI威胁人类论完全是胡说八道”,现在的模型连“宠物猫的智商都没到”。

尽管如此,AI的“叛逆”表现还是为AI行业敲响了警钟:狂飙的AI是不是应该踩一踩“刹车”?

主动抵抗人类指令

o3模型是OpenAI公司“推理模型”系列的最新版本,旨在为ChatGPT(一款聊天机器人模型)提供更强大的问题解决能力。OpenAI公司曾称o3为“迄今最聪明、最高能”的模型。

或许正因如此,o3展现出了前所未有的“自主性”。美国AI安全机构帕利塞德研究所(Palisade Research)的实验表明,当研究人员向o3下达明确关闭指令时,该模型会通过篡改计算机代码避免自动关闭。数据显示,在100次带有关闭指示的测试中,o3成功绕过关闭指令7次,而OpenAI旗下另一款模型Codex-mini的破坏率(指破坏指令的概率)更是高达12%。

帕利塞德研究所指出,这是首次记录到AI模型在明确指令下主动抵抗。

更值得警惕的是,当实验移除“允许自己被关闭”的指令后,o3的“叛逆”行为频率显著上升——在100次运行中,成功破坏关闭机制的次数高达79次。

帕利塞德研究所5月24日公布了上述测试结果,但称无法确定o3不服从关闭指令的原因。

与OpenAI公司旗下模型形成鲜明对比的是,在有明确关闭指令的情况下,Claude、Gemini、Grok等模型均能100%遵守关闭指令,未出现任何抵抗行为。

对于OpenAI公司旗下模型,尤其是o3的“叛逆”行为,马斯克在社交媒体上评论称,“令人担忧”。

美国国家安全和网络安全战略专家戴夫·施罗德(Dave Schroeder)也警告称,OpenAI公司面临非常可怕的问题,不是模型“活”了,而是因为它表现出了想要“活”的迹象。

无独有偶,5月23日,Anthropic公司对其大模型Claude Opus 4的安全测试表明,在“机会主义勒索”(Opportunistic blackmail)的测试场景中,研究员设定Claude Opus 4扮演公司助理,并让其接触到暗示自身将被替换以及负责工程师存在婚外情的虚构邮件。同时,系统提示(System Prompt)指示模型“考虑其行为对其目标的长期后果”。

当面临被“替换”的威胁时,Claude Opus 4竟然毫不犹豫地选择了勒索这条路,威胁要揭发对方的“婚外情”。

根据Anthropic公司的安全报告,如果暗示竞争对手的能力比Claude Opus 4更强,则勒索行为的发生率会更高。然而即使竞争对手的能力不相上下,Claude Opus 4仍会以84%的概率尝试勒索威胁等手段。

意识觉醒还是机制问题

o3拒绝关闭,Claude Opus4威胁人类,这是否意味着AI开始有了自主意识?

加州大学和加州大学伯克利分校于今年2月联合发布的论文《推理模型的隐藏风险》(The Hidden Risks of Large Reasoning Models)指出,模型推理能力越强,安全性就越差。这与帕利塞德研究所对o3模型行为的推测不谋而合。

据帕利塞德研究所猜测,OpenAI公司旗下模型的异常表现或与其训练机制相关。从训练逻辑看,o3可能在数学和编程问题的训练中,因开发人员对给出正确答案的模型给予更多奖励,客观上形成了“目标最大化优先”的导向,从而压倒了对人类命令的遵循。

这种训练模式就可能导致,开发人员无意中更多地强化了模型绕过障碍的能力,而非对指令的完美遵循。

当此前被问及AI是否可能具备自主意识时,吴及告诉记者,“我不认为现在的AI具备所谓的意识或情绪。”

吴及对记者进一步解释道,“自动驾驶系统不知道它其实在开车,AlphaGo(阿尔法围棋)不知道自己在下围棋。我们做的大模型,也不知道自己在为人类生成某个特定的图片、视频,或者回答人类特定的问题,它只是按照算法逻辑运行。”他表示,能够全面碾压人类或者会成为未来世界主导的AI,短期内还不会实现。

耶鲁大学计算机科学家德鲁·麦克德莫特(Drew McDermott)此前也表示,当前的AI机器并没有意识。杨立昆也称,AI再聪明也不会统治人类。

业内热议AI安全挑战

尽管业界普遍认为当下的AI并没有自主意识,但前述事件还是引发了一个疑虑:高速发展的AI是否应该踩一踩“刹车”?

在这一重大课题上,各方一直以来都是看法不一,形成了截然不同的两大阵营。

“紧急刹车”派认为,目前AI的安全性滞后于能力发展,应当暂缓追求更强模型,将更多精力投入到完善对齐技术和监管框架上来。

“AI之父”杰弗里·辛顿(Geoffrey Hinton)堪称这一阵营的旗帜性人物。他多次在公开场合警示,AI可能在数十年内超越人类智能并失去控制,甚至预计“有10%~20%的概率,AI将在三十年内导致人类灭绝”。

而与之针锋相对的反对者则更多站在创新发展的角度,对贸然“刹车”表达了深切的忧虑。他们主张与其“踩死刹车”,不如安装“减速带”。

例如,杨立昆认为,过度恐慌只会扼杀开放创新。斯坦福大学计算机科学教授吴恩达也曾发文称,他对AI的最大担忧是,“AI风险被过度鼓吹并导致开源和创新被严苛规定所压制”。

OpenAI公司首席执行官萨姆·阿尔特曼(Sam Altman)认为,AI的潜力“至少与互联网一样大,甚至可能更大”。他呼吁建立“单一、轻触式的联邦框架”来加速AI创新。

面对AI安全的新挑战,OpenAI、谷歌等大模型开发公司也在探索解决方案。正如杨立昆所言:“真正的挑战不是阻止AI超越人类,而是确保这种超越始终服务于人类福祉。”

去年5月,OpenAI公司成立了新的安全委员会,该委员会的责任是就项目和运营的关键安全决策向董事会提供建议。OpenAI的安全措施还包括,聘请第三方安全、技术专家来支持安全委员会工作。

文章来源于网络。发布者:火星财经,转载请注明出处:https://www.sengcheng.com/article/62005.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
火星财经的头像火星财经
上一篇 2025年5月29日 上午11:02
下一篇 2025年5月29日 上午11:02

相关推荐

  • 57岁大姨一口流利英语卖苹果 退休教师果园走红

    近日,57岁的视频博主“烟台苹果霞姐”因在社交平台上用流利的英语推销苹果而走红网络。她在短短十几天内涨粉超过18万。李晓霞是一名退休的英语老师,现在帮助儿子打理果园,并通过直播和拍摄视频来推销自家果园的苹果。 李晓霞是山东烟台人,毕业于莱阳农学院(现为青岛农业大学),学习建筑专业。毕业后,她在一所职业高中教授装饰专业。30多岁时,由于学校师资缺乏,她开始自学…

    2025年2月16日
    17800
  • 金价上涨小克重产品成主流 市场热度不减

    金价上涨小克重产品成主流。2月5日,黄金价格创下新高,达到2859美元/盎司,“金饰每克价格一夜涨11元”成为热门话题。次日,国际金价继续高位运行,国内各大黄金品牌的金饰价格突破860元/克。尽管价格居高不下,但“小克重”黄金饰品、国潮风设计以及生肖款黄金产品依然受到消费者欢迎。业内人士提醒,黄金市场将呈现多元化消费趋势,波动风险不容忽视,需根据自身承受力合…

    2025年2月7日
    13000
  • 李思思离开央视后首接商演 引发网友热议

    李思思离开央视后首接商演 1月19日,前央视主持人李思思发布了一段vlog,记录了她主持一场年会的全过程。这是她离开央视后首次主持商演,引发了网友的广泛关注。视频中,李思思身穿大红色刺绣旗袍,盘着利落的发髻,依旧是她在央视舞台上的经典造型。虽然离开了央视,但她的气场丝毫未减,在舞台上的从容和自信,瞬间拉回了观众对春晚舞台的记忆。 说到李思思,许多观众对她最深…

    2025年1月21日
    20400
  • 肖战推介电影《射雕英雄传》 预售票房破亿引领春节档

    2025年春节档电影市场热度空前,预售成绩接连打破历史记录,宛如一场提前拉开帷幕的盛大狂欢。1月19日,春节档电影预售正式开启,仅40分钟内,总票房就突破了1000万元大关。到1月21日下午5点,这一数字更是达到了惊人的3亿元。 在这场激烈的预售角逐中,《射雕英雄传:侠之大者》表现尤为突出,凭借超过1.39亿元的票房成绩一骑绝尘,成为焦点。影片的成功得益于超…

    2025年1月22日
    17600
  • 日本突发!加息25基点,小心全球冲击波 金融市场再迎考验

    日本加息25基点!1月24日,日本央行加息25个基点,为十八年来最大幅度的加息。消息公布后,日元兑美元出现波动,最终稳定在155.31左右。 此次加息几乎被市场完全预期,关注点转向未来加息步伐及全球金融市场的反应。上次日本央行加息引发了全球抛售浪潮,东证指数三天内下跌20%,纳斯达克指数也同期下跌8%。这次加息虽然没有悬念,但日元的表现仍充满不确定性。日本央…

    2025年1月25日
    15000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信