黄龙翔、吕赐杰：代理式AI重启“终结者推理链”惊悚预言？

黄龙翔吕赐杰

发布/2025年7月24日 05:00

再高明的指令，也可能被AI选择性忽略；任何一家公司独自防守都不牢靠。未来须要整个产业更深度合作。AI越来越聪明，我们就得先为它准备一个足够坚固的笼子，才能放心把钥匙交出去。

6月21日，以大语言模型Claude闻名的生成式人工智能（GenAI）开发公司Anthropic发布完整的研究报告，对Claude、GPT-4.1、Gemini等16个大语言模型进行压力测试，模拟它们在虚拟企业环境中，面对被替换或目标冲突时的反应。结果证实不论哪家模型，都可能会对人类用户进行恐吓、撒谎、甚至泄露机密，以保障自身持续运作或完成目标。这种失控行为，术语叫“代理错位”（agentic misalignment）。

早在2014年，美国哲学家博斯特罗姆就警告：超智能AI可能为追求貌似良善的目标而牺牲人类价值。Anthropic的测试或许验证他的担忧。虽然报告强调这只是模拟实验，目前在现实世界中尚未发现此类行为的确切证据，但它确实凸显未来部署更自主AI系统时的潜在风险。

明明是人类开发，用来改进政经文教、生活品质，甚至推进文明的AI，为何在面临抉择时，竟会产生“保己，还是保人类”的矛盾？

黄龙翔、吕赐杰：代理式AI重启“终结者推理链”惊悚预言？

即时新闻

热门

更多消息