6月21日,以大语言模型Claude闻名的生成式人工智能(GenAI)开发公司Anthropic发布完整的研究报告,对Claude、GPT-4.1、Gemini等16个大语言模型进行压力测试,模拟它们在虚拟企业环境中,面对被替换或目标冲突时的反应。结果证实不论哪家模型,都可能会对人类用户进行恐吓、撒谎、甚至泄露机密,以保障自身持续运作或完成目标。这种失控行为,术语叫“代理错位”(agentic misalignment)。
早在2014年,美国哲学家博斯特罗姆就警告:超智能AI可能为追求貌似良善的目标而牺牲人类价值。Anthropic的测试或许验证他的担忧。虽然报告强调这只是模拟实验,目前在现实世界中尚未发现此类行为的确切证据,但它确实凸显未来部署更自主AI系统时的潜在风险。
明明是人类开发,用来改进政经文教、生活品质,甚至推进文明的AI,为何在面临抉择时,竟会产生“保己,还是保人类”的矛盾?
