2025年1月20日,一家默默无闻的中国人工智能(AI)初创公司“深度求索”(DeepSeek)选择在美国总统特朗普就职当天,发布一款开源的推理模型R1,性能几乎可媲美全球AI巨头OpenAI的o1模型。DeepSeek的横空出世撼动了全球AI竞赛的格局,促使各国重新审视中国在人工智能领域的崛起与潜力。
推理模型,顾名思义指具备推理能力的大语言模型。推理模型在面对复杂任务场景时,可以通过多步骤推理生成答案,且能通过在后训练或在线推理阶段加大资源投入,提升模型性能。推理模型因此被视为大语言模型发展的新方向。
网络安全公司卡巴斯基(Kaspersky)人工智能技术研究中心的团队经理图什卡诺夫(Vladislav Tushkanov)说:“推理模型其实始于OpenAI去年12月发布的o1模型,不过o1模型是闭源的,而且只有付费用户才能使用。DeepSeek R1则是免费给用户使用,并且还开放给大家看它的推理思维方式,因此引起人们极大关注。”