(北京综合讯)中国人工智能初创公司深度求索(DeepSeek)和清华大学合作开发出一种新模型,据报可以提高大语言模型的推理能力,减少训练量以降低运营成本,或将应用于即将推出的新一代大模型R2。
综合彭博社、《南华早报》等报道,DeepSeek和清华大学的研究人员合作,在上周五(4月4日)发表的论文中详细介绍一种新的强化学习方法,可提高人工智能模型的效率。
报道称,他们开发了一种将“通用奖励模型”(Generalist Reward Modeling,简称GRM)和“自我原则化批判调优”(Self-Principled Critique Tuning)相结合的方法,使大语言模型能更好更快地回答一般查询问题。
研究人员在论文中说,这一新方法通过奖励更准确、更易懂的回答,帮助人工智能模型更好地遵循人类偏好,在各类基准测试中的表现优于现有方法和模型。结果显示,使用更少的计算资源就能获得更好的性能。
论文称这一新模型为“DeepSeek-GRM”,将以开源形式发布,但没有给出具体时间表。《麻省理工科技评论》报道称,新的训练方法或将应用于DeepSeek的下一代大模型R2。
DeepSeek今年1月推出的低成本大模型R1引起全球关注。路透社2月引述知情人士称,这家公司急于利用不断上升的知名度,或将提前推出原定5月发布的R2模型。