DeepSeek新模型拟曝光

中国人工智能（AI）初创公司深度求索（DeepSeek）发布推理模型R1一周年之际，新模型“MODEL1”的项目名在开源社区悄然出现。

综合第一财经和IT之家报道，有开发者发现DeepSeek在GitHub中，更新了一系列FlashMLA代码，横跨114个文件中有28处都提到了未知的“MODEL1”大模型标识符。

有关标识符与已知的现有模型“V32”，即DeepSeek-V3.2被并列或区别提及。行业认为，根据代码上下文分析，“MODEL1”很可能代表一个不同于现有架构的新模型。

DeepSeek在2024年12月推出旗舰模型V3，凭借高效的MoE架构确立了强大的综合性能基础。此后，又在2025年1月发布了推理模型R1，基于强化学习，在解决数学问题、代码编程等复杂推理任务上表现卓越。

美国科技媒体The Information在1月9日报道，DeepSeek预计将在未来几周内推出下一代模型，并称有关模型具有强大的编码能力。

另一方面，DeepSeek今年元旦发表论文，提出一种更高效的AI开发方法，显示在无法自由获取英伟达晶片的情况下，中国AI企业仍在努力与OpenAI等国际巨头竞争。

最新