深度求索(DeepSeek)在大众视野里初次“探头”,竟成“深度惊奇”!这家中国人工智能(AI)新秀公司据说能以很小的成本训练出能匹敌现有大语言模型的新模型,而选在乙巳大年前几天推出,有战略玄机――春节长假,闲下来的中文用户“心痒难搔”安装应用尝鲜,并通过社媒迅速传播引爆话题。“蛇形”还不够,再出“刁手”――小年夜,深度求索发布文生图模型Janus-Pro 7B,誓要把这个时间窗口“用到尽”?

全世界使用其他大模型的网民都跃跃欲试,一探中国舆论宣称的“DeepSeek V3和R1模型可匹敌ChatGPT 4o和o1模型”(下文分别简称为DS-V3、DS-R1、CG-4o、CG-o1)是否所言不虚。社交网络涌现大量测试帖,但有人甚至分不清V3和R1,更别说知道如何切换;就算有跨平台对比,也多是随机提问后直觉下结论,测试方式五花八门,结论也大相径庭。

深度求索官网列出DS-V3与CG-4o及其他主流模型的推理效率基准测试成绩,显示DS-V3表现稳健,甚至部分指标略胜。但这些“考试成绩”只反映模型在选择题或限制性问答上的平均表现,模型可针对性优化,如同“应试教育”。但现实中的AI任务远不止答题那么简单——真正考验的是知识广度、灵活检索和深度考据。考场高分不代表江湖无敌,AI的真功夫,得在荒野求生(不可预测的实际任务提示)中见真章。