在练习时长一年半后,今天中午,DeepSeek 终于端上了新模型 DeepSeek V4,还在文章里直接把压力给到华为和寒武纪。。。
这一次的更新,在性能上其实没太出乎大家的意料,要说吊打 GPT,脚踢 Gemini 也不太可能。
但在开源模型里基本也够了,属于是站在一个开源领先,能和顶尖闭源模型一战的地位上。
现在,大家可以直接去官网上免费试用。直接打开对话框,不用任何操作就是 V4。
而且如果你想氪金,不管是便宜量大的 DeepSeek-V4-Flash,还是价格直接涨了 8 倍的 V4-Pro,都可以直接用上开发者 API。
不过即使涨价了,它炸了我都夸他响。因为和同等性能的友商比,这价格依旧太香了。
DeepSeek-V4-Pro 百万 token 输出大概 24 块钱,Claude Sonnet 4.6 差不多要 100 块。性能差不多,价格直接打到四分之一左右,这就很 DeepSeek。
当然,DeepSeek 还给大家画了个饼,说这次模型的涨价只是暂时的。
等过段时间华为的卡到货了,模型的价格还会给大家直接打下来。
小字最有用的一集
总的来说,这两个模型,基本上把 DeepSeek 过去一年半里攒的几个大招,一口气全都给端出来了。
在性能上就不说了,V4 Pro 能和 Claude Opus 4.6、GPT 5.4、Gemini 3.1 Pro 这些闭源顶尖模型打个五五开。
在写代码的生产力测试的环境中,V4 Pro 的能力也处于大于 Sonnet 4.5 ,但是小于 Opus 4.6 的阶段。
在知识库的丰富程度,推理能力上也都能够大幅度领先其他开源模型,同时比肩世界顶级闭源模型。
同时更重要的是,这次 DeepSeek 发出来的两个模型,都能支持 100 万 token 的上下文长度。
这玩意有啥用呢?
这两个月,什么小龙虾,爱马仕这类的 Agent 工具是层出不穷。在 Agent 的工作环境里,每次对话时所消耗的上下文是个天文数字。
而模型的上下文长度越长,就意味着干活的时候能记住更多的细节。
之前 Meta 的安全总监就翻过车,因为用的模型上下文长度不够,触发了 OpenClaw 的自动记忆压缩功能。
但一压缩,就把一些关键命令给忘掉了,结果就导致了这个安全总监的邮件给 AI 删了一大半。
而现在,DeepSeek 把百万上下文变成了模型的标配,新模型不管是 Pro 还是 flash,都能支持百万上下文长度。
这就意味着他俩干活的能力都很强。
我们也简单试了一下,给本红楼梦里随便贴了一段三体的科幻小说内容,然后丢给 DeepSeek V4 让它找。
结果用不着几秒,DeepSeek 就找到了异常。
同时和其他模型不太一样的是。
DeepSeek 的百万上下文还非常省钱。
大家都知道现在的大模型用的都是 transformer 架构,对话越长,KV Cache(临时缓存) 就越大,推理成本也越高,模型也就越花钱。
但这次,DeepSeek V4 直接变成了超级省钱冠军。
同样带着 100 万 token 的上下文干活,V4-Pro 每生成一个 token,背后的计算量差不多只要原来的四分之一。
模型用来记住前文的 KV Cache,也只剩原来的十分之一。
而这次 DeepSeek 之所以能把成本给打下来,靠的是一套全新的注意力机制。
HybridAttention。
它把过去的 CSA(压缩稀疏注意力)和 HCA(重度压缩注意力)这两种技术结合了起来。
前者相当于是一本书写目录,后者相当于是给这个目录里的章节来写摘要。
有了目录和摘要辅助记忆之后,模型在干活的时候,真正需要计算的压力就降了不少。
同时,他们还用上了去年搓出来的 mHC 来保证长文本的稳定性,用了 Muon 优化器来让模型的参数更稳定。。。
在底层和显卡的适配优化上也下了一大堆功夫,在英伟达和华为的卡上都测试了自己做的 fine-grained EP,能让模型的推理速度提升 1.50 到 1.73 倍。
而且还用上了之前北大开源的 TileLang(Tile Language),让模型变得没有那么依赖老黄的 CUDA。
不过可惜的是唯一的缺点就是,目前的 DeepSeek 虽然很强很便宜,但这次的 V4 还是不支持多模态,也就是还是看不懂图片。
这块很有可能是它们下一代的目标。
另外,除了在小字催华为的卡之外,咱们还发现了 DeepSeek V4 的其他一些小彩蛋。
比如说在提到 Agent 能力的时候,除了给 Claude Code、OpenClaw 这些名声在外的产品做了优化,还提到了腾讯的 CodeBuddy 这个突兀的小资历。
这或许和前段时间,腾讯、阿里正在洽谈投资 DeepSeek 的消息,有一定关联。
还有在测试对比友商的时候,Kimi K2.6 和智谱 GLM-5.1 的一些能力,DeepSeek 的人没测上,因为友商的 API 繁忙了。。。
智谱官方在不久前,也友好地回应了:哥们你如果想要,咱们绝对支持,高速率账号安排上。
对了, DeepSeek 还给造卡的硬件厂商们,提了个建议,那就是别瞎堆带宽,要算好“算力与通信”的比例,这样才更省电省钱。
并且,DeeSeek 官方也很坦诚,直言目前和世界最先进的闭源旗舰模型,能力上还是有 3 到 6 个月的差距。
最后,可以说 DeepSeek 这些日子,是受到了不少的讨论和非议的。
人才流失、国产芯片适配失败、各种传闻真看得人挺揪心的。
有人说它们是江郎才尽、昙花一现。
而 " DeepSeek 新版本下周更新 " 的消息,也都快成了和贾会计下周回国一样,成了科技圈的笑话。
甚至还有网友做了 AI 梗图,说梁文锋是因为要玩原神,才耽误了 DeepSeek V4。。。。
但玩归玩,笑归笑,别拿你 D 老师开玩笑,DeepSeek 用实力证明,它依旧是那个开源的源神。
和华为等国产芯片厂商的合作,也让人看到了咱们在AI领域打破垄断的决心和实力。
去年 DeepSeek R1 的开源,给全球的大模型带来了大推理时代。
而今年的 DeepSeek V4,则是通过和华为等国产芯片厂商的合作,让人看到了咱们在AI领域打破垄断的决心和实力。
“ 不诱于誉,不恐于诽,率道而行,端然正己 ” 这是 DeepSeek 官方今天提到的 16 字真言。
而他们,也确实做到了。
撰文:早起 & 江江
编辑:江江 & 面线
美编:焕妍
图片、资料来源:
DeepSeek 官网