DeepSeek-V4 系列包含 V4-Pro 和 V4-Flash 两款模型,最吸引人的亮点是支持 1,000,000 token 超长上下文。简单理解就是:更长的报告、代码库、多篇文档,甚至复杂工作流,都可以一次性放进模型里分析。论文中还提到,在 1M 上下文场景下,V4-Pro 相比 DeepSeek-V3.2 只需要约 27% 的单 token 推理 FLOPs 和 10% 的 KV Cache,V4-Flash 甚至进一步降到 10% FLOPs / 7% KV Cache,这对长文本和 Agent 任务非常关键。
技术上,它主要做了三件事:
① 用 Hybrid Attention(CSA + HCA)提升长上下文效率;
② 用 mHC 强化模型表达能力;
③ 用 Muon Optimizer 让训练更快、更稳定。
从 benchmark 看,DeepSeek-V4-Pro-Max 在数学、代码、Agent 和长上下文任务上表现很强:比如 Apex Shortlist 达到 90.2,Codeforces rating 达到 3206,Toolathlon 达到 51.8,已经非常接近甚至超过部分闭源前沿模型。
一句话总结:
DeepSeek-V4 的创新,不只是“更强”,而是让大模型更适合处理真实世界里的长文档、复杂代码和多步骤任务。
对普通用户来说,这意味着未来 AI 可能不只是回答问题,而是能更稳定地处理一整个项目、一整套资料,甚至帮你完成复杂工作流。