DeepSeek V4:百万上下文、接近 Opus 的代码能力,以及一家「慢公司」的快与慢
发布那天,一切都显得很平静
2026年4月24日,DeepSeek 官网更新了一篇博文,标题是「V4 预览版:迈入百万上下文普惠时代」。
没有发布会,没有倒计时,没有 CEO 上台演讲。
公告里,DeepSeek 用了一句出自荀子的话作为结尾:「不诱于誉,不恐于诽,率道而行,端然正己。」
这就是 DeepSeek 的风格。你很难想象 Sam Altman 或 Dario Amodei 用一句古文结束一篇产品发布公告——但梁文锋团队觉得,这正好。
V4 的发布,本身就是一件需要拆开来看的事。
表面层:性能数据、1M 上下文、两个版本(V4-Pro 和 V4-Flash)、API 即时上线。
中间层:华为昇腾适配、TileLang 替代 CUDA、国产生态自主权的战略布局。
深层:晚点 LatePost 同期发出的深度报道,揭示的是一家处于变化关口的公司——核心作者出走、梁文锋的期权困局、「不卷」文化正在经受压力测试。
这三层拆开来看,才是 V4 这次发布的完整意义。
第一层:V4 到底有多强
百万上下文,成为标配
先说硬数据。
DeepSeek V4 系列包含两款模型:V4-Pro(1.6T 总参数,激活 49B)和 V4-Flash(284B 总参数,激活 13B),均在 32-33T tokens 上完成预训练。两款模型都原生支持 1M token 上下文——这不是工程 hack,而是架构层面直接设计的能力。
实现 1M 上下文的核心是一套全新的混合注意力机制,由 CSA 和 HCA 两种技术交替构成:
- CSA(压缩稀疏注意力):每 m 个 token 的 KV Cache 压缩成 1 个条目,再用 DSA(稀疏注意力)让每个 query 只关注 top-k 个压缩条目。相当于先”归纳摘要”,再”选择性阅读”。
- HCA(重度压缩注意力):比 CSA 更激进,每 m’(远大于 m)个 token 才压缩成 1 个条目,但保留密集注意力。用于处理超远距离的全局依赖。
两者交替排列,形成「粗粒度全局理解 + 细粒度局部精读」的互补结构。
效果数字很惊人:在 1M token 场景下,V4-Pro 的单 token 推理 FLOPs 仅为 V3.2 的 27%,KV Cache 仅为 10%。V4-Flash 更激进,FLOPs 仅 10%,KV Cache 仅 7%。换句话说,用不到三分之一的算力,处理比以前长三倍的上下文。
对比一下:Claude Opus 4.7 的上下文窗口是 200K,GPT-5.5 最近扩展到了 128K。DeepSeek V4 直接把这个数字拉到了 1M,且成本结构完全不同。
这意味着什么?意味着理论上可以把一本厚厚的代码库、完整的法律合同、几十轮会议记录全部塞进一次对话。意味着 Agent 场景下的「记忆」问题,得到了一种新的解题思路——不是引入复杂的 RAG 系统,而是直接让模型「看见更多」。
Agent 能力:对标 Opus 4.7 非思考模式
V4 在 Agent 方向的投入,是这次发布的重头戏。
官网说了一段非常直接的话:「V4-Pro 已达到当前开源模型最佳水平,据评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.7 非思考模式,但仍与 Opus 4.7 思考模式存在一定差距。」
DeepSeek 技术报告里有更精确的内部评测数据佐证:V4-Pro 在 Agent 能力上接近 Claude Opus 4.5,但在复杂指令遵循(46.9% vs 53.1%)和多轮写作(45.6% vs 51.7%)上仍略逊。难得的是,DeepSeek 选择把这组数据放进正式技术报告公开——通常 AI 公司的技术报告只挑自己赢的 benchmark,这种坦诚不常见。
V4 同时支持非思考模式和思考模式,且思考模式支持 reasoning_effort 参数(high/max),开发者可以手动控制思考强度。官方建议「对于复杂的 Agent 场景建议使用思考模式,并设置强度为 max」。这意味着开发者可以根据任务复杂度动态选择,用最小的算力换取足够好的效果。
技术报告揭示的三大架构创新
除了 CSA/HCA,技术报告还披露了另外三项重要的架构和训练创新:
mHC(流形约束超连接)
传统 Transformer 里,每个 block 的 Residual Connection(残差连接)是最简单的”跳过相加”。DeepSeek 在 V4 中引入了 mHC——把残差流的宽度扩展 n 倍,并通过线性映射让不同层之间的信息传递更灵活,同时将残差映射约束到特定流形上以保持训练稳定性。
为什么要这样做?因为普通 Hyper-Connection 在多层堆叠时会出现数值不稳定问题,而 mHC 通过流形约束解决了这个问题,既提升了模型的表达能力,又保证了千亿参数规模训练的稳定性。
Muon 优化器(首次用于千亿级 MoE)
DeepSeek V4 引入了 Muon 优化器替代传统的 AdamW——这是 Muon 首次被用于如此大规模的 MoE 模型训练。Muon 的核心优势是收敛更快、训练稳定性更高。技术报告还专门为 Muon 设计了混合 ZeRO 分配策略,解决了大规模分布式训练中的通信冲突问题。
Post-Training:OPD 完全替代混合 RL
这是 V4 后训练阶段与 V3.2 最大的区别。V3.2 用的是混合强化学习;V4 完全换成了 On-Policy Distillation(OPD)。
具体流程分两步:先为数学、代码、Agent、指令遵循等各个领域分别训练独立的”专家模型”(SFT + GRPO),再用 on-policy 蒸馏把所有专家的能力合并进一个统一模型。这种”先分后合”的策略,理论上能让每个领域的专家模型充分发展,再通过蒸馏把各自优势传递给最终模型,而不是让各个目标在 RL 阶段互相妥协。
另一个值得关注的细节:V4 系列引入了生成式奖励模型(GRM)替代传统的标量奖励模型。GRM 直接把模型本身的推理能力融入评分过程,只需要极少量的人工标注数据就能泛化到复杂任务,比 RLHF 的人工标注成本大幅降低。
兼容主流 Agent 框架,含 OpenClaw
这里有一个颇有意思的细节,需要单独提一下。
官网写道:「DeepSeek-V4 针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 产品进行了适配和优化。」
OpenClaw 出现在这个列表里,和 Claude Code 并列。
更早,晚点 LatePost 的报道还提到,DeepSeek 近期的招聘 JD 首次出现了 Agent 方向产品经理的需求,要求应聘者「熟悉并深度使用过 Claude Code、OpenClaw、Manus 等知名 agent」。
两条信息合在一起,传递了一个清晰的信号:DeepSeek 不再只是一个模型提供者,它在认真研究 Agent 应用层——研究竞品,研究用户如何使用,并且开始为这个方向配专职 PM。这是一家研究型公司向产品型公司转型的早期信号。
性价比:数字说话
API 侧,DeepSeek V4 上线了 V4-Pro 和 V4-Flash 两个版本,均支持 OpenAI ChatCompletions 接口和 Anthropic 接口,base_url 不变,只需将 model 参数改为 deepseek-v4-pro 或 deepseek-v4-flash。旧模型名(deepseek-chat 和 deepseek-reasoner)将在三个月后(2026-07-24)停用,当前阶段分别指向 V4-Flash 的非思考模式和思考模式。
以下是三款旗舰模型的官方定价对比(均为每百万 token):
| 模型 | 输入(标准) | 输入(缓存命中) | 输出 | 上下文 |
|---|---|---|---|---|
| DeepSeek V4-Pro | ¥12(≈$1.65) | ¥1(≈$0.14) | ¥24(≈$3.30) | 1M |
| DeepSeek V4-Flash | ¥1(≈$0.14) | ¥0.2(≈$0.03) | ¥2(≈$0.27) | 1M |
| Claude Opus 4.7 | $5.00 | — | $25.00 | 1M |
| OpenAI GPT-5.5 | $5.00 | $0.50 | $30.00 | — |
DeepSeek 以人民币计价,按 1 USD ≈ 7.3 CNY 换算。数据来源:DeepSeek 官网(2026-04-24)、Anthropic 官方文档、OpenAI API 定价页。
数字很清楚:V4-Pro 的输出成本约为 Claude Opus 4.7 的 13%、GPT-5.5 的 11%,同时提供同等的 1M 上下文窗口。对于需要大量 API 调用的 Agent 系统开发者来说,这个价差直接影响产品的商业模式可行性。
值得一提的还有一行小字:「预计下半年昇腾 950 超节点批量上市后,Pro 的价格会大幅下调。」 V4-Pro 目前受限于高端算力供给,当华为昇腾 950 大规模落地,这个价格还会继续下探。
V4-Flash 则是面向高频轻量任务的版本,输出价格仅 ¥2/M,约合 $0.27——在简单 Agent 任务上与 Pro 版相差无几,但在高难度推理上有明显差距。这种双版本策略,让开发者可以根据任务复杂度动态选择,本质上是在把 AI 使用的精细化成本控制权,交还给开发者。
第二层:华为芯片适配的真实含义
不是”中国AI可以绕过制裁”
V4 宣布完整支持华为昇腾芯片,这个信息被很多媒体解读为「出口管制失效的证据」。但这个判断过于粗糙。
更准确的表述是:出口管制的有效性,正在从「绝对有效」转向「部分有效」。
华为昇腾 910 系列(910B/910C/910D)在峰值算力上仍落后于 Nvidia H100 约 30-50%,在推理延迟上的差距更明显。这是技术现实,不会因为 DeepSeek 的适配工作而消失。
但 DeepSeek 做到的是:用算法创新填补了硬件差距。
V4 的核心技术路径包含了几年来积累的优化成果:
- MLA(多头潜在注意力):压缩注意力机制的内存占用,减少芯片间通信带宽需求
- NSA / DSA(原生/动态稀疏注意力):选择性计算,减少不必要的算力消耗
- mHC(流行约束超连接):据悉用于 V4 的训练过程,改进了模型的信息传导效率
- TileLang:用国产开源替代 CUDA/Triton 的底层编程框架
最后这一条,TileLang,是最容易被忽视但战略意义最深远的。
TileLang:软件层面的真正脱钩
要理解 TileLang 的意义,先要理解 Nvidia 的真正护城河在哪里。
表面上看是 GPU 算力,但更深层的护城河是 CUDA 软件生态——二十年积累的底层算子库、优化 kernel、工具链,几乎所有深度学习框架都在其上运行。OpenAI 的 Triton 试图提供更高级的编程抽象,但它仍然以 CUDA 为目标后端,本质上依然在 Nvidia 生态内打转。
TileLang 是另一条路。它是一门领域专用语言(DSL),由北京大学杨智团队发起,2026 年在 ICLR 发表论文(”TileLang: Bridge programmability and performance in modern neural kernels”)。DeepSeek 不仅采用了 TileLang,还深度参与了其社区开发。
TileLang 解决了什么问题?
写高性能 GPU kernel 有个两难困境:用 CUDA 直接写,性能最好,但开发难度极高,一个复杂 kernel 需要数周时间;用 Triton 写,开发快多了,但性能有折扣,且调优空间受限。TileLang 试图在两者之间找到平衡——提供比 Triton 更灵活的底层控制,同时比 CUDA 更高的开发效率。
技术报告里描述的几个具体创新:
- Host Codegen:把 Python 端的运行时检查移到生成的宿主代码里,每次 kernel 调用的 CPU 开销从”数十到数百微秒”降到”不足 1 微秒”——对高频 Agent 调用场景意义重大。
- SMT 求解器辅助的形式化整数分析:集成 Z3 求解器到编译器里,对 tensor 索引的复杂整数表达式做形式化验证,解锁了更激进的向量化和内存优化机会。
- 数值精度与按位可复现性:默认关闭 fast-math,保证 kernel 结果与 CUDA 基准按位一致——这对生产环境的可靠性至关重要。
为什么这件事战略意义深远?
TileLang 的后端不绑定 Nvidia。理论上,同一套代码可以降到华为昇腾的底层指令集上。这意味着:DeepSeek 在 V4 开发中为 TileLang 贡献的每一个优化,每一个新 kernel 设计,都在积累一套硬件无关的 AI 基础设施。
当 TileLang 的华为昇腾后端成熟,整个 DeepSeek 的推理框架可以几乎零修改地切换到国产芯片。这不是短期目标,但方向是清晰的——每一步都很小,每一步都不可逆。
飞轮效应:不只是 DeepSeek 一家公司的事
这里有一个更大的格局值得关注。
DeepSeek 为 V4 所做的昇腾适配工作,实际上是在为整个国产 AI 生态铺路。开源社区里,其他中国模型开发者可以复用 DeepSeek 积累的适配经验;华为昇腾的软件生态,因为有了一个旗舰级开源模型的完整适配,会加速成熟。
这形成了一个飞轮:DeepSeek 适配昇腾 → 昇腾生态成熟 → 下一个模型适配成本更低 → 更多开发者进入这个生态 → 形成规模效应。
从地缘政治角度看:这个飞轮一旦转起来,美国出口管制的「绝对控制」属性就会持续被侵蚀。禁令没有「失效」,但它的边际效用在下降。
更有意思的是,从某种角度看,出口管制可能加速了这个进程——正是因为高端 Nvidia GPU 被禁止,DeepSeek 团队不得不在次优硬件上做更多算法创新,并最终把这种创新反哺到国产芯片生态上。约束,有时候是最好的导师。
第三层:「慢公司」的内部震荡
这才是这次发布中,最耐人寻味的部分。
核心作者,陆续离开
晚点 LatePost 的深度报道,和 V4 发布几乎同时出现,披露了一个行业早有传言但鲜有确认的事实:从 2025 年下半年至今,DeepSeek 已有多名核心作者相继离开。
- 王炳宣:DeepSeek LLM 核心作者,参与历代模型训练,去年底被腾讯姚顺雨挖走。
- 魏浩然:DeepSeek-OCR 系列核心作者,春节前后离开,可能入职某大厂。
- 郭达雅:DeepSeek-R1 核心作者,近期正式离职,可能入职某大厂。
- 阮翀:幻方时期的老成员,Janus-Pro 等多模态成果的核心贡献者,2025 年早些时候离职后,今年 1 月正式宣布加入自动驾驶创业公司元戎启行。
R1 是 DeepSeek 让整个行业震惊的作品,是那个让 Nvidia 股价单日暴跌 17% 的模型。它的核心作者,在 V4 发布前夕离开了。这个时间节点,很微妙。
这不是一个小的人事变动。这些名字,每一个都在 DeepSeek 的技术路线图上留下了清晰的印记。他们的离开,是「变化关口」的具体体现。
当然,晚点的报道也提到:更多人选择了留下来。 他们认可梁文锋追求 AGI 的方式,习惯了相对宽松从容的研究氛围。竞争对手开出的「翻 2 到 3 倍」甚至「8 位数总包」的邀约,没有让所有人动心。
但「更多人留下来」和「核心作者陆续离开」是可以同时为真的。它们指向的是同一个现象:DeepSeek 正在经历一次分化。
期权困局:公司到底值多少钱
DeepSeek 在 2026 年 3 月之前,没有接受过任何外部融资——资金全部来自幻方量化(High-Flyer Quant)。
这在 2024 年之前不是问题——团队本来就不以财富为目标,梁文锋甚至在引入外部资本时提出过「回报上限条款」,导致机构投资者望而却步。
但情况在 2026 年 4 月急剧变化。据 The Information 和 Bloomberg 报道,DeepSeek 正在进行首轮外部融资,融资目标 $3 亿美元以上,腾讯(拟购最多 20% 股份)和阿里巴巴均已进入谈判阶段,截至本文发稿尚未完成交割。估值方面,外界报道的数字从 $100 亿快速爬升:4 月 16 日 The Information 首报时是 $10B+,4 月下旬随着腾讯阿里入局传出的估值已到 $20B-$40B。
作为参照:2025 年 11 月 Forbes 报道的估值还是 $15B,短短半年翻了一倍有余。
这件事的背景,正是晚点报道里描述的那个问题:团队成员手里有期权,但公司到底值多少钱?
如果不融资、不上市,期权就没有流动性;如果融资,就必须引入外部股东,改变公司的运作逻辑。梁文锋当初设计的模式,预设了公司可以在不被估值绑架的情况下追求 AGI——现在,这个预设正在被用实际行动推翻。
融资这件事本身,就是 DeepSeek「正在改变」的最直接证据之一。
「不卷」文化的韧性与压力
DeepSeek 是全球仅有的「不卷」的核心 AI Lab。
这不是夸张。当 Google、OpenAI、xAI、字节的 AI 开发人员每周工作 70-80 小时,DeepSeek 的员工下午 6-7 点离开,早上不打卡,没有明确的 KPI,没有硬性 DDL。
梁文锋的逻辑是:一个人一天能高质量输出的时间,很难超过 6-8 小时。 强迫延长工作时间,换来的是低质量输出和长期创造力损耗。这不是人性管理,这是对「智力生产」的基本认知。
这种文化,在过去两年里确实有效——R1、V3、各种技术论文,都是在这个氛围里产出的。
但随着外部竞争加剧,「不卷」文化正在承受越来越大的叙事压力。
竞争对手的迭代频次远高于 DeepSeek。在 Agent 方向,Anthropic 的 Claude Opus 4.7 和 OpenAI 的 GPT-5.5 几乎每隔一两个月就有更新;在多模态生成,字节的 Seedance 2.0 已经出圈。V4 原本按乐观预期可能在 2026 年 2 月春节前后发布,实际等到了 4 月。两个月的滑点,在竞争激烈的 AI 行业里,意味着什么?
这不是指责,而是观察。「慢」不一定是错的,但「慢」的代价需要被诚实地认识。
产品化的转型:第一次招 Agent PM
从 2025 年秋天起,梁文锋开始更多提「产品化」和「商业化」。
DeepSeek 已经有了小数十人的产品团队,但在 C 端仍然只有典型的 Chatbot。AI 编程工具(对标 Cursor、Claude Code)、通用 Agent(对标 OpenClaw、Manus)——这些是现在整个行业最热的方向,DeepSeek 尚未正式涉足。
但信号变了。
这次招聘 JD 里,第一次出现了 Agent 方向产品经理的职位,要求应聘者熟悉并深度使用过 Claude Code、OpenClaw、Manus 等主流 Agent 产品。
第一次招,意味着过去没招过,也意味着现在已经决定要做了。
对一家过去几乎完全由研究驱动、产品只是「顺手」的公司来说,这是一个方向性的转变。这个转变能否成功,取决于梁文锋能否在「不破坏研究氛围」和「建立产品化执行力」之间找到新的平衡点。
技术报告给出的坐标系
值得单独说一下技术报告里的 benchmark 定位——它比官网公告要诚实得多。
技术报告原文(直接引用):
“V4-Pro-Max 在推理任务上超过了 GPT-5.2 和 Gemini-3.0-Pro,但其性能仍略逊于 GPT-5.4 和 Gemini-3.1-Pro,与最前沿模型相比,大约落后 3 到 6 个月的发展轨迹。”
“落后约 3-6 个月”——这是 DeepSeek 官方在技术报告里的自我定位。这句话,是这份报告里最值得记住的原话之一。
它不是谦虚,是准确。它说明 DeepSeek 对自己在技术梯队中的位置有清醒的认知——不在最前列,但也不是差一个量级。3-6 个月的差距,在 AI 行业里意味着什么?意味着下一个版本可能就追上了,也意味着竞争对手同期也在前进。
其他几个 benchmark 维度:
- 长上下文:1M token 场景下超过 Gemini-3.1-Pro——这是目前最强的开源模型
- 中文创意写作:vs Gemini-3.1-Pro,指令遵循胜率 60%,写作质量胜率 77%
- V4-Flash:推理能力接近 GPT-5.2 和 Gemini-3.0-Pro,但参数量只有 284B,13B 激活——这个性价比数字很夸张
还有那张”内部评测 V4-Pro vs Claude Opus 4.5”的表格(Table 14):复杂指令遵循 DeepSeek 输(46.9% vs 53.1%),多轮写作也输(45.6% vs 51.7%)。把这组自己输的数据放进正式技术报告公开,在 AI 行业里是罕见操作——这本身就是一种信号。
三层叠加之后,我看到的是什么
我把这三层放在一起,想说的是:DeepSeek V4 的发布,是一次技术成功和组织挑战同时发生的时刻。
技术层面:V4 确实是一个令人印象深刻的模型。百万上下文、接近 Opus 4.7 非思考模式的 Agent 能力、国产芯片完整适配、开源权重——这些放在一起,构成了开源 AI 世界里的一个新高水位线。
战略层面:华为昇腾适配和 TileLang,不是偶然的技术选择,而是梁文锋「基于国产生态做 AI」理念的具体落地。这条路还很长,但方向是清晰的,而且每一步都在累积不可逆的飞轮动能。
组织层面:核心作者出走、期权困局、产品化转型、「慢文化」的压力测试——这些是真实的挑战,不会因为 V4 发布成功而自动消失。DeepSeek 正处于一个变化的关口,和它所有的竞争对手都不一样——它需要在不失去「特立独行」的同时,找到一条能让团队长期走下去的商业路径。
「不诱于誉,不恐于诽」,难在哪里
梁文锋引用了荀子的这八个字。我觉得,这不只是一种态度表达,更像是一种自我提醒——在外界的誉声和毁声之间,「率道而行」是最难的事。
誉声来自:V4 发布后国内外媒体的技术赞叹,「DeepSeek 再一次震惊世界」。
毁声来自:核心作者离开,「DeepSeek 正在走下坡路」。
两种声音,都不完全准确。
准确的是:这是一家在技术上仍然有真实领先性、在组织上正在经历真实考验的公司。梁文锋面对的问题,不是「要不要变」,而是「怎么变,变多少,以什么方式变」。
这才是最难回答的问题。
结语:对 AI 行业的几个观察
对开发者:V4 的 1M 上下文和 Agent 优化,值得认真评估。特别是如果你正在开发需要大量上下文的 Agent 系统,且对 API 成本敏感——V4-Pro 可能是目前性价比最高的选择之一。新的 API 接入方式(deepseek-v4-pro / deepseek-v4-flash)兼容 OpenAI 和 Anthropic 接口,迁移成本极低。
对芯片行业:TileLang + 华为昇腾适配,是一个值得持续关注的趋势。如果更多顶级模型开始走这条路,Nvidia 的软件护城河会面临越来越大的挑战——不是一两年内,但五年时间窗口内是可能的。
对政策研究者:「出口管制加速了算法创新」这个悖论,值得认真研究。约束有时候是催化剂。这不是为禁令辩护,而是提醒政策制定者:单一的硬件出口管制,并不等于有效的 AI 竞争战略。
对 DeepSeek 本身:我希望看到的是,它找到一种方式,让研究的自由和产品的执行力可以共存。不是所有公司都需要变成 OpenAI,但所有公司都需要找到自己的可持续路径。
最后还是那八个字:不诱于誉,不恐于诽。
DeepSeek 做到了吗?现在说,还太早。
参考资料
- DeepSeek 官网公告:V4 预览版:迈入百万上下文普惠时代(2026-04-24)
- DeepSeek V4 Technical Report(2026-04-24):huggingface.co/deepseek-ai/DeepSeek-V4-Pro
- 晚点 LatePost:DeepSeek 内部深度报道(2026-04-25)
- DeepSeek V3 Technical Report(2025-01-22):arxiv.org/abs/2412.19437
- TileLang:Bridge programmability and performance in modern neural kernels, ICLR 2026(Wang et al.)
- Anthropic API 定价:docs.anthropic.com
- OpenAI API 定价:openai.com/api/pricing
- Reuters:DeepSeek launches new model with Huawei chip support(2026-04-24)
- SemiAnalysis:Huawei Ascend 910D Performance Analysis(2026-03)