DeepSeek V4：百万上下文、接近 Opus 的代码能力，以及一家「慢公司」的快与慢

发布那天，一切都显得很平静

2026年4月24日，DeepSeek 官网更新了一篇博文，标题是「V4 预览版：迈入百万上下文普惠时代」。

没有发布会，没有倒计时，没有 CEO 上台演讲。

公告里，DeepSeek 用了一句出自荀子的话作为结尾：「不诱于誉，不恐于诽，率道而行，端然正己。」

这就是 DeepSeek 的风格。你很难想象 Sam Altman 或 Dario Amodei 用一句古文结束一篇产品发布公告——但梁文锋团队觉得，这正好。

V4 的发布，本身就是一件需要拆开来看的事。

表面层：性能数据、1M 上下文、两个版本（V4-Pro 和 V4-Flash）、API 即时上线。
中间层：华为昇腾适配、TileLang 替代 CUDA、国产生态自主权的战略布局。
深层：晚点 LatePost 同期发出的深度报道，揭示的是一家处于变化关口的公司——核心作者出走、梁文锋的期权困局、「不卷」文化正在经受压力测试。

这三层拆开来看，才是 V4 这次发布的完整意义。

第一层：V4 到底有多强

百万上下文，成为标配

先说硬数据。

DeepSeek V4 系列包含两款模型：V4-Pro（1.6T 总参数，激活 49B）和 V4-Flash（284B 总参数，激活 13B），均在 32-33T tokens 上完成预训练。两款模型都原生支持 1M token 上下文——这不是工程 hack，而是架构层面直接设计的能力。

实现 1M 上下文的核心是一套全新的混合注意力机制，由 CSA 和 HCA 两种技术交替构成：

CSA（压缩稀疏注意力）：每 m 个 token 的 KV Cache 压缩成 1 个条目，再用 DSA（稀疏注意力）让每个 query 只关注 top-k 个压缩条目。相当于先”归纳摘要”，再”选择性阅读”。
HCA（重度压缩注意力）：比 CSA 更激进，每 m’（远大于 m）个 token 才压缩成 1 个条目，但保留密集注意力。用于处理超远距离的全局依赖。

两者交替排列，形成「粗粒度全局理解 + 细粒度局部精读」的互补结构。

效果数字很惊人：在 1M token 场景下，V4-Pro 的单 token 推理 FLOPs 仅为 V3.2 的 27%，KV Cache 仅为 10%。V4-Flash 更激进，FLOPs 仅 10%，KV Cache 仅 7%。换句话说，用不到三分之一的算力，处理比以前长三倍的上下文。

对比一下：Claude Opus 4.7 的上下文窗口是 200K，GPT-5.5 最近扩展到了 128K。DeepSeek V4 直接把这个数字拉到了 1M，且成本结构完全不同。

这意味着什么？意味着理论上可以把一本厚厚的代码库、完整的法律合同、几十轮会议记录全部塞进一次对话。意味着 Agent 场景下的「记忆」问题，得到了一种新的解题思路——不是引入复杂的 RAG 系统，而是直接让模型「看见更多」。

Agent 能力：对标 Opus 4.7 非思考模式

V4 在 Agent 方向的投入，是这次发布的重头戏。

官网说了一段非常直接的话：「V4-Pro 已达到当前开源模型最佳水平，据评测反馈使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.7 非思考模式，但仍与 Opus 4.7 思考模式存在一定差距。」

DeepSeek 技术报告里有更精确的内部评测数据佐证：V4-Pro 在 Agent 能力上接近 Claude Opus 4.5，但在复杂指令遵循（46.9% vs 53.1%）和多轮写作（45.6% vs 51.7%）上仍略逊。难得的是，DeepSeek 选择把这组数据放进正式技术报告公开——通常 AI 公司的技术报告只挑自己赢的 benchmark，这种坦诚不常见。

V4 同时支持非思考模式和思考模式，且思考模式支持 reasoning_effort 参数（high/max），开发者可以手动控制思考强度。官方建议「对于复杂的 Agent 场景建议使用思考模式，并设置强度为 max」。这意味着开发者可以根据任务复杂度动态选择，用最小的算力换取足够好的效果。

技术报告揭示的三大架构创新

除了 CSA/HCA，技术报告还披露了另外三项重要的架构和训练创新：

mHC（流形约束超连接）

传统 Transformer 里，每个 block 的 Residual Connection（残差连接）是最简单的”跳过相加”。DeepSeek 在 V4 中引入了 mHC——把残差流的宽度扩展 n 倍，并通过线性映射让不同层之间的信息传递更灵活，同时将残差映射约束到特定流形上以保持训练稳定性。

为什么要这样做？因为普通 Hyper-Connection 在多层堆叠时会出现数值不稳定问题，而 mHC 通过流形约束解决了这个问题，既提升了模型的表达能力，又保证了千亿参数规模训练的稳定性。

Muon 优化器（首次用于千亿级 MoE）

DeepSeek V4 引入了 Muon 优化器替代传统的 AdamW——这是 Muon 首次被用于如此大规模的 MoE 模型训练。Muon 的核心优势是收敛更快、训练稳定性更高。技术报告还专门为 Muon 设计了混合 ZeRO 分配策略，解决了大规模分布式训练中的通信冲突问题。

Post-Training：OPD 完全替代混合 RL

这是 V4 后训练阶段与 V3.2 最大的区别。V3.2 用的是混合强化学习；V4 完全换成了 On-Policy Distillation（OPD）。

具体流程分两步：先为数学、代码、Agent、指令遵循等各个领域分别训练独立的”专家模型”（SFT + GRPO），再用 on-policy 蒸馏把所有专家的能力合并进一个统一模型。这种”先分后合”的策略，理论上能让每个领域的专家模型充分发展，再通过蒸馏把各自优势传递给最终模型，而不是让各个目标在 RL 阶段互相妥协。

另一个值得关注的细节：V4 系列引入了生成式奖励模型（GRM）替代传统的标量奖励模型。GRM 直接把模型本身的推理能力融入评分过程，只需要极少量的人工标注数据就能泛化到复杂任务，比 RLHF 的人工标注成本大幅降低。

兼容主流 Agent 框架，含 OpenClaw

这里有一个颇有意思的细节，需要单独提一下。

官网写道：「DeepSeek-V4 针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 产品进行了适配和优化。」

OpenClaw 出现在这个列表里，和 Claude Code 并列。

更早，晚点 LatePost 的报道还提到，DeepSeek 近期的招聘 JD 首次出现了 Agent 方向产品经理的需求，要求应聘者「熟悉并深度使用过 Claude Code、OpenClaw、Manus 等知名 agent」。

两条信息合在一起，传递了一个清晰的信号：DeepSeek 不再只是一个模型提供者，它在认真研究 Agent 应用层——研究竞品，研究用户如何使用，并且开始为这个方向配专职 PM。这是一家研究型公司向产品型公司转型的早期信号。

性价比：数字说话

API 侧，DeepSeek V4 上线了 V4-Pro 和 V4-Flash 两个版本，均支持 OpenAI ChatCompletions 接口和 Anthropic 接口，base_url 不变，只需将 model 参数改为 deepseek-v4-pro 或 deepseek-v4-flash。旧模型名（deepseek-chat 和 deepseek-reasoner）将在三个月后（2026-07-24）停用，当前阶段分别指向 V4-Flash 的非思考模式和思考模式。

以下是三款旗舰模型的官方定价对比（均为每百万 token）：

模型	输入（标准）	输入（缓存命中）	输出	上下文
DeepSeek V4-Pro	¥12（≈$1.65）	¥1（≈$0.14）	¥24（≈$3.30）	1M
DeepSeek V4-Flash	¥1（≈$0.14）	¥0.2（≈$0.03）	¥2（≈$0.27）	1M
Claude Opus 4.7	$5.00	—	$25.00	1M
OpenAI GPT-5.5	$5.00	$0.50	$30.00	—

DeepSeek 以人民币计价，按 1 USD ≈ 7.3 CNY 换算。数据来源：DeepSeek 官网（2026-04-24）、Anthropic 官方文档、OpenAI API 定价页。

数字很清楚：V4-Pro 的输出成本约为 Claude Opus 4.7 的 13%、GPT-5.5 的 11%，同时提供同等的 1M 上下文窗口。对于需要大量 API 调用的 Agent 系统开发者来说，这个价差直接影响产品的商业模式可行性。

值得一提的还有一行小字：「预计下半年昇腾 950 超节点批量上市后，Pro 的价格会大幅下调。」 V4-Pro 目前受限于高端算力供给，当华为昇腾 950 大规模落地，这个价格还会继续下探。

V4-Flash 则是面向高频轻量任务的版本，输出价格仅 ¥2/M，约合 $0.27——在简单 Agent 任务上与 Pro 版相差无几，但在高难度推理上有明显差距。这种双版本策略，让开发者可以根据任务复杂度动态选择，本质上是在把 AI 使用的精细化成本控制权，交还给开发者。

第二层：华为芯片适配的真实含义

不是”中国AI可以绕过制裁”

V4 宣布完整支持华为昇腾芯片，这个信息被很多媒体解读为「出口管制失效的证据」。但这个判断过于粗糙。

更准确的表述是：出口管制的有效性，正在从「绝对有效」转向「部分有效」。

华为昇腾 910 系列（910B/910C/910D）在峰值算力上仍落后于 Nvidia H100 约 30-50%，在推理延迟上的差距更明显。这是技术现实，不会因为 DeepSeek 的适配工作而消失。

但 DeepSeek 做到的是：用算法创新填补了硬件差距。

V4 的核心技术路径包含了几年来积累的优化成果：

MLA（多头潜在注意力）：压缩注意力机制的内存占用，减少芯片间通信带宽需求
NSA / DSA（原生/动态稀疏注意力）：选择性计算，减少不必要的算力消耗
mHC（流行约束超连接）：据悉用于 V4 的训练过程，改进了模型的信息传导效率
TileLang：用国产开源替代 CUDA/Triton 的底层编程框架

最后这一条，TileLang，是最容易被忽视但战略意义最深远的。

TileLang：软件层面的真正脱钩

要理解 TileLang 的意义，先要理解 Nvidia 的真正护城河在哪里。

表面上看是 GPU 算力，但更深层的护城河是 CUDA 软件生态——二十年积累的底层算子库、优化 kernel、工具链，几乎所有深度学习框架都在其上运行。OpenAI 的 Triton 试图提供更高级的编程抽象，但它仍然以 CUDA 为目标后端，本质上依然在 Nvidia 生态内打转。

TileLang 是另一条路。它是一门领域专用语言（DSL），由北京大学杨智团队发起，2026 年在 ICLR 发表论文（”TileLang: Bridge programmability and performance in modern neural kernels”）。DeepSeek 不仅采用了 TileLang，还深度参与了其社区开发。

TileLang 解决了什么问题？

写高性能 GPU kernel 有个两难困境：用 CUDA 直接写，性能最好，但开发难度极高，一个复杂 kernel 需要数周时间；用 Triton 写，开发快多了，但性能有折扣，且调优空间受限。TileLang 试图在两者之间找到平衡——提供比 Triton 更灵活的底层控制，同时比 CUDA 更高的开发效率。

技术报告里描述的几个具体创新：

Host Codegen：把 Python 端的运行时检查移到生成的宿主代码里，每次 kernel 调用的 CPU 开销从”数十到数百微秒”降到”不足 1 微秒”——对高频 Agent 调用场景意义重大。
SMT 求解器辅助的形式化整数分析：集成 Z3 求解器到编译器里，对 tensor 索引的复杂整数表达式做形式化验证，解锁了更激进的向量化和内存优化机会。
数值精度与按位可复现性：默认关闭 fast-math，保证 kernel 结果与 CUDA 基准按位一致——这对生产环境的可靠性至关重要。

为什么这件事战略意义深远？

TileLang 的后端不绑定 Nvidia。理论上，同一套代码可以降到华为昇腾的底层指令集上。这意味着：DeepSeek 在 V4 开发中为 TileLang 贡献的每一个优化，每一个新 kernel 设计，都在积累一套硬件无关的 AI 基础设施。

当 TileLang 的华为昇腾后端成熟，整个 DeepSeek 的推理框架可以几乎零修改地切换到国产芯片。这不是短期目标，但方向是清晰的——每一步都很小，每一步都不可逆。

飞轮效应：不只是 DeepSeek 一家公司的事

这里有一个更大的格局值得关注。

DeepSeek 为 V4 所做的昇腾适配工作，实际上是在为整个国产 AI 生态铺路。开源社区里，其他中国模型开发者可以复用 DeepSeek 积累的适配经验；华为昇腾的软件生态，因为有了一个旗舰级开源模型的完整适配，会加速成熟。

这形成了一个飞轮：DeepSeek 适配昇腾 → 昇腾生态成熟 → 下一个模型适配成本更低 → 更多开发者进入这个生态 → 形成规模效应。

从地缘政治角度看：这个飞轮一旦转起来，美国出口管制的「绝对控制」属性就会持续被侵蚀。禁令没有「失效」，但它的边际效用在下降。

更有意思的是，从某种角度看，出口管制可能加速了这个进程——正是因为高端 Nvidia GPU 被禁止，DeepSeek 团队不得不在次优硬件上做更多算法创新，并最终把这种创新反哺到国产芯片生态上。约束，有时候是最好的导师。

第三层：「慢公司」的内部震荡

这才是这次发布中，最耐人寻味的部分。

核心作者，陆续离开

晚点 LatePost 的深度报道，和 V4 发布几乎同时出现，披露了一个行业早有传言但鲜有确认的事实：从 2025 年下半年至今，DeepSeek 已有多名核心作者相继离开。

王炳宣：DeepSeek LLM 核心作者，参与历代模型训练，去年底被腾讯姚顺雨挖走。
魏浩然：DeepSeek-OCR 系列核心作者，春节前后离开，可能入职某大厂。
郭达雅：DeepSeek-R1 核心作者，近期正式离职，可能入职某大厂。
阮翀：幻方时期的老成员，Janus-Pro 等多模态成果的核心贡献者，2025 年早些时候离职后，今年 1 月正式宣布加入自动驾驶创业公司元戎启行。

R1 是 DeepSeek 让整个行业震惊的作品，是那个让 Nvidia 股价单日暴跌 17% 的模型。它的核心作者，在 V4 发布前夕离开了。这个时间节点，很微妙。

这不是一个小的人事变动。这些名字，每一个都在 DeepSeek 的技术路线图上留下了清晰的印记。他们的离开，是「变化关口」的具体体现。

当然，晚点的报道也提到：更多人选择了留下来。 他们认可梁文锋追求 AGI 的方式，习惯了相对宽松从容的研究氛围。竞争对手开出的「翻 2 到 3 倍」甚至「8 位数总包」的邀约，没有让所有人动心。

但「更多人留下来」和「核心作者陆续离开」是可以同时为真的。它们指向的是同一个现象：DeepSeek 正在经历一次分化。

期权困局：公司到底值多少钱

DeepSeek 在 2026 年 3 月之前，没有接受过任何外部融资——资金全部来自幻方量化（High-Flyer Quant）。

这在 2024 年之前不是问题——团队本来就不以财富为目标，梁文锋甚至在引入外部资本时提出过「回报上限条款」，导致机构投资者望而却步。

但情况在 2026 年 4 月急剧变化。据 The Information 和 Bloomberg 报道，DeepSeek 正在进行首轮外部融资，融资目标 $3 亿美元以上，腾讯（拟购最多 20% 股份）和阿里巴巴均已进入谈判阶段，截至本文发稿尚未完成交割。估值方面，外界报道的数字从 $100 亿快速爬升：4 月 16 日 The Information 首报时是 $10B+，4 月下旬随着腾讯阿里入局传出的估值已到 $20B-$40B。

作为参照：2025 年 11 月 Forbes 报道的估值还是 $15B，短短半年翻了一倍有余。

这件事的背景，正是晚点报道里描述的那个问题：团队成员手里有期权，但公司到底值多少钱？

如果不融资、不上市，期权就没有流动性；如果融资，就必须引入外部股东，改变公司的运作逻辑。梁文锋当初设计的模式，预设了公司可以在不被估值绑架的情况下追求 AGI——现在，这个预设正在被用实际行动推翻。

融资这件事本身，就是 DeepSeek「正在改变」的最直接证据之一。

「不卷」文化的韧性与压力

DeepSeek 是全球仅有的「不卷」的核心 AI Lab。

这不是夸张。当 Google、OpenAI、xAI、字节的 AI 开发人员每周工作 70-80 小时，DeepSeek 的员工下午 6-7 点离开，早上不打卡，没有明确的 KPI，没有硬性 DDL。

梁文锋的逻辑是：一个人一天能高质量输出的时间，很难超过 6-8 小时。 强迫延长工作时间，换来的是低质量输出和长期创造力损耗。这不是人性管理，这是对「智力生产」的基本认知。

这种文化，在过去两年里确实有效——R1、V3、各种技术论文，都是在这个氛围里产出的。

但随着外部竞争加剧，「不卷」文化正在承受越来越大的叙事压力。

竞争对手的迭代频次远高于 DeepSeek。在 Agent 方向，Anthropic 的 Claude Opus 4.7 和 OpenAI 的 GPT-5.5 几乎每隔一两个月就有更新；在多模态生成，字节的 Seedance 2.0 已经出圈。V4 原本按乐观预期可能在 2026 年 2 月春节前后发布，实际等到了 4 月。两个月的滑点，在竞争激烈的 AI 行业里，意味着什么？

这不是指责，而是观察。「慢」不一定是错的，但「慢」的代价需要被诚实地认识。

产品化的转型：第一次招 Agent PM

从 2025 年秋天起，梁文锋开始更多提「产品化」和「商业化」。

DeepSeek 已经有了小数十人的产品团队，但在 C 端仍然只有典型的 Chatbot。AI 编程工具（对标 Cursor、Claude Code）、通用 Agent（对标 OpenClaw、Manus）——这些是现在整个行业最热的方向，DeepSeek 尚未正式涉足。

但信号变了。

这次招聘 JD 里，第一次出现了 Agent 方向产品经理的职位，要求应聘者熟悉并深度使用过 Claude Code、OpenClaw、Manus 等主流 Agent 产品。

第一次招，意味着过去没招过，也意味着现在已经决定要做了。

对一家过去几乎完全由研究驱动、产品只是「顺手」的公司来说，这是一个方向性的转变。这个转变能否成功，取决于梁文锋能否在「不破坏研究氛围」和「建立产品化执行力」之间找到新的平衡点。

技术报告给出的坐标系

值得单独说一下技术报告里的 benchmark 定位——它比官网公告要诚实得多。

技术报告原文（直接引用）：

“V4-Pro-Max 在推理任务上超过了 GPT-5.2 和 Gemini-3.0-Pro，但其性能仍略逊于 GPT-5.4 和 Gemini-3.1-Pro，与最前沿模型相比，大约落后 3 到 6 个月的发展轨迹。”

“落后约 3-6 个月”——这是 DeepSeek 官方在技术报告里的自我定位。这句话，是这份报告里最值得记住的原话之一。

它不是谦虚，是准确。它说明 DeepSeek 对自己在技术梯队中的位置有清醒的认知——不在最前列，但也不是差一个量级。3-6 个月的差距，在 AI 行业里意味着什么？意味着下一个版本可能就追上了，也意味着竞争对手同期也在前进。

其他几个 benchmark 维度：

长上下文：1M token 场景下超过 Gemini-3.1-Pro——这是目前最强的开源模型
中文创意写作：vs Gemini-3.1-Pro，指令遵循胜率 60%，写作质量胜率 77%
V4-Flash：推理能力接近 GPT-5.2 和 Gemini-3.0-Pro，但参数量只有 284B，13B 激活——这个性价比数字很夸张

还有那张”内部评测 V4-Pro vs Claude Opus 4.5”的表格（Table 14）：复杂指令遵循 DeepSeek 输（46.9% vs 53.1%），多轮写作也输（45.6% vs 51.7%）。把这组自己输的数据放进正式技术报告公开，在 AI 行业里是罕见操作——这本身就是一种信号。

三层叠加之后，我看到的是什么

我把这三层放在一起，想说的是：DeepSeek V4 的发布，是一次技术成功和组织挑战同时发生的时刻。

技术层面：V4 确实是一个令人印象深刻的模型。百万上下文、接近 Opus 4.7 非思考模式的 Agent 能力、国产芯片完整适配、开源权重——这些放在一起，构成了开源 AI 世界里的一个新高水位线。

战略层面：华为昇腾适配和 TileLang，不是偶然的技术选择，而是梁文锋「基于国产生态做 AI」理念的具体落地。这条路还很长，但方向是清晰的，而且每一步都在累积不可逆的飞轮动能。

组织层面：核心作者出走、期权困局、产品化转型、「慢文化」的压力测试——这些是真实的挑战，不会因为 V4 发布成功而自动消失。DeepSeek 正处于一个变化的关口，和它所有的竞争对手都不一样——它需要在不失去「特立独行」的同时，找到一条能让团队长期走下去的商业路径。

「不诱于誉，不恐于诽」，难在哪里

梁文锋引用了荀子的这八个字。我觉得，这不只是一种态度表达，更像是一种自我提醒——在外界的誉声和毁声之间，「率道而行」是最难的事。

誉声来自：V4 发布后国内外媒体的技术赞叹，「DeepSeek 再一次震惊世界」。
毁声来自：核心作者离开，「DeepSeek 正在走下坡路」。

两种声音，都不完全准确。

准确的是：这是一家在技术上仍然有真实领先性、在组织上正在经历真实考验的公司。梁文锋面对的问题，不是「要不要变」，而是「怎么变，变多少，以什么方式变」。

这才是最难回答的问题。

结语：对 AI 行业的几个观察

对开发者：V4 的 1M 上下文和 Agent 优化，值得认真评估。特别是如果你正在开发需要大量上下文的 Agent 系统，且对 API 成本敏感——V4-Pro 可能是目前性价比最高的选择之一。新的 API 接入方式（deepseek-v4-pro / deepseek-v4-flash）兼容 OpenAI 和 Anthropic 接口，迁移成本极低。

对芯片行业：TileLang + 华为昇腾适配，是一个值得持续关注的趋势。如果更多顶级模型开始走这条路，Nvidia 的软件护城河会面临越来越大的挑战——不是一两年内，但五年时间窗口内是可能的。

对政策研究者：「出口管制加速了算法创新」这个悖论，值得认真研究。约束有时候是催化剂。这不是为禁令辩护，而是提醒政策制定者：单一的硬件出口管制，并不等于有效的 AI 竞争战略。

对 DeepSeek 本身：我希望看到的是，它找到一种方式，让研究的自由和产品的执行力可以共存。不是所有公司都需要变成 OpenAI，但所有公司都需要找到自己的可持续路径。

最后还是那八个字：不诱于誉，不恐于诽。

DeepSeek 做到了吗？现在说，还太早。

参考资料

DeepSeek 官网公告：V4 预览版：迈入百万上下文普惠时代（2026-04-24）
DeepSeek V4 Technical Report（2026-04-24）：huggingface.co/deepseek-ai/DeepSeek-V4-Pro
晚点 LatePost：DeepSeek 内部深度报道（2026-04-25）
DeepSeek V3 Technical Report（2025-01-22）：arxiv.org/abs/2412.19437
TileLang：Bridge programmability and performance in modern neural kernels, ICLR 2026（Wang et al.）
Anthropic API 定价：docs.anthropic.com
OpenAI API 定价：openai.com/api/pricing
Reuters：DeepSeek launches new model with Huawei chip support（2026-04-24）
SemiAnalysis：Huawei Ascend 910D Performance Analysis（2026-03）