推理效率:AI竞争的第二幕——当「更大」不再是唯一答案
2026年6月,Fortune Brainstorm Tech大会上,一场悄然而来的共识转变让台下的观众感受到了某种历史性的拐点。
不再是谁的模型参数更多、谁的基准测试分数更高。这一次,几位演讲者谈的是同一件事:用得起。
这不是一次普通的行业会议议题变化。这是AI行业正式宣告自己进入了第二幕。
幻灭之后的新战场
过去4年,AI行业的叙事主线是”越大越强”。训练更大的模型、用更多GPU、堆更多计算资源——这条路在GPT-4、Claude Opus、Gemini Ultra时代得到了反复验证。能力确实在提升,基准测试分数年年刷新,媒体头条从未停止过报道。
但现在,这条路遇到了一个严酷的现实问题:钱从哪里来?
对于大多数企业来说,部署AI Agent最大的障碍已经不是”模型够不够好”,而是”这笔API账单能不能可持续”。Fortune Brainstorm Tech大会上,多位高管和研究者不约而同地指向了同一个症结:推理成本正在成为AI大规模普及的最后一道墙。
Adaption公司联合创始人兼CEO Sara Hooker在演讲中给出了一个让人印象深刻的洞察:约90%的问题其实很简单。”批量处理任务、简单问答、工作流自动化,这些任务不需要你调用最顶级的模型。但今天的部署架构却经常把这些请求统统发给最贵的那个大模型。”
她把这个问题称为”庞大的效率浪费”:企业在用F-22战斗机完成UPS快递员的工作。而这种浪费,正在以真实的财务损失体现在越来越多公司的IT支出报告里。
更深层的问题是她提出的”模型固化”困境。今天的大型模型,一旦训练完成,知识和能力就基本固定了。”如果世界发生了变化,或者用户从使用中反馈了有价值的信息,那些知识不会自动成为模型的一部分。”结果是:企业为同样的错误反复付出计算成本,Agent学不会从失败中进化,每次对话都从同一个固化的起点重新开始。
这是效率问题,也是架构问题。
行业研究机构的数据显示,推理成本优化——包括量化(quantization)、智能缓存(KV-cache optimization)、批处理(dynamic batching)和模型路由(model routing,根据任务复杂度自动分发到最合适的模型)——可以削减50%-90%的API总开销,而不损失用户可感知的体验质量。
50%-90%。这不是边际改进,这是量级差异。折算成年度账单,对于中等规模的企业AI部署来说,差距可能在数十万到数百万美元之间。
效率革命的技术底座:SRAM vs. DRAM
要理解这场效率竞争的技术本质,需要回到一个硬件层面的基础分叉点。
当前主流的AI计算基础设施——以英伟达GPU为代表——依赖DRAM(动态随机存取存储器)作为主要内存形式。DRAM价格低廉、容量巨大,非常适合训练大型模型。GPT-4这样的模型有约1.8万亿参数(据估计),这些参数需要巨量存储;英伟达的HBM(高带宽内存)堆叠架构,正是为了满足训练阶段的这种极端存储需求而优化的。
但DRAM有一个物理层面的致命弱点:内存访问延迟。数据必须在存储单元和计算单元之间来回传输,即便是HBM这样的高带宽设计,也无法完全消除这个”内存墙”。对于训练来说,这个延迟可以被并行计算掩盖;但对于推理来说——特别是需要实时响应的对话场景——每一毫秒的延迟都直接影响用户体验和吞吐量。
SRAM(静态随机存取存储器)则走了一条截然不同的路。它可以直接集成在与计算逻辑相同的芯片上,数据传输距离从毫米级缩短到微米级,延迟从纳秒级降到了皮秒级。代价是:SRAM的成本比DRAM高几十倍,并且容量受限——这使得它根本无法承载万亿参数的大型语言模型。
但这个”缺点”,在推理场景中往往不是问题。
聊天机器人的单次推理、语音Agent的实时响应、代码自动补全、工作流任务调度——这些应用场景需要的是快,而不是大。用户不会在意模型有多少参数,他们在意的是响应延迟、并发吞吐和每千次调用的成本。
这正是推理专用芯片的技术赌注:用SRAM架构在特定场景下,以较低成本提供远超通用GPU的推理性能。这个赛道上的先行者包括Groq(已被英伟达以200亿美元收购)、Cerebras(2026年5月IPO,募资55亿美元,估值超500亿美元),以及现在刚刚完成量产的D-Matrix。
D-Matrix量产:一个时代的具体信号
2026年6月,就在Fortune大会召开的同一周,一件值得记录的事情发生了:距英伟达硅谷总部仅3英里的D-Matrix,宣布其推理专用芯片Corsair正式开始向客户发货。
这不是融资PR,不是发布会演讲稿,是真实的量产出货。
D-Matrix Corsair的核心技术路径与Groq和Cerebras相同:将SRAM与计算逻辑紧密集成在单一芯片上,以大幅减少内存访问延迟。根据D-Matrix委托Gimlet Labs进行的研究数据(需标注:来源为公司委托的研究),在与英伟达Blackwell GPU配合使用的场景下:
- 推理速度是独立GPU的10倍
- 能耗是独立GPU的1/5(5倍能效)
- 综合成本降低约90%(3倍速度 × 3倍成本效率 × 能耗节省)
D-Matrix CEO Sid Sheth在接受CNBC采访时充满信心地说:”这是一个价值1万亿美元的市场正在形成。”他明确表示没有出售公司的计划,相信市场足以支撑又一家独立上市公司。
公司目前已融资约5亿美元,估值约20亿美元。值得注意的是,微软旗下M12风险投资部门是其投资方之一。这个细节颇具意味:微软同时在推进自研的Maia 200推理芯片、与英伟达合作的PC处理器,以及现在参投D-Matrix——这种”多头押注”的布局,本身就是对AI基础设施格局高度不确定性的承认。
客户名单方面,Sheth尚未公开具体名字,但表示已获得”超大规模云厂商(hyperscalers)、新型云提供商(neoclouds)和前沿AI实验室”的承诺订单,约90%在美国,另有客户分布在中东和东南亚。
伯恩斯坦研究分析师Stacy Rasgon给出了相对冷静的判断:”不同芯片擅长不同任务。这些公司并不是直接替代英伟达,而是互补。听起来他确实拿到了相当数量的真实客户合同。”
斯坦福大学电子工程系兼职教授Rick Bahr则直接点出了D-Matrix架构的核心限制:SRAM无法处理万亿参数的大型推理模型。”那么多参数根本无法放进一个基于SRAM的设计里。这是巨大的挑战。”
这个限制是真实的,也是有意为之的。D-Matrix不是要颠覆整个AI计算栈,而是在切割一个具体的、快速增长的细分市场:轻量、实时、高频的推理场景。
这个市场有多大?根据行业预测,2026年,推理计算预计将占全部AI加速器支出的2/3。训练是过去,推理是现在和未来。
英伟达的困境与护城河:真实的裂缝在哪里
面对这波推理专用芯片浪潮,英伟达的处境比表面看起来更微妙。
乐观面:英伟达的CUDA护城河横跨过去15年,几乎所有AI框架(PyTorch、JAX、TensorFlow)、库和开发者工具都深度绑定CUDA。训练市场英伟达依然无可撼动,而推理场景即使被部分切割,整体AI计算支出的高速增长也确保了英伟达的绝对体量还在扩大。SambaNova也好,D-Matrix也好,他们的芯片经常是配合英伟达GPU使用,而不是完全替代。
担忧面:CUDA在训练端的统治地位,并不完全等价于在推理端的统治地位。推理场景优化目标完全不同——不是最大化模型容量,而是最小化延迟和能耗。这两点恰恰是通用GPU(为了训练灵活性而设计)的设计短板。
更有意思的是英伟达的应对动作:收购Groq(2025年12月,200亿美元)并推出Language Processing Unit(LPU),本质上是在把推理专用芯片赛道纳入自己的产品矩阵,而不是坐视外部竞争者吃掉这个细分市场。但这同时也印证了一个事实:连英伟达自己都用行动为推理专用芯片市场背书了。
SambaNova CEO Rodrigo Liang在Fortune大会上说:”在完全相同的模型上,我们比Blackwell GPU快2-3倍。在这个规模下,我们认为这是降低成本的可行路径。”他承认大型模型不会消失,也不否认英伟达的地位,但这句话已经说明问题:推理效率的竞争,已经进入了可以拿出具体数字对比的阶段。
护城河没有消失,但裂缝正在扩大。
第三层洞察:效率即民主化
大多数人看这场效率竞争,看到的是成本和利润的博弈。这是第一层。
稍深一点的观察者会看到竞争格局的重塑:谁能在推理端提供更好的性价比,谁就能获得更广泛的企业采用,最终影响AI生态的权力结构。这是第二层。
但还有第三层,大多数人忽视了:推理成本的下降,是AI真正民主化的前提条件,而不只是商业模式的优化问题。
OpenAI、Anthropic、Google的旗舰模型确实越来越强大。但这些能力,目前在经济上只对大型科技公司和财力雄厚的企业可及——中小企业和个人开发者只能使用性能打折的小模型或削减使用频次。当推理成本降低90%,当专用芯片让每次API调用从几美分变成几分之一美分,AI的真正爆发点就到了——不是在硅谷的会议室,而是在全球数以千万计的中小企业里,在新兴市场的开发者手中,在原本连试用都负担不起的场景中。
Sara Hooker在演讲中描述了一个她心目中的未来:模型能够从使用中持续进化,而不是在训练后固化。加上推理芯片的效率革命,两条路共同指向同一个方向:AI从”能用”变为”能大规模用”,从”大公司的特权”变为”所有人的基础设施”。
这和互联网的民主化历程惊人地相似。1990年代的互联网是学术精英和科技公司的工具,2000年代宽带普及才让它真正进入普通家庭,而移动互联网的爆发需要等到智能手机让接入成本降到人人可及的水平。AI的民主化,同样需要等到”用一次AI的成本”降到可以忽略不计的水平。
D-Matrix的量产,只是这个未来的一个早期像素点。Cerebras的IPO(2026年5月,募资55亿美元,估值超500亿美元)和Groq被英伟达以200亿美元收购(2025年12月),代表了这条赛道两种截然不同但都被市场验证的出路:一个通过独立上市证明了独立价值,一个通过被最大竞争对手战略收编证明了不可忽视性。两种结局,都说明同一件事:推理效率赛道是真实的,不是炒作。
值得注意的是,Cerebras和Groq走向了不同的终点:Cerebras选择独立上市,向公开市场证明推理专用芯片可以作为独立商业模式存在;Groq则选择加入英伟达,用其LPU技术增强英伟达在推理端的产品线。D-Matrix的CEO明确表示不想走Groq的路——”这是一个1万亿美元的市场,能支持另一家上市公司”。时间会告诉我们这个判断是否正确。
AI竞争的第一幕是参数竞赛,比的是谁的模型更能干。第二幕,是效率之战,比的是谁的基础设施能让更多人、更低成本地用上AI。
互联网的民主化给了我们一张参考图:1990年代学术网到拨号上网,2000年代宽带到无线WiFi,2010年代移动互联网让20亿人拿上了智能手机。每一次接入成本的量级下降,都带来了一波新用户和新用例的爆发——不是线性增长,而是指数级的。AI的民主化,同样等待着这个量级转变的到来。
当推理成本真正降到”可以忽略不计”,AI就不再是企业的工具,而成为所有人的基础设施。就像今天没有人会在意每次搜索”Google花了多少电”一样。
而第二幕,刚刚开场。
参考资料
-
Fortune, “AI industry spent years chasing bigger models. Now it’s chasing efficiency” (2026-06-09)
https://fortune.com/2026/06/09/ais-next-challenge-isnt-bigger-models-its-making-them-efficient-enough-to-use/ -
CNBC, “Upstart chipmakers keep challenging Nvidia. This time it’s Microsoft-backed D-Matrix” (2026-06-09)
https://www.cnbc.com/2026/06/09/nvidia-d-matrix-chip-production-microsoft.html