GPU等待的代价:DriveNets的4.1亿美元与AI时代被低估的网络基础设施战争

假设你拥有一个AI推理集群,其中部署了1000张H100 GPU,每张卡的峰值算力约为989 TFLOPS(BF16)。在理想状态下,这个集群每天能处理数十亿次推理请求。但实际上,由于网络带宽瓶颈、交换机调度延迟和跨节点通信开销,GPU的实际利用率可能只有峰值的70%。

那30%的空白意味着什么?根据Lambda Labs、CoreWeave等主要GPU云服务商2025-2026年的市场报价,一张H100 SXM5的租赁成本约为每小时2至3美元(实际价格随市场供需波动)。1000张卡、每天24小时、利用率损失30%——这相当于每年白白烧掉超过1.57亿美元。

这不是理论计算。Meta在其2024年发布的技术报告中提及,在大规模LLaMA训练中,通信开销曾占总计算时间的30%以上。Google在TPU Pod的设计文档中同样指出,网络成为规模化训练的核心约束。当整个AI行业都在疯狂购买更多GPU的时候,一个关键问题被系统性地忽视了:这些GPU能否被高效连接起来?

2026年6月1日,以色列网络公司DriveNets宣布完成4.1亿美元D轮融资,由Bessemer Venture Partners领投,估值达80亿美元,公司累计融资突破10亿美元,且已实现正向现金流。这不是一笔普通的融资——它是一个信号,标志着AI基础设施投资的重心正在悄悄发生位移。


一、AI基础设施的「算力偏见」:被系统性忽视的网络层

如果你统计过去三年AI基础设施领域的头条新闻,会发现一个显著的规律:90%以上的报道聚焦于GPU、TPU、算力,而网络交换机、fabric拓扑、路由协议几乎从未成为主角。

这种「算力偏见」有其历史合理性。AI的早期阶段,瓶颈确实在算力:没有足够的矩阵运算能力,一切都无从谈起。NVIDIA凭借CUDA生态构建了无可匹敌的护城河,英伟达的市值在2024年一度超越微软,成为全球最有价值的公司之一。

但当算力不再是稀缺资源时,下一个瓶颈在哪里?

行业分析机构650 Group在2026年6月发布的报告中给出了明确答案:随着AI工作负载从同构训练向异构推理切换,网络层已经成为制约AI系统性能的核心约束,AI网络市场规模预计将超过2000亿美元。

这个转变的背后,有一个关键的技术趋势被大多数人忽略了:Inference Flip


二、Inference Flip:游戏规则的改变

过去五年,AI基础设施的主要投入集中在训练(Training)场景:大规模、同构、批处理、对通信延迟不敏感。在这种场景下,NVIDIA的InfiniBand网络配合NVLink互联,构成了一个几乎无懈可击的封闭生态——你买了NVIDIA的GPU,自然需要NVIDIA的网络方案,两者深度绑定。

但2025年起,推理(Inference)逐渐成为AI计算的主战场。GPT-4、Claude 3、Gemini Ultra等大模型的大规模商业化部署,带来了以下根本性变化:

第一,硬件异构化。 推理场景对成本敏感度远高于训练,企业开始大量混用NVIDIA H100/A100/L40S、AMD Instinct MI300X、Intel Gaudi 3,以及云厂商自研芯片(AWS Trainium、Google TPU)。这些芯片来自不同厂商,无法共用InfiniBand协议,需要一个统一的网络层来连接。

第二,延迟要求提升。 实时推理需要毫秒级响应,对单次请求的端到端延迟高度敏感。而训练任务可以容忍集体通信(AllReduce)的延迟,因为它是批量处理的。

第三,弹性部署。 推理集群需要根据业务负载动态扩缩容,而传统InfiniBand方案的静态拓扑配置与这一需求存在内在矛盾。

在这种背景下,基于开放Ethernet标准的AI网络方案开始获得系统性优势。而DriveNets,正是这一赛道上最具竞争力的玩家之一。

值得特别说明的是,「Inference Flip」不仅仅是技术趋势的演变,更是商业逻辑的根本转变。在训练阶段,算力成本是一次性投入,即便网络利用率低一些,只要模型最终训练好了,企业仍然愿意接受。但在推理阶段,每一次用户请求都是收入来源,网络延迟直接影响用户体验,进而影响留存率和付费转化。一家大型AI应用公司,每天处理数亿次推理请求,哪怕网络优化让GPU利用率提升5%,换算成年度运营成本节省都可能高达数千万美元。这就是为什么AI企业在2025-2026年大幅增加网络基础设施投入预算的根本原因:推理场景的「每延迟一毫秒都是真实成本」。


三、DriveNets的技术路线:为什么是Ethernet?

DriveNets成立于2015年,创始人Ido Susan和Hillel Kobrinsky此前均在以色列国防科技领域有深厚背景。公司最初的主要客户是电信运营商——AT&T于2019年率先部署DriveNets的网络云(Network Cloud)解决方案,这一合作持续了7年以上。

这一「电信起家」的历史,给DriveNets带来了一项竞争对手难以复制的核心优势:在超大规模、高可靠性场景下经过十年以上实战验证的软件栈

DriveNets的技术架构围绕三个层次展开:

Scale-up层:节点内部多GPU互联,解决单机内部的通信效率问题。 Scale-out层:跨节点互联,连接同一AI Pod内的所有GPU,通常采用2层Fat-Tree拓扑。 Scale-across层(DriveNets的差异化所在):跨AI Pod的互联,实现超大规模异构AI集群的统一管理。

相比NVIDIA InfiniBand的封闭垂直整合方案,DriveNets的差异化体现在以下几点:

开放生态:支持Broadcom Tomahawk/Trident系列、Cisco Silicon One等多种商用交换芯片,客户不被单一供应商锁定。 软件全栈优化:从通信库(NCCL/UCX替代)到交换机调度算法,DriveNets提供端到端的软件优化,而不仅仅是销售交换机硬件。 正库存(Positive Inventory):这是一个被低估的竞争优势。在NVIDIA GPU供应紧张的背景下,交换机芯片的供应链反而较为充裕,DriveNets能够保证快速交付,这直接影响客户的项目上线时间。 AI Fabric能力:针对AI训练和推理工作负载特性设计的流量调度算法,能够显著降低「拥塞」(Incast Congestion)问题,提升GPU利用率。


四、历史的回响:Cisco与Arista的先例

理解DriveNets为何重要,需要先理解一个历史规律:每一次计算范式的转变,都会催生一个新的网络巨头

1990年代,互联网浪潮改变了企业IT架构,将原本孤立的局域网连接起来。Cisco通过抢先布局企业路由器市场,在随后十年内成为全球市值最高的公司之一,峰值市值在2000年3月科技泡沫顶峰时超过5000亿美元(据Cisco历史财报及彼时股价记录)。

2010年代,云计算重写了数据中心的网络需求——从传统的树形拓扑到叶脊(Leaf-Spine)架构,从静态配置到可编程网络。Arista Networks精准抓住了这一机会,专注于高速以太网交换机和EOS操作系统,为Facebook(现Meta)、Microsoft Azure等超大规模云厂商提供定制化网络方案。Arista的市值从2014年IPO时的不足30亿美元,增长到2024年的超过800亿美元。

现在,AI计算正在创造第三次机会。训练大模型需要数千张GPU高度同步通信,推理需要低延迟高吞吐的异构网络,边缘AI需要轻量级的分布式网络方案。这三种场景,没有一种可以被现有的云计算网络方案直接满足。

DriveNets的BVP投资论文明确指出了这一历史类比:Cisco把握了互联网时代,Arista把握了云计算时代,而AI时代的”AI Fabric”市场,目前仍未出现一个统治性玩家。DriveNets在争取成为那个玩家。

但这里有一个重要的细节:Cisco和Arista的成功,并不只源于技术领先,更关键的是它们在正确的时间点,与正确的大客户建立了深度绑定关系。Arista的早期突破,是2013年获得Facebook作为战略客户;Cisco在互联网泡沫前的爆发,依赖于和早期ISP(互联网服务提供商)的垂直整合。

DriveNets目前的「大客户正现金流」模型,显示它已经走到了这一步:拿下了足够量级的锚定客户,并从中建立起可持续的商业闭环。

历史上,Cisco在1994年以每股低价完成IPO,此后随着互联网浪潮爆发,五年内股价上涨超过100倍。Arista从2014年IPO的约百亿美元市值,成长为2024年超过800亿美元的网络基础设施巨头。每一次大浪潮都会产生一个市值数百亿至数千亿的网络公司,区别只在于「谁在正确的时间站在正确的位置」。

DriveNets的80亿美元估值,放在整个AI基础设施投资的时间轴上来看,或许仍然处于「早期价值发现」阶段。但这并不意味着风险消失——Cisco和Arista的成功背后,有更多同样有希望的竞争对手最终消失在历史的尘埃中。真正的问题是:DriveNets能否在接下来的12-24个月里,拿下一个或几个超大规模AI平台的战略合作,将自己钉入AI基础设施的核心架构?


五、对立视角:InfiniBand的反驳

公平起见,我们需要认真对待最大的反驳声音:NVIDIA InfiniBand仍然是AI训练场景下技术最成熟、性能最优的选择,而且NVIDIA正在持续加码。

2024年,NVIDIA推出了NDR InfiniBand(400Gbps)并积极部署HDR到NDR的升级路径。更重要的是,NVIDIA将InfiniBand与CUDA/NCCL深度整合,提供了端到端的性能调优工具链。对于纯NVIDIA训练集群而言,这套方案的综合TCO(总拥有成本)未必高于异构Ethernet方案。

此外,NVIDIA推出了Spectrum-X以太网方案,专门针对AI工作负载优化,试图在Ethernet领域建立与InfiniBand相同量级的竞争力。Spectrum-X于2024年正式发布,已有多家超大规模云厂商部署。

Ethernet vs InfiniBand的技术路线之争,在行业内部远未有定论。Meta公开表示倾向于Ethernet方案;Google依赖自研ICI(Inter-Chip Interconnect);Microsoft Azure同时部署了InfiniBand(用于训练)和Ethernet(用于推理)的混合方案。

这意味着DriveNets并不会坐享一个统一的市场,而是需要在一个碎片化的竞争格局中持续证明自己的价值。


六、第三层洞察:NVIDIA护城河的真正威胁,不是竞争对手的GPU

市场上关于AI硬件竞争的讨论,90%都集中在「谁能造出比H100更好的GPU」:AMD MI300X、Intel Gaudi 3、Google TPU v6、Amazon Trainium 2……这些产品都在算力参数上挑战NVIDIA,但它们无一例外地都在NVIDIA的主场上进行竞争——而NVIDIA在这个主场上拥有CUDA生态这个几乎无法复制的护城河。

真正能够动摇NVIDIA统治地位的,可能不是一颗更好的GPU,而是网络层的解耦

当AI网络层从InfiniBand切换到开放Ethernet时,发生了什么?NVIDIA引以为傲的端到端整合优势——GPU + NVLink + InfiniBand + NCCL——被打破了一个关键链条。这意味着,理论上,客户可以在不替换NVIDIA GPU的前提下,逐步引入异构计算节点,并用统一的Ethernet网络层将它们连接起来。

这一切的前提,是AI Ethernet Fabric足够优秀——能够达到或接近InfiniBand的性能水平,同时提供更好的成本效益和供应链灵活性。

DriveNets正在下注的,正是这个前提会成立。

如果这个赌注成功,AI基础设施的未来将是:上层是多元化的异构算力(NVIDIA、AMD、Intel、自研),下层是统一的AI Ethernet网络层,而持有这个网络层的公司,将获得与Cisco当年类似的战略位置。

但这里有一个大多数分析报告都没有点明的深层矛盾:NVIDIA其实是AI Ethernet Fabric的最大隐形受益者,同时也是最大的潜在受害者。 当企业使用Ethernet统一管理异构芯片时,他们减少了对NVIDIA InfiniBand的依赖,这对NVIDIA网络业务(占总收入约15-20%)是威胁。但Ethernet的成熟也恰恰让客户更容易混用不同厂商的AI芯片——而在目前的异构市场中,NVIDIA GPU仍是最受追捧的选择,Ethernet的成熟反而可能扩大NVIDIA GPU的潜在市场。

这个矛盾揭示了一个现实:NVIDIA对Ethernet Fabric的态度,是「竞争性合作」——一方面推出Spectrum-X以太网方案试图控制这个市场,另一方面又希望Ethernet生态繁荣,因为这有利于其GPU的销售。这种两面性,恰恰是DriveNets们的市场机会所在:NVIDIA无法对Ethernet Fabric全力投入,因为过于成功的开放网络方案会反噬其InfiniBand业务。

对于中国AI基础设施建设而言,这一洞察尤为重要。在美国对华芯片出口管制持续收紧的背景下,中国AI厂商无法获得最新一代H100/H200/B200,但可以获得国产AI芯片(华为昇腾、寒武纪、沐曦等)以及Ethernet交换机芯片(博通部分产品、国产交换机芯片)。如果AI Ethernet Fabric成熟,中国有机会在网络层建立自主可控的AI基础设施,从而绕开算力层面的卡脖子限制。


七、竞争格局深度解析:DriveNets的五大护城河

在过去十二个月里,AI网络基础设施领域迎来了一波密集的资本涌入和产品发布潮。要理解DriveNets的4.1亿美元融资的战略价值,需要放在整个竞争格局中来审视。

竞争对手图谱

当前AI网络赛道的主要玩家可以分为三个层次:

第一层:垂直整合巨头。NVIDIA以InfiniBand(通过Mellanox收购获得)为核心构建封闭生态,并于2024年推出Spectrum-X以太网方案试图两线作战。Cisco已宣布在AI网络领域的重大押注,基于其Silicon One系列芯片和WebScale架构积极进行转型。这两家公司拥有最强的品牌认知度和渠道资源,但历史包袱也最重。

第二层:专注以太网的创业公司。除DriveNets外,还有Rockport Networks(基于交叉连接,无阻塞拓扑),Arista Networks(从云计算网络扩展到AI网络),Juniper Networks(被惠普企业收购后积极布局),以及基于RoCE(RDMA over Converged Ethernet)协议的多家初创公司。

第三层:芯片层创新者。Marvell、Broadcom持续迭代高速交换芯片,Fungible(已被微软收购)将数据处理单元(DPU)引入AI网络场景,Pensando(被AMD收购)同样在这一领域发力。

在这个竞争格局中,DriveNets的独特护城河来自以下五个维度:

护城河一:十年电信级可靠性验证。AT&T等顶级电信运营商对网络设备的要求远比互联网科技公司苛刻——99.999%(五个9)的可用性要求,意味着每年允许的停机时间不超过5分钟。DriveNets在这种极端严苛的环境下积累的软件稳定性和故障恢复能力,是所有AI原生网络创业公司都不具备的历史资产。当AI数据中心开始追求”电信级可靠性”时,DriveNets无需重新证明自己。

护城河二:全栈优化而非纯硬件销售。大多数竞争对手的商业模式是销售网络交换机硬件,软件只是附带。DriveNets的核心竞争力在于其软件层:分布式路由引擎DNOS(DriveNets Network OS)、AI工作负载感知的流量调度算法、跨异构芯片的统一通信库适配层。这使得DriveNets能够提供”性能保证”(SLA保证GPU利用率提升X%),而不仅仅是”设备销售”——这种商业模式的利润率和客户黏性都远高于传统硬件销售。

护城河三:异构AI的天然适配。DriveNets的架构设计从一开始就考虑了多厂商混合场景,这与NVIDIA的设计哲学截然相反。当AI芯片市场进入异构竞争时代,DriveNets的兼容性优势将会被系统性放大。根据650 Group的预测,到2028年,超过60%的大型AI集群将包含来自2个以上厂商的计算节点——这正是DriveNets的主场。

护城河四:正现金流的商业证明。这在AI基础设施创业公司中极为罕见。通常情况下,基础设施公司的早期阶段都是”先烧钱抢市场,后提价收利润”。DriveNets在完成D轮融资时已实现正现金流,证明它的商业模式不依赖于持续输血——即使融资环境变差,它也能独立运转。这种稳健性在当前宏观经济不确定性加剧的背景下,是一个显著的竞争优势。

护城河五:供应链正库存。这个护城河听起来不够性感,但在过去三年里,供应链已经成为AI基础设施建设的核心变量。NVIDIA GPU的等待周期曾长达18个月;AI服务器的交付周期同样持续延长。相比之下,Ethernet交换机芯片(Broadcom Tomahawk系列)的供应较为充裕,DriveNets通过积极的库存管理,能够承诺比竞争对手更短的交付周期——在AI领域,早上线三个月往往意味着数亿美元的商业价值差距。


八、深度案例:Inference Flip如何重写网络需求规格

让我们通过一个具体的技术案例,来理解Inference Flip对网络基础设施需求的实质性改变。

假设一家中等规模的AI应用公司,部署了一套用于大模型推理的生产集群,规格如下:

训练场景(传统模式)

  • 256张NVIDIA H100 GPU,通过NVLink组成32台服务器
  • InfiniBand HDR(200Gbps)互联,配置NVIDIA Quantum-2交换机
  • 工作负载:批量离线训练,AllReduce通信,对延迟不敏感
  • 网络成本占比:约15%(设备总成本中)
  • GPU利用率:约75-85%(受InfiniBand拥塞管理影响)

推理场景(现代模式)

  • 混合芯片:128张NVIDIA H100(用于语言模型)+ 64张AMD MI300X(用于扩散模型)+ 32张Intel Gaudi 3(用于推荐系统)
  • 需要统一的以太网网络层来连接不同厂商的芯片
  • 工作负载:实时在线推理,请求批量大小从1到128不等,P99延迟要求 < 50ms
  • 网络成本占比:约25-35%(因为高端以太网交换机+软件许可费用)
  • GPU利用率目标:> 85%(每提升1%利用率对应可观的成本节省)

在这个迁移过程中,传统的NVIDIA InfiniBand方案面临一个根本性的问题:它不支持AMD GPU(因为NCCL通信库与AMD的ROCm软件栈存在兼容性问题);它的流量调度算法针对全同步AllReduce优化,而非异步推理请求的流量模式;它的配置需要专业的InfiniBand工程师,而大多数AI工程团队缺乏这类人才。

DriveNets的DNOS解决了这个问题:一套统一的网络操作系统,适配多厂商芯片的通信需求;AI感知的流量调度,根据实时工作负载动态调整带宽分配;无需InfiniBand专业知识,基于标准Ethernet运维体系即可管理。

用BVP投资论文中的说法:「当AI workload从训练向推理切换,网络层必须从’为同构GPU同步通信优化’变成’为异构芯片异步推理优化’。这不是一次升级,而是一次范式替换。」

这就是DriveNets在这个时间点获得4.1亿美元融资的根本逻辑:Inference Flip触发了网络范式替换,而DriveNets是少数几家技术架构从一开始就为这个新范式设计的公司之一。


九、中国AI基础设施的镜像思考

DriveNets的故事,对于中国AI基础设施建设有着镜像般的启示价值。

2022年10月以来,美国商务部持续收紧对华AI芯片出口管制:从A100/H100被禁,到下调算力阈值限制A800/H800,到2025年进一步扩大范围,几乎所有最先进的NVIDIA GPU都无法合规出口至中国。

这一政策造成了一个结构性的”算力缺口”:中国AI企业无法获得与国际竞争对手同等算力密度的基础设施,而国产AI芯片(华为昇腾910B、910C系列;寒武纪;壁仞;沐曦等)在单卡性能上仍落后于最新NVIDIA产品。

但网络层的情况截然不同:

以太网交换机芯片:Broadcom的部分Tomahawk系列产品仍可获取(管制主要针对AI训练专用的高算力芯片),国内也有超盛微电子(Credo Semiconductor)、中科驭数等公司在开发高性能交换机芯片。

400GbE/800GbE以太网标准:开放标准,不存在出口管制问题。

网络优化软件:开源项目(RDMA/RoCE协议栈、NCCL替代方案等)不受出口管制限制。

这意味着,如果AI Ethernet Fabric成熟并被证明可行,中国有机会在网络层建立自主可控的AI基础设施,通过优化国产芯片之间的互联效率,最大化现有算力资源的利用率。事实上,华为不仅在卖昇腾芯片,也在积极推广其CE系列数据中心交换机——这正是一个类DriveNets的策略布局。

华为的策略与DriveNets有着惊人的相似性:从电信网络设备起家(华为是全球最大的电信设备供应商),积累了超大规模、高可靠性的网络软件栈,现在将其迁移到AI数据中心场景。昇腾AI集群的网络方案,正在向「统一管理异构国产AI芯片」的方向发展。

这不是说DriveNets在中国没有机会——中国市场实际上存在大量外资AI企业,它们仍然需要国际先进的网络方案。但更重要的洞察是:中国AI基础设施建设的长期突破口,可能不在算力层面(受出口管制持续压制),而在网络优化层面(相对开放,且可以通过软件创新弥补硬件代差)。


十、融资背后的战略逻辑

DriveNets此次4.1亿美元D轮融资,领投方Bessemer Venture Partners(BVP)是硅谷顶级VC之一,历史投资组合包括Shopify、LinkedIn、Twilio、Twitch等。BVP在AI基础设施领域的布局一直相对低调,此次领投DriveNets是一个明确的信号:他们认为AI Ethernet Fabric是未来五年最重要的基础设施投资机会之一。

从融资条款来看,DriveNets此轮估值80亿美元,累计融资10亿美元,且已实现正向现金流——这在当前融资环境下极为罕见。大多数AI基础设施创业公司仍在大量烧钱,而DriveNets的盈利模型已经成立,这意味着本轮融资主要用于加速商业化(扩大销售网络、增加研发投入),而非维持运营。

公司披露的「$1B+ secured business」(已签订超过10亿美元的合同)也值得关注。这意味着现有收入可见度高,不依赖于「未来某天会有更多客户」的假设,而是建立在真实的、已合同化的商业基础上。


十一、结语:网络层——AI基础设施的下一个卡脖子

AI基础设施投资的演进轨迹,正在重演云计算时代的剧本,只是时间轴压缩了:2010-2015年是算力;2015-2020年是存储和数据库;2020年至今是网络。

DriveNets的4.1亿美元融资,是这个时间轴上一个明确的里程碑。它告诉我们:资本已经开始系统性地押注AI网络基础设施,而不仅仅是GPU算力。

但这场战争才刚刚开始。NVIDIA不会坐以待毙,Arista已经入局,Cisco正在加速转型,新兴的Pensando、Fungible(被微软收购)、Marvell等公司各有一席之地。

最终的竞争格局,将由三个变量决定:Ethernet能否在AI训练场景中追上InfiniBand的性能谁能拿下下一个Meta/Google量级的锚定客户谁能在开放生态和垂直整合之间找到最佳平衡点

DriveNets目前的答案是:电信级可靠性 + AI工作负载优化 + 正现金流的商业模式。这是一张值得认真对待的底牌。

对于AI基础设施的投资者和建设者而言,有一个问题值得认真思考:你的AI基础设施预算中,有多少分配给了网络层?如果答案是「很少」,那么你可能正在重蹈云计算时代「忽视网络」的历史错误。

更深层地说,DriveNets融资事件背后的信号,不只是关于一家以色列公司的成功融资。它代表着整个AI基础设施投资逻辑的成熟:市场终于开始系统性地认识到,AI能力的上限,不只取决于你拥有多少GPU,更取决于这些GPU能以多高的效率协同工作。而决定这个效率的关键,正是被长期低估的网络层。

在AI竞赛已经从「谁能买到更多GPU」进化为「谁能最高效地使用GPU」的今天,DriveNets代表的这条赛道,或许正处于从边缘走向中心的历史性拐点。


参考资料

  1. DriveNets Secures $410M Series D to Meet Surging Demand for Ethernet Fabric in Large-Scale AI Deployments. DriveNets官方新闻稿, 2026-06-01. https://drivenets.com/news-and-events/press-release/drivenets-secures-410m-series-d-to-meet-surging-demand-for-ethernet-fabric-in-large-scale-ai-deployments/

  2. DriveNets: The AI networking fabric for heterogeneous AI. Bessemer Venture Partners博客, 2026-06-01. https://www.bvp.com/news/drivenets-the-ai-networking-fabric-for-heterogeneous-ai

  3. AI Networking Market Set to Surpass $200 Billion as Heterogeneous Full Stack Solutions Scale. 650 Group行业报告, 2026-06-01. https://650group.com/blog/ai-networking-market-set-to-surpass-200-billion-as-heterogeneous-full-stack-solutions-scale/

  4. Bloomberg: DriveNets raises $410M Series D for AI networking. Bloomberg, 2026-06-01. https://www.bloomberg.com/news/articles/2026-06-01/drivenets-series-d-410-million-ai-networking