每次你打开ChatGPT问一个问题,后端发生的事情远比你想象的复杂。

你的请求从网络传输到服务器,首先被CPU接收并进行预处理,这包括分词、安全检查、上下文管理等一系列操作,随后被路由到GPU执行核心的矩阵运算,每生成一个词,都要经历一次GPU到内存的往返,用于读取和更新模型的中间状态。这个过程不只发生一次——它以近乎相同的模式在你的对话产生的每一个词背后重复着,有时每秒数百次,而在一个大型AI推理服务集群里,每秒可能同时处理数万个这样的请求。

这个来回的旅程,是AI推理系统设计中最根本的低效源头之一,也是AI推理成本居高不下的核心原因之一。这种处理器和内存之间的数据接力模式,在大多数工业级AI推理场景下效率相当低下——GPU可能有40%至60%的时间处于等待数据从内存到来的空闲状态,而不是在进行真正的矩阵运算。数十亿美元买来的NVIDIA A100或H100,有相当一部分时间其实在发呆。

而这恰恰是一家来自韩国的4岁创业公司XCENA,用1.35亿美元Series B融资在押注的关键问题。


一、冯·诺依曼的诅咒:一个70年前埋下的结构性缺陷

要理解XCENA在解决什么问题,需要先回到1945年数学家约翰·冯·诺依曼提出的现代计算机基础架构:处理器和内存分离,通过总线连接。这个设计在当时是天才之举,它让计算机可以通用,可以执行任何程序。但它也埋下了一个随时间不断放大的隐患:数据必须从内存出来,到处理器里被处理,处理完再回到内存,如此往复

这个”内存墙”(Memory Wall)在几十年的芯片发展历程中一直存在。处理器的运算速度在摩尔定律的驱动下每两年翻倍,内存带宽的增长则远落后于此。这个性能差距被芯片工程师称为”冯·诺依曼瓶颈”,在大多数传统计算场景中尚且可以通过各种缓存层级(L1/L2/L3)来缓解。

但AI推理打破了这个平衡,带来了两个传统缓存层级无法解决的新问题。

第一个问题:KV Cache的爆炸性增长

AI模型的推理过程有一个不同于传统计算的特点:它需要频繁访问大量的”上下文记忆”,即KV Cache(Key-Value Cache)。每当模型生成一个词,它需要回顾之前生成的所有词的语义表征——这是Transformer架构的核心机制,也是大语言模型能够理解上下文的根本原因。但这意味着每生成一个词,都要从内存中读取大量之前的状态。

随着对话长度增加,KV Cache的大小呈二次方增长。一个支持128K上下文窗口的大型语言模型,在处理一段完整对话时,KV Cache可能占用数十GB的内存,而这些数据在整个推理过程中需要被反复读取。这种大量的、不规律的内存访问模式,正是GPU最不擅长处理的——GPU的架构针对的是规则的、批量的矩阵运算,而不是零散的、高频的内存读写。

第二个问题:预处理的CPU-内存往返

AI推理还有大量的预处理工作——分词(tokenization)、批次管理(batch scheduling)、数据缓存、推理上下文管理——这些工作通常由CPU完成。但CPU每次执行这些操作,都需要先从内存取数据,再把结果写回内存,形成大量的内存往返。在一个高并发的AI推理服务中,这种CPU-内存的反复握手,可能成为整个推理流水线的速度上限。

结果是:即使你花了数十亿美元构建了一个全由NVIDIA最新一代GPU组成的AI推理集群,这些GPU也可能有相当一部分时间在等待内存把数据送来,而不是在做它们最擅长的矩阵乘法。

这个问题有多严重?按照工业界的粗略估计,在长上下文推理场景中,GPU的内存带宽利用效率可能只有40%-60%,意味着整个推理系统有约40%-60%的算力处于空转状态。对于一个每小时运营成本超过百万美元的超大规模AI推理集群,这意味着每小时有40-60万美元的成本被白白浪费在等待内存上。


二、把计算搬进内存:XCENA的MX1芯片

XCENA的解决方案听起来简单到有些反常:把计算搬进内存,而不是把内存的数据搬出去给处理器

具体来说,他们设计的MX1芯片是一块内存计算模块,通过CXL(Compute Express Link)3.2标准连接到CPU。CXL是Intel、AMD、ARM在2019年联合推出的内存互联协议,设计目的就是让处理器和内存之间有一条远比传统DDR通道更宽、更低延迟的”专用高速公路”。

MX1的设计哲学是精确分工:那些不需要GPU级别算力的数据操作(KV Cache读写、批次排队、预处理、数据缓存),由MX1在内存模块本身完成,完全不需要经过CPU-GPU-内存的传统往返路径。只有真正需要矩阵乘法等GPU特长的核心计算,才被路由到GPU。用XCENA的话说,MX1让”计算来到数据面前”,而不是”数据去到计算面前”。

据XCENA声称,采用MX1后,某些AI推理场景下,原本需要10台服务器才能完成的工作量,可以被压缩到1台。这是一个10倍效率提升的说法,在量产实现之前自然需要用实际基准测试来验证,但这个方向的理论基础是清晰的:减少内存-处理器往返次数,每次往返减少的延迟就是效率的提升。

XCENA团队的背景让这个技术押注更具说服力。CEO Jin Kim、CTO Dohun Kim、CPO Harry Juhyun Kim,三位联合创始人都来自三星和SK Hynix,这两家公司是全球最重要的DRAM和HBM供应商。能把计算嵌入内存模块,需要对DRAM的物理特性、内存寻址方式、良品率管理、以及与处理器通信的协议细节有极为深刻的理解——这些是内存芯片制造商长期积累的核心知识,硅谷的纯软件人才很难在几年内建立起这种深度。

Jin Kim对这个机会的描述简单而有力:”CPU和GPU这些年都变聪明了很多。内存从来没有。XCENA想改变这个。”


三、为什么2026年是这个赛道的最佳时间窗口

XCENA并不是第一家尝试内存计算的公司。Processing-in-Memory(PIM)的概念在学术界已经讨论了数十年。但有几个关键事实的汇合,让2026年成为这个赛道特别关键的时间窗口。

内存公司的估值集体突破万亿美元门槛

2026年5月,Samsung、SK Hynix、Micron三家全球内存芯片巨头相继越过万亿美元市值门槛。这不只是一个财务里程碑,而是市场对”AI时代内存需求将是持续性的结构性需求”这个命题的集体定价。

这背后是AI推理对HBM(高带宽内存)的爆炸性需求。NVIDIA的H100每块GPU需要80GB HBM3,GB200每块GPU需要192GB HBM3e,而每个大型AI集群需要数千块GPU。内存需求正在以历史上从未见过的速度增长,而制造HBM的产能和良品率提升速度,远跟不上AI训练和推理规模的扩张速度。

在这个背景下,XCENA的MX1如果能减少AI推理对HBM的反复访问次数(通过在内存模块内部直接处理部分计算),那么它不只是降低了能耗,也直接减少了对HBM容量和带宽的需求。以当前HBM3e的市场价格估算,一个万卡级别的AI集群,仅内存部分的硬件成本就超过30亿美元。如果MX1能将有效内存利用率提升10-15%,折算的成本节约是数亿美元量级的真实价值。

AI推理成本危机正在逼近临界点

2026年5月,多家企业的AI支出数字开始引发市场担忧:某家大型企业单月在Claude AI上花费5亿美元;Uber仅4个月就烧完了全年AI编程工具预算;Microsoft取消了大部分Claude Code的直接许可证,因为AI计算成本已经超过了员工成本本身。Goldman Sachs预测到2030年,全球AI推理的token消费量将是2026年的24倍。

这意味着AI推理成本不是一个可以慢慢优化的工程问题,而是一个正在逼近的经济危机。如果推理成本不能随着规模增长而同步下降,很多看起来可行的AI应用商业模式将面临根本性的挑战。任何能从架构层面显著降低推理成本的技术,都具有巨大的战略价值。

CXL协议生态的成熟降低了集成风险

CXL 3.2经过数年发展,已经在主流服务器平台上得到广泛支持。这意味着XCENA的MX1不需要说服数据中心运营商改变现有的服务器架构——只需要插入一块符合CXL标准的内存模块,就可以在现有基础设施上启用内存计算能力。

这种”非颠覆性集成”的路径,是XCENA得以快速进入保守的超大规模数据中心客户的重要前提。超大规模数据中心在产品选型上极为保守——他们倾向于选择”兼容现有生态”而非”需要重建架构”的新技术。CXL的成熟,给XCENA提供了一个标准接口,降低了早期采用的工程风险。


四、竞争格局:XCENA在三个层面的战略定位

XCENA面对的竞争格局是复杂的,它需要在3个不同层面建立差异化。

第一层:与传统内存控制器公司的竞争

XCENA的最直接竞争对手是Astera Labs和Marvell,两家纳斯达克上市公司,都在CXL内存互联赛道深耕。

Astera Labs是CXL生态中最受市场关注的公司,2024年上市后市值一度超过200亿美元。它的核心产品是CXL内存控制器和PCIe Retimer,专注于解决内存扩展和数据中心互联问题,但它的产品主要是通用型的内存互联解决方案,不包含嵌入式计算。Marvell是AI基础设施芯片的重量级选手,在存储控制器、网络芯片、以及定制AI芯片方面都有强大的市场地位。

XCENA的差异化在于Jin Kim所说的”数千个核心”:MX1不只是一个内存互联控制器,而是一个在内存模块中集成了大量轻量级RISC-V计算核心的系统,每个核心都是为数据预处理和缓存管理等特定任务优化的专用逻辑。这比Marvell的通用核心方案在特定任务上有更高的并发性和效率。

第二层:与GPU厂商的间接关系

XCENA的市场定位不是与NVIDIA竞争,而是与NVIDIA协同:MX1处理的是GPU不擅长的那部分工作,从而让GPU的算力能够更专注于它最擅长的矩阵乘法。这种”补充而非替代”的定位,降低了NVIDIA直接打压XCENA的动机,也使得超大规模数据中心(通常也是NVIDIA的大客户)更容易接受将MX1作为补充方案引入。

当然,长期来看NVIDIA也在持续提升其GPU中的内存处理能力,未来的GPU架构可能会在芯片内部集成部分内存计算功能。这是XCENA需要持续关注的战略风险。

第三层:与其他内存计算创业公司的竞争

内存计算赛道上还有多家创业公司,包括Graphcore(英国,已被软银收购)、Untether AI(加拿大)、以及多家尚未公开的学术背景团队。XCENA的差异化在于其在内存制造商生态中的根基——他们与Samsung和SK Hynix的关系,以及MX1将在Samsung代工线上量产的计划,意味着他们有独特的供应链接触点,而这在芯片创业公司中是相当罕见的优势。


五、技术押注还是市场时机?两种解读

对于XCENA这笔融资,存在两种截然不同的解读方式。

乐观解读:内存中心计算是AI推理成本曲线下行的必要路径,市场时机极好,团队背景极强。当三家内存公司集体越过万亿美元市值门槛,市场已经用真实的资金投票给了”内存是AI下一个关键瓶颈”这个命题。XCENA的5.7亿美元估值相对于潜在市场规模来说仍然保守——如果MX1能在量产后被头部超大规模数据中心采购,它的市场空间将是数百亿美元量级,而以三星老兵为核心的团队,是同类技术中最有可能跨越”从原型到量产”这道鸿沟的一支。

此外,AI推理成本危机的窗口期,恰好与XCENA量产时间线(2026年底量产,2027年产生收入)高度重叠。这不是巧合,而是XCENA在正确的时间窗口做了正确的押注。

审慎解读:内存计算是一个工程挑战极高的赛道。MX1目前还是原型产品,量产良品率、与现有AI推理工作负载的实际兼容性、以及在真实超大规模场景下的性能提升,都有待在真实生产环境中验证。芯片创业公司从原型到量产再到真实部署的路途通常比预期漫长,Business Insider曾统计,芯片创业公司的平均量产周期比预计晚12-18个月。

更大的战略风险在于:AI推理市场的竞争格局在2027-2028年可能与今天大相径庭。NVIDIA的下一代GPU架构(预计在Hopper系列之后)可能会在芯片内部集成部分内存计算功能,进一步压缩外部内存计算模块的市场空间。XCENA需要在NVIDIA的下一代产品发布之前,建立足够深的客户关系和数据飞轮,才能在GPU架构演进的压力下保持竞争优势。


六、从内存到未来:这场押注的更深层含义

站在更宏观的视角看XCENA的故事,它代表着一种特别重要的创新模式:不在热门赛道的中心竞争,而是在被忽视的基础设施层寻找根本性的架构改进机会

当AI风投的3/4资金流向5家头部公司,绝大多数关注点集中在”哪家大模型更强”、”哪家AI应用市场更大”时,XCENA选择回到最基础的硬件架构问题:如果数据必须从内存出来到处理器再回去,这个往返的成本是否有根本的优化空间?

这个问题没有性感的叙事,没有”AGI”或”大模型”的标签,没有TechCrunch首页的自然流量——但它解决的是一个每次AI推理都在发生的真实工程瓶颈。它的解决方案如果成立,将影响全球所有AI推理基础设施的经济性,其影响范围远超任何单一大语言模型应用的边界。

这也是为什么Samsung、SK Hynix、Micron的万亿美元市值故事,和XCENA的1.35亿美元融资,本质上讲的是同一件事:AI时代的竞争,正在从”谁的模型更聪明”延伸到”谁能最高效地把这个聪明变成实际推理”。处理器是战场的中心,但内存是这个战场的制高点。

XCENA的三星和SK Hynix老兵们,在内存里放下了一个真实的技术赌注。2027年,我们将看到这场押注的真实结果——也将从中看到,AI基础设施战争的下一个关键战线在哪里。

七、从这个技术故事引申的三个投资逻辑

XCENA的案例提供了一个理解AI基础设施投资的有用框架,值得在这里展开讨论。这不只是关于XCENA一家公司的技术判断,而是关于在AI繁荣期如何识别真正有技术护城河的硬科技投资机会。

逻辑一:寻找”必要条件瓶颈”,而不是”充分条件竞争”

在AI应用层,竞争是充分条件的竞争:每家公司都在宣称自己的AI能”更好地”完成某项任务,但用户往往很难在使用之前判断哪个”更好”,而且”更好”的定义随时间和需求而变化。这造成了极高的竞争密度和有限的护城河。在这种竞争中,今天的领先者可能在六个月后被新的模型更新彻底颠覆,因为应用层的壁垒本质上是”比当前最好的模型做得好一点点”——而这个标准随时在被新模型抬高。

相比之下,在AI基础设施层,存在一类”必要条件瓶颈”:不管AI应用层怎么演化,这个瓶颈都必须被解决,否则整个系统就无法经济地运行。内存墙就是这样的必要条件瓶颈。无论未来的大模型是用Transformer还是其他架构,无论AI应用是做文字生成还是视频生成还是蛋白质折叠,只要它需要大量访问内存中的中间状态,内存带宽和延迟的瓶颈就会在那里。

寻找并押注”必要条件瓶颈”,往往比押注”充分条件竞争”有更强的长期护城河——因为这类机会不依赖于你比竞争对手做得好10%,而是依赖于你在一个所有人都绕不过去的技术节点上建立了深度的专业护城河。

逻辑二:韩国和台湾的硬件人才密度,是一个被严重低估的资产

XCENA的三位联合创始人来自三星和SK Hynix,这背后是一个数十年积累的硬件人才生态:韩国每年培养大量的半导体工程师,这些工程师在三星、SK Hynix、LG等大型芯片厂商经历了严格的实战训练,积累了深度的工艺和系统整合知识。

类似的情况也存在于台湾:台积电、联发科、联华电子、日月光等公司培育了一代又一代的芯片设计和制造专家。这些人才,往往在大公司里做着重要但不起眼的工作,而他们积累的知识——如何在硅晶圆上以高良品率实现特定电路设计,如何优化芯片封装的热散射,如何在极低功耗下实现高速信号传输——是互联网行业的软件工程师文化无法快速复制的。

XCENA的$570M估值,有相当一部分是在为这种不可复制的人才密度和多年工程知识积累定价。这是一个在纯硅谷视角下容易被低估、但在全球AI硬件竞争视角下非常清晰的战略价值。那些在芯片一线工作过的工程师,深刻理解量产规模下的工程约束,这不是一个可以通过招聘应届硕士和阅读白皮书快速填补的能力缺口。这种工程人才密度,加上正确的技术赛道,是XCENA最终护城河的核心来源之一。

逻辑三:量产良品率是芯片创业的真正护城河

芯片行业有一句话:每个人都能做出一块好芯片的原型,但能以高良品率大规模量产的才是真正的商业。XCENA最终的护城河,将不只是MX1的架构设计,而是他们能否与Samsung的代工线建立紧密的工艺合作,实现商业规模下的量产良品率。

这正是为什么他们的三星背景如此重要——不只是因为他们理解DRAM物理,更是因为他们理解Samsung代工线的工艺特性、良品率管理方法、以及在量产过程中持续优化设计的工程文化。一个没有这种背景的团队,即使设计出了技术上正确的内存计算芯片,在量产阶段也可能面临难以逾越的工程障碍。

这也是为什么$135M的Series B融资是合理的:内存计算芯片的开发和量产准备,需要大量的流片费用(每次晶圆制造流片费用可能高达数千万美元)、测试设备投入、以及工程团队的扩充。这不是一个可以用软件创业的低成本模式运行的赛道,它需要真实的资本支撑到量产验证的那一刻。

值得一提的是,XCENA的融资背书同样来自有深度硬件理解的投资方。Series B的领投方和参与者,在半导体和数据中心基础设施领域均有深度布局,这不是泛泛的AI主题基金追风,而是对特定技术路径有长期判断的专业投资人在进行深度押注。这种资本结构本身,也是XCENA技术可信度的一个市场信号。


八、2027年等待的真相

回到文章开头的那场接力赛:每次问ChatGPT,数据要在处理器和内存之间跑若干个来回。

XCENA想让这场接力赛在内存内部就完成大部分工作,只把真正需要高强度计算的任务送给GPU。这个想法是技术上正确的,团队是有能力实现的,时机是精确的。

但在2027年量产并看到真实用户数据之前,这个故事的最终章还没有写完。芯片行业有无数”正确技术在错误时间”的悲剧——Lisp Machine、RISC工作站、或者更近的各类AI加速芯片创业。技术正确性是必要条件,但不是充分条件。真正决定XCENA命运的,是2026年底的量产良品率、2027年的第一批超大规模客户采购决策、以及在NVIDIA下一代GPU发布之前能否建立足够的数据飞轮和客户关系。

我们已经知道这场接力赛的规则有多低效。XCENA想给这场接力赛安装一条内部高速公路。

2027年,我们将会知道这条高速公路是否真的建起来了。在此之前,这个故事给我们留下了一个关于技术判断和时机选择的珍贵案例——一个来自三星和SK Hynix的工程师团队,在AI繁荣泡沫最高点的时刻,选择回到最基础的物理问题:内存和处理器之间的数据搬运,能不能用更根本的方式改变?

这个问题的答案,将在未来两年里逐渐清晰。而无论结果如何,这个问题本身——被认真提出、被认真投资、被认真实施——已经是AI基础设施战争进入新阶段的最好注脚。当所有人的眼睛都盯着最大那几颗星,总有人在研究星空本身是由什么构成的。这是科学进步的规律,也是投资逻辑的真相。


参考资料

  1. Samsung、SK Hynix、Micron各自越过万亿美元市值(2026-05)
  2. Goldman Sachs AI推理成本预测2030年24倍增长: 多来源
  3. AI Token消费泡沫警告 (2026-05-30): https://fortune.com/2026/05/30/ai-chip-token-bubble-economy-nvidia-microsoft-hyperscalers-2/
  4. CXL(Compute Express Link)3.2 标准规范: https://www.computeexpresslink.org/
  5. Astera Labs CXL内存互联解决方案: https://www.asteralabs.com/
  6. AI推理成本危机报道——企业单月Claude支出$500M (2026-05-29): https://finance.yahoo.com/sectors/technology/articles/company-blew-500m-claude-ai-173519468.html