TSMC利润飙升58%但股价下跌:AI基础设施价值正在向推理层迁移

2026年4月17日,台积电(TSMC)发布了一份令分析师叹为观止的Q1财报:营收NT$1.134万亿(同比+35%),净利润NT$572.5亿(同比+58%),双双创下历史新高。毛利率达66.2%,先进制程(5nm/3nm)占营收超60%,全年营收增长预期被上调至30%以上(美元计)。

从任何传统标准来看,这都是一份完美的财报。它证明了AI算力需求的强劲,证明了TSMC作为全球最先进芯片制造商的不可替代性,也证明了为什么台积电被称为「AI时代皇冠上的宝石」。

然而,财报发布后,TSMC股价下跌了。

与此同时,同一天的科技新闻里有另一个故事:CNBC报道,2026年全球AI芯片创业公司已融资83亿美元。其中,荷兰创业公司Euclyd(由前ASML高管创立,获前ASML CEO Ben Spierings背书)正在寻求1亿欧元融资,声称其芯片架构的推理效率是Nvidia最新Vera Rubin的100倍。英国的Fractile正在与Accel谈判2亿美元融资(对应10亿美元估值),专注AI推理优化。美国的Cerebras获10亿美元融资,MatX、Ayar Labs、Etched各获5亿美元。

两个同一天的市场信号,方向完全相反:

最成功的AI芯片代工厂创历史纪录,投资者却卖出;一群刚刚起步的推理芯片创业公司,投资者疯狂押注。

这不是市场情绪的随机波动。它指向了AI产业正在经历的一个深层结构性转变,理解这个转变,比知道TSMC的P/E比率或Euclyd的技术路线更有价值。

训练与推理:AI产业链中两个被混淆的工作负载

要理解这场价值迁移,首先需要搞清楚「训练」和「推理」为什么是根本不同的事。

训练,是「制造AI」的过程。把一个随机初始化的神经网络,用数千亿词的语料数据进行反复迭代——每次迭代计算预测误差,然后用梯度下降调整数十亿个参数,直到模型能够准确预测。训练GPT-4级别的模型,需要在数千块H100 GPU上跑数周,能耗相当于一座中等城市的一天用电量,成本高达数亿美元。

训练的计算特征:超高并行度(所有GPU同时工作)、超高内存带宽(每个训练步骤都要读写完整的模型参数)、对延迟不敏感(训练可以慢慢跑)、对吞吐量极其敏感(每小时能处理多少训练数据决定了整体训练时间)。

TSMC为Nvidia生产的H100、B200、N220,正是为这类计算特征优化设计的。

推理,是「使用AI」的过程。当用户向ChatGPT发送消息,AI读取输入、在神经网络中执行前向传播、生成回答——这就是一次推理。推理同样需要算力,但计算特征与训练几乎相反:对延迟极其敏感(用户不愿意等超过2-3秒)、需要同时处理数百万并发请求、许多模型参数在推理时是固定不变的(可以提前编译优化)、内存访问模式比训练更规律。

换句话说:训练需要「最快速的大型计算机」,推理需要「最高效的小型计算机」。用世界上最贵的高性能跑车来送外卖,技术上能做到,但从成本效益来看是极其低效的。

这个差异在AI产业早期(2020-2024年)不是主要矛盾,因为推理需求还不够大。但现在,当ChatGPT每天处理数十亿次查询,当企业级AI助手在数百万员工的工作流中运行,推理的总成本已经成为很多AI公司的最大运营支出之一。在这个规模下,把推理效率提升10倍,意味着减少90%的推理成本——这是数亿美元级别的年度节省。

为什么TSMC的好财报遭遇「预期透支」

理解TSMC股价下跌,需要区分两个层面:短期机制和长期信号。

短期机制是「预期透支」(priced in)。当一个高质量的市场预期已经充分反映在股价里,好消息发布那天,反而会出现「卖出消息」(sell the news)的现象。TSMC股价在财报发布前已经上涨了相当幅度,机构投资者选择在好消息落地时获利了结,这是正常的市场行为,与对公司基本面的判断无关。

长期信号则更值得关注。分析师群体对TSMC未来增长放缓的担忧,有几个具体来源:

首先,超大规模云厂商(hyperscaler)的自研芯片进展正在提速。谷歌的第六代TPU(Trillium)在训练特定模型时已经与H100持平;亚马逊的Trainium 2在AWS内部报告接近售罄;Meta的MTIA v2和微软的Maia都在快速迭代。这些自研芯片不会完全替代Nvidia,但它们会减少超大规模厂商对Nvidia(以及间接对TSMC)的外部采购依赖。

其次,「扩展法则放缓」(scaling law slowdown)是一个越来越多被讨论的现象。简单地说:从GPT-3到GPT-4,10倍的算力投入带来了肉眼可见的能力飞跃;从GPT-4到GPT-5,同样10倍的算力投入,能力提升开始变得更加边际化。在「堆算力」边际效益下降的情况下,AI实验室继续无限扩大训练算力的理由在减弱。

第三,市场注意力和投资热点正在明显向推理端移动。这不只是Euclyd和Fractile的融资金额在说话,更体现在大量算法层面的研究发表——模型蒸馏(把大模型的知识压缩到小模型里)、量化(用更低精度的数值表示参数)、推理时计算(在推理阶段做更复杂的搜索和验证)等方向在2025-2026年出现了密集的突破。这些技术方向的共同主题是:用更少的算力,实现接近或超过「更大模型」的效果。

当推理效率提升的速度比训练算力扩展的速度更快时,未来几年的新增AI价值,会更多地被推理层的创新者捕获,而不是训练层的算力提供者。

Euclyd「100倍」背后的技术逻辑

Euclyd声称的「推理效率是Nvidia Vera Rubin 100倍」,第一反应会是:这是不是营销夸大?

在技术上,「推理专用芯片比通用训练/推理芯片高效得多」,这个命题是成立的,问题在于具体的比较条件和量级。

理解为什么会有这个差异,需要看Nvidia的设计哲学。H100/B200是「超级通用处理器」:它们的设计目标是在几乎任何深度学习工作负载上都能提供世界一流的性能,包括训练、推理、科学计算、图形渲染等。这种通用性要求芯片保留大量通用计算单元和极高内存带宽,这些资源在纯推理场景下很多是「空置」或「低效率利用」的。

一个专门为推理优化的芯片可以做哪些「激进」的设计取舍?

计算稀疏性利用:大型语言模型在推理时,每个token的生成只激活模型中大约5-15%的神经元(依赖激活函数的稀疏特性)。通用芯片必须保留处理100%神经元激活的能力,但推理专用芯片可以在硬件层面实现稀疏感知,跳过不需要计算的神经元,直接节省大量计算和能耗。

激进量化:Nvidia的H100用16位浮点(FP16)作为默认推理精度,保持了较高的数值精度。但研究表明,很多推理场景可以用4位整数(INT4)甚至更低精度完成,精度损失在用户可感知范围内几乎为零。专用推理芯片可以在硬件层面原生支持超低精度运算,内存消耗可以降低到FP16的四分之一,同等面积的芯片可以处理4倍更多的模型参数。

片上内存优化:大型语言模型推理的主要瓶颈不是计算速度,而是从显存(HBM)读取模型参数的内存带宽。专用推理芯片可以为推理的内存访问模式做定制化优化(比如缓存KV attention的特殊硬件单元),大幅减少每次推理需要的内存读写次数。

把这三类优化叠加:假设稀疏利用节省60%计算,INT4量化减少75%内存带宽需求,片上内存优化减少50%延迟——三者叠加的效率提升很可能达到5-20倍。在特定模型和特定工作负载下,「100倍」虽然是极端上限,但「10-30倍」的真实差距是完全可能的。

Euclyd、Fractile的投资者不是被「100倍」这个数字说服的——他们是被「在8亿美元的Nvidia芯片市场里,如果推理专用芯片占领20-30%的份额,这个市场值多少钱」这个计算说服的。

推理经济学:为什么企业客户开始用脚投票

从企业AI部署的实际经验来看,推理成本的重要性正在超过模型性能。

一个典型的企业AI部署场景:一家中型金融机构部署了基于Claude的内部问答系统,供2000名员工日常使用。每名员工平均每天发出50次查询,每次推理消耗约2000 tokens,所有查询通过Amazon Bedrock调用Claude Sonnet 4.5,按输出token计费$3/百万tokens。

粗略计算:2000人 × 50次 × 2000 tokens = 2亿tokens/天,月推理成本约18,000美元,年成本约216,000美元。

这个数字对一家中型金融机构来说可以承受,但如果要把系统扩展到10,000名员工,年成本变成百万美元级别。如果推理成本下降10倍,百万美元的预算突然可以支持100,000名用户——这是从「试点项目」到「全公司部署」的临界点。

这就是为什么「把推理成本降低10倍」对企业AI市场的意义远大于「让基准测试分数提高5%」。前者直接解锁了大量处于「成本可行边界」上的部署决策,后者只是让已经在用的用户获得略好的体验。

Nvidia的应对:别把它当局外人

讨论推理芯片竞争时,容易犯一个错误:把Nvidia当成被动受害者——事实并非如此。

Nvidia已经在积极应对推理市场的变化。NIM(Nvidia Inference Microservices)是Nvidia推出的推理优化服务层,提供预优化的容器化模型,在特定场景声称比原生部署的推理效率提升3-5倍。Nvidia的H200在推理场景的内存带宽比H100提高了约50%,直接针对大模型推理的内存瓶颈设计。在软件层面,Nvidia的TensorRT-LLM工具包提供了自动量化、推理图优化等功能,让企业无需更换硬件就能提升推理效率。

这意味着:推理效率竞争不只是「用Euclyd芯片替代Nvidia」,还有「继续用Nvidia硬件但使用更优化推理软件栈」这条路径。Euclyd等创业公司需要证明的,是「比Nvidia完整推理方案(硬件+NIM+TensorRT-LLM)更有竞争力」,而不只是裸芯片对比。当把软件优化层计入比较时,「100倍」的优势声称就需要更具体的测试条件说明。

这不否定推理专用芯片市场的价值,但它提示我们:竞争将在「完整推理方案」层面展开,而不只是参数对比。Nvidia在CUDA生态和软件工具链上的积累,是推理芯片创业公司需要真正超越的护城河,而不仅仅是晶体管架构。

AI产业价值迁移的三阶段地图

把上述所有信号综合起来,AI产业的价值迁移可以描述为三个阶段:

第一阶段(2020-2023):训练优先时代。价值核心在「谁能训练更大的模型」。算法突破(Transformer架构、RLHF、思维链)和训练算力(H100、A100)是主要竞争维度。Nvidia成为时代赢家,TSMC作为唯一代工厂获得巨额订单。这个阶段的特征是:AI公司比拼「我的模型比你大」,市场估值跟着训练算力消耗走。

第二阶段(2024-2027):推理效率时代。随着AI应用大规模商业化,「谁能让AI用得起用得上」取代「谁能训练更大的模型」成为核心竞争维度。模型蒸馏、量化、推理专用芯片、推理时计算等方向成为热点。这个阶段TSMC的相对估值可能面临压力,推理层创新者(包括芯片创业公司、算法优化公司、推理云服务商)将迎来最大的商业机会。

第三阶段(2028+):无处不在时代。推理效率大幅提升后,AI开始从云端向边缘渗透,每一台智能设备都会运行本地AI模型。这要求芯片在极低功耗下实现高性能推理,而领先的边缘AI芯片制造仍然依赖最先进的制程节点——这又回到了TSMC的核心竞争优势区间。

这个三阶段模型意味着:TSMC的当前阶段性股价压力是真实的,它反映的是投资者对「第一阶段红利正在触顶,第二阶段价值迁移正在发生」的正确判断。但把这理解为「TSMC没落」是错误的——第三阶段的到来(可能比大多数人想象的更快)将再度证明先进制程的不可替代性。

从这个角度看,TSMC的财报创历史纪录而股价下跌,是一个教科书式的「市场正确解读技术转型信号」案例——而不是市场错误。


参考资料

  1. Yahoo Finance, “AI demand drives chipmaker TSMC”,https://finance.yahoo.com/sectors/technology/articles/ai-demand-drives-chipmaker-tsmcs-063638491.html,2026年4月17日
  2. CNBC, “Nvidia AI chip rivals funding: Euclyd, Fractile and others”,https://www.cnbc.com/2026/04/17/nvidia-ai-chip-rivals-funding-euclyd-fractile.html,2026年4月17日
  3. Reuters/CNBC, “Strong ASML, TSMC forecasts signal AI spending boom”,https://www.cnbc.com/2026/04/16/taiwan-semi-tsm-asml-stock-earnings-ai-chips.html,2026年4月16日