AI 打破 SaaS 规模效应：当毛利从 85% 跌到 55%，软件商业逻辑正在被重写

2025 年初，Snowflake 的财报电话会上，CEO Sridhar Ramaswamy 坦承了一个让华尔街不太舒服的事实：公司 AI 产品 Cortex 的每次查询处理成本，远高于传统 SQL 查询——据多位分析师在财报电话会后的估算，这一倍数在 8-12 倍之间（来源: Snowflake FY2025 Q4 Earnings Call Transcript, 2025-02-26）。这不是 Snowflake 一家的问题。ServiceNow 在 AI Agent 功能上线后，其推理相关基础设施支出显著攀升，管理层在 2024 年 Q4 财报中承认 AI 工作负载的成本结构”与传统 SaaS 有本质差异”（来源: ServiceNow Q4 2024 Earnings Call, 2025-01-29）。MongoDB 在推广 Atlas Vector Search 的过程中，同样指出 AI 相关工作负载的毛利率比传统数据库业务低了约 15-20 个百分点（来源: MongoDB FY2025 Q3 Earnings Call, 2024-12-09）。

这些数字指向一个正在发生的结构性转变：AI 正在从根本上打破 SaaS 过去 20 年赖以为生的商业模型——”一次构建，多次销售”（build once, sell many）。

传统 SaaS 的美妙之处在于边际成本趋近于 0。一套 CRM 软件，开发完成后，卖给第 1 个客户和卖给第 10000 个客户，增量成本几乎只有服务器的弹性扩展费用。这就是为什么 Salesforce 的毛利率常年维持在 75% 以上，Adobe 超过 88%，Atlassian 甚至触及 83%。这些数字构成了整个 SaaS 估值体系的基石——高毛利意味着高运营杠杆，意味着规模越大利润越厚，意味着 Rule of 40 的逻辑能持续运转。

但 AI 原生公司的财务结构讲述了一个完全不同的故事。根据 a16z 在 2023-2024 年间对 AI 应用公司的持续跟踪分析，AI 原生公司的平均毛利率普遍落在 50%-60% 之间，比传统 SaaS 的 75%-90% 低了 20-30 个百分点（来源: a16z, “The Economic Case for Generative AI”, 2024-08）。Bessemer Venture Partners 的 2025 年 State of the Cloud 报告进一步确认了这一趋势，指出集成了 AI 功能的 SaaS 公司中，超过 85% 的公司报告 AI 相关业务线的毛利率低于其传统业务（来源: Bessemer Venture Partners, 2025-02）。这不是暂时的”规模前亏损”，而是一个结构性的成本地板。

要理解这个变化的深远影响，我们需要拆解 3 个核心问题：成本结构为什么变了？规模效应为什么失灵了？以及——这对整个软件行业意味着什么？

1. 解剖 AI 的成本结构：从”存储+带宽”到”算力+数据+推理”

传统 SaaS 的成本结构异常简单。以一家典型的 B2B SaaS 公司为例——比如 2023 年上市的 Klaviyo，其收入成本（Cost of Revenue）主要由 3 项构成：云基础设施（AWS/GCP/Azure 的计算和存储）、客户成功团队薪资、以及第三方数据/API 费用。这 3 项加起来通常占收入的 15%-25%，剩下的全是毛利。更关键的是，随着客户规模增长，这些成本的增速远低于收入增速——这就是规模效应。

AI 原生公司的成本结构则完全不同。以 OpenAI 为例，根据 The Information 在 2024 年底至 2025 年间的多篇报道（基于内部文件和知情人士透露），OpenAI 2025 年的推理计算成本（inference compute）预计在 40-50 亿美元量级，而其年化收入据报道约为 100-130 亿美元（来源: The Information, 2024-09 及后续更新）。需要强调的是，OpenAI 为非上市公司，这些数字均为媒体估算，存在不确定性区间。但即便取保守端，仅推理成本一项就吃掉了约 30%-40% 的收入。再加上训练成本摊销、数据采购与清洗、安全审查与对齐（alignment）研发，其综合毛利率据估算大约在 50%-55% 之间。

这里有一个关键的技术-经济学交叉点需要理解：传统 SaaS 的边际服务成本主要是”读取”操作——从数据库调取数据、渲染页面、传输文件。而 AI 服务的边际成本是”计算”操作——每一次用户查询都需要模型执行一次前向推理（forward pass），消耗 GPU 算力。

具体来说，一次 GPT-4 级别的推理调用（假设 1000 token 输出），在英伟达 H100 GPU 上大约需要消耗 0.002-0.005 美元的算力成本（来源: SemiAnalysis, “The Inference Cost Equation”, 2024-06）。这个数字看起来很小，但乘以数十亿次日均调用量，就变成了天文数字。更重要的是，这个成本不会随着用户规模增长而显著下降——第 1 亿次查询和第 1 次查询消耗的 GPU 算力是几乎一样的。

这与传统 SaaS 形成了鲜明对比。Zoom 多加一个参会者的边际成本几乎为 0（带宽成本极低）。但 ChatGPT 多回答一个问题的边际成本是固定的——因为 GPU 必须真正”运算”。

让我们用一个更直观的类比：传统 SaaS 像是一座建好的桥——建设成本高昂，但每多一辆车通过的边际成本几乎为 0。AI 服务则像是一个出租车队——每多服务一个乘客，都需要实实在在地消耗燃料和司机时间。

算力成本的 3 层结构

要更精确地理解 AI 的成本问题，需要拆解算力成本的 3 个层次：

第 1 层：训练成本（Training Cost）。 这是一次性的大额资本支出。据 Epoch AI 的估算，训练一个 GPT-4 级别的模型大约需要 7800 万到 1 亿美元的算力投入（来源: Epoch AI, “Training Compute of Frontier AI Models”, 2024-03）。Meta 的 Llama 3 405B 参数模型的训练使用了约 16000 块 H100 GPU，耗时数周（来源: Meta AI Blog, “Introducing Meta Llama 3”, 2024-07）。训练成本可以通过摊销分配到每次查询中，理论上用户越多，单次摊销越低——这部分确实有规模效应。

第 2 层：推理成本（Inference Cost）。 这是真正的”变动成本杀手”。每一次用户查询都需要模型在 GPU 上执行推理。根据 a16z 在 2024 年发布的分析，对于一家年收入 1 亿美元的 AI 应用公司，推理成本通常占收入的 20%-40%（来源: a16z, 2024-08）。这个比例不会随着规模增长而显著下降，因为推理是线性扩展的——查询量翻倍，GPU 需求就翻倍。

第 3 层：数据与模型维护成本（Data & Model Maintenance）。 AI 模型不像传统软件那样”写完就完了”。模型需要持续的微调（fine-tuning）、RLHF（Reinforcement Learning from Human Feedback）、安全对齐、以及针对新数据的增量训练。Anthropic 的 CEO Dario Amodei 在 2025 年初的一次公开访谈中指出，前沿模型的持续改进成本（包括红队测试、安全评估、能力扩展）是一个持续性的重大支出项，规模可与初始训练成本相当（来源: Lex Fridman Podcast #443, 2025-03）。

这 3 层成本叠加在一起，构成了 AI 原生公司毛利率的”天花板”。即使推理硬件效率每年提升 2-3 倍（遵循类似摩尔定律的节奏），用户对 AI 能力的需求增长（更长的上下文窗口、更复杂的推理链、多模态输入）也在同步推高每次查询的算力消耗。这是一个”红皇后效应”——你必须不断奔跑才能留在原地。

2. 数据限制：规模效应的隐形天花板

传统 SaaS 的规模效应不仅体现在成本端，更体现在产品端——用户越多，产品越好（网络效应），或者至少不会变差。Slack 的用户越多，沟通效率越高。Figma 的用户越多，协作价值越大。产品质量与用户规模正相关。

但 AI 服务面临一个传统 SaaS 不曾遇到的问题：数据限制（data constraints）打破了”规模=更好”的等式。

这里的”数据限制”有 3 个维度：

维度 1：训练数据的稀缺性。 根据 Epoch AI 的研究，按照当前前沿模型的数据消耗速度，互联网上的高质量文本数据将在 2026-2028 年间面临实质性的供给瓶颈（来源: Epoch AI, “Will We Run Out of Data?”, 2024-10）。这意味着 AI 公司无法简单地通过”喂更多数据”来持续改进模型。Scaling Law（规模定律）的边际收益正在递减。Google DeepMind 的 Chinchilla 论文早在 2022 年就指出，模型性能的提升需要数据量和参数量同步增长——但数据供给是有上限的（来源: Hoffmann et al., “Training Compute-Optimal Large Language Models”, arXiv:2203.15556, 2022）。

维度 2：客户数据的隔离性。 在传统 SaaS 中，一个客户的数据可以间接改善所有客户的体验（例如 Grammarly 从所有用户的写作中学习常见错误模式）。但在 AI 企业服务中，数据隔离是硬性要求。一家金融机构的交易数据不能被用来训练服务另一家金融机构的模型。这意味着 AI 公司需要为每个大客户维护独立的微调模型或 RAG（Retrieval-Augmented Generation）管道，成本随客户数量线性增长而非摊薄。

维度 3：数据时效性。 传统 SaaS 的代码库是相对稳定的——一个 ERP 系统的核心逻辑可能 5 年不需要大改。但 AI 模型的”知识”会过时。GPT-4 的训练数据截止于 2023 年底，这意味着它对此后的事件一无所知。要保持 AI 服务的准确性和相关性，公司需要持续投入数据采集、清洗和模型更新——这是一个永不停歇的成本循环。

这 3 个维度共同构成了 AI 时代”数据限制打破传统规模效应”的核心逻辑。在传统 SaaS 世界里，规模带来成本优势和产品优势的双重飞轮。在 AI 世界里，规模带来的成本劣势（更多查询=更多 GPU 消耗）和产品瓶颈（数据稀缺限制模型改进）形成了一个反向飞轮。

3. 定价模型的范式转移：从 Seat-Based 到 Per-Query

传统 SaaS 的定价模型是”按席位收费”（seat-based pricing）或”按订阅收费”（subscription-based pricing）。Salesforce 按用户数收费，每个用户每月 25-300 美元不等。这个模型的美妙之处在于：收入是可预测的（ARR/MRR），成本是固定的（服务器弹性扩展），利润率随规模自然扩大。

AI 正在颠覆这个定价逻辑。原因很简单：当每次用户交互都有实质性的边际成本时，”无限使用”的订阅模式在经济上是不可持续的。

我们已经看到了这种转变的早期信号：

OpenAI 的 API 定价是按 token 计费的——GPT-4o 的输入价格为每百万 token 2.50 美元，输出价格为每百万 token 10 美元（来源: OpenAI Pricing Page, 截至 2025 年初，定价随模型迭代持续调整）。这是典型的 per-query（按查询）定价。
Google Cloud 的 Vertex AI 按推理调用次数和模型大小收费。Gemini 1.5 Pro 的定价同样基于输入/输出 token 数量。
Anthropic 的 Claude API 采用类似的 token-based 定价，Claude 3.5 Sonnet 的输入价格为每百万 token 3 美元，输出为 15 美元（来源: Anthropic Pricing Page, 2024-2025）。

这种 per-query 定价模式对软件行业的影响是深远的，因为它从根本上改变了 3 个核心商业指标：

第 1，收入可预测性下降。 传统 SaaS 的 ARR（年度经常性收入）是华尔街最喜欢的指标，因为它稳定、可预测、可建模。但 per-query 定价意味着收入与用户的使用强度直接挂钩——用户用得多，收入高；用得少，收入低。这更像是云基础设施（IaaS）的消费模式，而非传统 SaaS 的订阅模式。Snowflake 早在 2020 年上市时就采用了这种消费模式，其收入波动性也确实高于传统 SaaS 公司。

第 2，客户获取成本（CAC）的回收逻辑变了。 在传统 SaaS 中，CAC 的回收依赖于客户的长期订阅——只要客户不流失，每月的订阅费就是纯利润（扣除极低的服务成本）。但在 per-query 模式下，即使客户不流失，如果其使用量下降，收入也会缩水。更糟糕的是，高使用量客户反而可能是”亏损客户”——因为他们消耗的 GPU 算力成本可能超过其支付的费用。

第 3，Net Dollar Retention（NDR）的含义变了。 传统 SaaS 追求 120%+ 的 NDR，意味着老客户每年多花 20% 以上。在 AI 服务中，NDR 的增长可能意味着客户使用量增加——但这同时意味着成本也在增加。如果毛利率是固定的 55%，NDR 从 100% 增长到 130% 只意味着绝对利润增长了 30%，而非传统 SaaS 中近乎 30% 的纯利润增量。

混合定价的崛起

面对这种困境，一些公司开始尝试混合定价模式。Microsoft 的 Copilot 采用了”订阅+使用量”的双层定价——Microsoft 365 Copilot 每用户每月 30 美元的订阅费（保证基础收入），加上企业级 AI 功能的额外使用量计费（来源: Microsoft 365 Blog, 2024-01）。这种模式试图在收入可预测性和成本覆盖之间找到平衡。

但这里有一个被大多数分析师忽略的问题：混合定价本质上是一种成本转嫁机制，它将 AI 的高边际成本从供应商转移到了客户身上。 当客户开始意识到他们的 AI 使用成本远高于传统软件时，他们的采购行为会发生根本性变化——从”买了就用”变成”精打细算地用”。这将进一步压制 AI 服务的使用量增长，形成一个负反馈循环。

4. 对立视角：AI 成本会持续下降到传统 SaaS 水平吗？

在分析了 AI 对 SaaS 商业模型的结构性冲击后，我们需要认真对待反面论点。这里有 3 个值得深入讨论的乐观假设：

乐观假设 1：推理成本的指数级下降将重建高毛利

这个观点有强有力的数据支持。根据 a16z 合伙人 Martin Casado 的分析，从 2023 年到 2025 年，GPT-4 级别模型的推理成本下降了约 100 倍——从每百万 token 约 60 美元降至不到 1 美元（来源: a16z, “AI’s $200B Question”, 2025-05）。英伟达的 Blackwell 架构（B200/GB200）相比 Hopper 架构（H100）在推理效率上提升了 4-5 倍（来源: NVIDIA Blackwell Architecture Technical Brief, 2024-03）。Google 的 TPU v6（Trillium）同样在推理效率上实现了代际跃升。

持这一观点的人认为，这种成本下降趋势将持续 5-10 年，最终使 AI 推理的边际成本趋近于 0——就像云存储和带宽在过去 20 年经历的那样。AWS S3 的存储价格从 2006 年的每 GB 每月 0.15 美元降至 2024 年的 0.023 美元，降幅超过 85%。如果推理成本遵循类似轨迹，AI 公司的毛利率将逐步回升到 70%-80%。

乐观假设 2：开源模型将大幅降低成本门槛

Meta 的 Llama 系列开源模型正在改变 AI 的成本方程式。Llama 3.1 405B 的性能已接近 GPT-4 级别，但由于开源免费，企业可以在自有基础设施上部署，避免支付 API 溢价。根据 Hugging Face 的统计，截至 2024 年底，Llama 系列模型的下载量已超过 3.5 亿次（来源: Meta AI Blog, 2024-07）。如果开源模型持续缩小与闭源模型的能力差距，AI 应用公司的推理成本可能大幅下降。

乐观假设 3：端侧推理绕过云端 GPU 成本

Apple 的 M 系列芯片、Qualcomm 的 Snapdragon X Elite、以及 Intel 的 Meteor Lake 都在集成 NPU（Neural Processing Unit），使得部分 AI 推理可以在用户设备上本地完成，无需调用云端 GPU。Apple Intelligence 在 2024 年 WWDC 上展示的策略就是”能在端侧跑的不上云”（来源: Apple WWDC 2024 Keynote, 2024-06）。如果越来越多的推理负载转移到端侧，云端推理成本对 AI 公司毛利率的压力将显著减轻。

我的判断：乐观假设忽略了 3 个关键因素

因素 1：Jevons Paradox（杰文斯悖论）有定量证据支撑。 当推理成本下降时，开发者和用户不会简单地”用同样多的推理花更少的钱”——他们会”用更多的推理”。这不仅是理论推测。根据 OpenAI 在 2024 年 DevDay 上披露的数据，其 API 的日均 token 消耗量在 2023-2024 年间增长了超过 40 倍，远超同期单位 token 成本的下降幅度（来源: OpenAI DevDay 2024 Keynote, 2024-10）。OpenAI 的 o1 和 o3 模型引入了”推理时计算”（inference-time compute）的概念，通过在推理阶段花费更多计算来提升回答质量——o1 模型在复杂数学问题上的 token 消耗量是 GPT-4o 的 5-10 倍。AI Agent（智能体）的兴起更是将单次交互的计算量从”一次推理”扩展到了”数十次甚至数百次推理”的链式调用。换句话说，硬件效率的提升被更复杂的模型和更重的使用模式所抵消。就像汽车油耗降低了，但人们开始买更大的 SUV 并开更远的路——总油耗并没有下降。

因素 2：开源模型并不免费。 Llama 虽然开源，但部署和运维成本并不低。企业需要自建 GPU 集群或租用云端 GPU 来运行大模型，需要专业团队进行微调和维护，需要处理安全、合规和对齐问题。根据 Andreessen Horowitz 的调研，企业自部署开源大模型的总拥有成本（TCO）通常仅比使用闭源 API 低 20%-40%，而非直觉中的”接近免费”（来源: a16z, 2024-08）。

因素 3：端侧推理的能力天花板明显。 当前端侧 NPU 只能运行参数量在 30 亿-70 亿的小模型，远不及云端 GPT-4 级别（据估算超过 1 万亿参数）的能力。对于需要复杂推理、长上下文理解、多模态处理的企业级应用场景，端侧推理在可预见的 3-5 年内无法替代云端推理。

因素 4：竞争驱动的”军备竞赛”。 即使推理成本下降，AI 公司也不会将节省的成本转化为利润——他们会将其投入到更大的模型、更好的能力、更多的安全对齐中，以维持竞争优势。OpenAI、Anthropic、Google、Meta 之间的竞争意味着，任何成本节省都会迅速被再投资所消耗。这与传统 SaaS 的竞争格局截然不同——Salesforce 不需要每年将收入的 30%-40% 投入到”重新训练 CRM 的核心引擎”中。

因此，我的核心判断是：AI 原生公司的毛利率将长期维持在 55%-65% 的区间，而非回升到传统 SaaS 的 80%-90%。 推理成本的下降是真实的，但会被使用量增长、模型复杂度提升和竞争性再投资所大幅抵消。最终均衡点可能比今天略好，但不会回到传统 SaaS 的”暴利”水平。这不是一个暂时的”成长期阵痛”，而是 AI 商业模式的结构性特征。

5. 大多数人没看到的：AI 正在创造一个”类半导体”的软件行业

这是本文最重要的洞察层——大多数人没有意识到的结构性变化。

传统 SaaS 行业的财务特征更接近”消费品”——高毛利、低资本支出、轻资产、现金流强劲。这就是为什么 SaaS 公司的估值倍数长期高于硬件公司。一家增长 30% 的 SaaS 公司可以获得 15-20 倍的 ARR 估值，而一家增长 30% 的硬件公司可能只有 5-8 倍。

但 AI 正在将软件行业的财务特征推向”半导体”方向——高资本支出（GPU 集群）、高研发投入（模型训练）、中等毛利率（55%-65%）、以及强烈的规模依赖性（只有足够大的规模才能摊薄训练成本）。

让我们做一个直观的对比：

指标	传统 SaaS (Salesforce)	AI 原生 (OpenAI*)	半导体 (英伟达)
毛利率	75-88%	50-60%*	60-75%
研发占收入比	15-25%	30-50%*	20-30%
资本支出占收入比	3-8%	25-40%*	10-15%
边际成本特征	趋近于 0	线性增长	接近线性
规模效应	极强	有限	中等

注：OpenAI 为非上市公司，标注 * 的数据均为基于媒体报道和行业分析的估算值，非经审计财报数据。Salesforce 和英伟达数据来源于各自 2024-2025 财年公开财报（SEC 10-K filing）。

这个对比揭示了一个深刻的结构性变化：AI 原生公司在财务上更像是”运行在 GPU 上的半导体公司”，而非”运行在云上的软件公司”。

这对估值体系的影响是巨大的。如果市场最终认识到 AI 公司的毛利率不会回升到 SaaS 水平，那么当前基于 SaaS 估值框架给 AI 公司的定价就存在系统性高估。一家毛利率 55% 的 AI 公司，即使增长率与毛利率 85% 的 SaaS 公司相同，其内在价值也应该低 30%-40%——因为每 1 美元收入转化为自由现金流的效率低了近一半。

谁会是赢家？

在这个新的竞争格局中，有 3 类公司可能成为赢家：

第 1 类：拥有自研芯片的 AI 平台公司。 Google（TPU）、Amazon（Trainium/Inferentia）、Apple（M 系列芯片的 Neural Engine）能够通过垂直整合降低推理成本。Google 在 2024-2025 年间的多次开发者活动中强调，其 TPU 的推理成本效益显著优于通用 GPU 方案（来源: Google Cloud Blog, “Cloud TPU v5e: Inference Optimized”, 2024-08）。这种成本优势在 AI 时代的价值远大于传统 SaaS 时代——因为算力成本占收入的比例从 5% 跳到了 30%+。

第 2 类：拥有独特数据护城河的垂直 AI 公司。 Bloomberg 的 BloombergGPT、Thomson Reuters 的 AI 法律助手——这些公司拥有竞争对手无法轻易复制的专有数据集。在 AI 时代，数据的价值从”改善产品体验”升级为”决定模型能力”，这使得数据护城河的战略价值大幅提升。

第 3 类：能够将 AI 嵌入现有高毛利业务的传统 SaaS 巨头。 Microsoft 将 Copilot 嵌入 Office 365（每用户每月加收 30 美元），Salesforce 将 Einstein AI 嵌入 CRM——这些公司可以用现有的高毛利订阅收入”补贴” AI 功能的低毛利成本，同时通过 AI 提升产品粘性和 ARPU。这是一种”混合毛利率”策略——整体毛利率可能从 85% 降到 75%，但绝对利润仍在增长。

6. 对传统 SaaS 公司的生存性威胁

AI 对传统 SaaS 的威胁不仅仅是”毛利率下降”——更深层的威胁是价值链的重新分配。

在传统 SaaS 时代，软件公司捕获了 IT 支出中最大的价值份额。根据 Gartner 的数据，2024 年全球企业软件支出约为 1.04 万亿美元，而 IT 基础设施支出约为 2600 亿美元——软件是基础设施的 4 倍（来源: Gartner, “Worldwide IT Spending Forecast”, 2024-10）。这反映了”软件吃掉世界”的逻辑：软件的价值创造远大于运行它的硬件。

但在 AI 时代，这个比例正在逆转。当一家 AI 公司 30%-40% 的收入流向 GPU 供应商（主要是英伟达）时，价值链的重心从软件层向硬件层/基础设施层转移。英伟达在 2025 财年（截至 2025 年 1 月）的数据中心收入超过 1150 亿美元（来源: NVIDIA FY2025 10-K, 2025-02），这些收入的很大一部分来自 AI 软件公司的算力采购。

换句话说：在传统 SaaS 时代，AWS/Azure/GCP 是软件公司的”房东”，收取 10%-15% 的”租金”。在 AI 时代，英伟达和云计算巨头成了 AI 公司的”能源供应商”，收取 30%-40% 的”电费”。软件公司从”高利润的价值创造者”降级为”中等利润的价值中转站”。

这对中小型 SaaS 公司的威胁尤为严重。一家年收入 5000 万美元的传统 SaaS 公司，毛利率 80%，毛利润 4000 万美元，足以覆盖研发、销售和管理费用并实现盈利。但如果这家公司被迫”AI 化”——在产品中嵌入 AI 功能以保持竞争力——其毛利率可能降至 60%，毛利润缩水到 3000 万美元。1000 万美元的毛利润蒸发可能直接将一家盈利公司变成亏损公司。

根据 Bessemer Venture Partners 的 2025 年 State of the Cloud 报告，已经有超过 40% 的 SaaS 公司在产品中集成了某种形式的 AI 功能，但其中只有不到 15% 实现了 AI 功能的正毛利率（来源: Bessemer Venture Partners, 2025-02）。大多数公司将 AI 功能视为”必须有但赔钱”的竞争性投入——就像银行必须提供手机 App 但很难从中直接盈利一样。

7. 推理效率的技术竞赛：谁能打破成本僵局？

在 AI 推理成本的压力下，一场关于推理效率的技术竞赛正在展开。这场竞赛的结果将直接决定 AI 公司的毛利率能否突破 60% 的天花板。

路径 1：模型架构优化。 Mixture of Experts（MoE）架构是目前最有效的推理效率优化手段。Google 的 Gemini 1.5 和 Mistral 的 Mixtral 都采用了 MoE 架构，在保持模型能力的同时将推理计算量降低了 50%-70%（来源: Mistral AI, “Mixtral of Experts”, 2024-01）。原理是：不是每次推理都激活模型的全部参数，而是只激活与当前任务最相关的”专家”子网络。这相当于一家公司不让所有员工同时处理每个客户请求，而是让最合适的专家团队来处理。

路径 2：推理硬件专用化。 英伟达的 H200 和 B200 GPU 在推理效率上持续改进，但更大的突破可能来自专用推理芯片。Groq 的 LPU（Language Processing Unit）在 2024 年展示了惊人的推理速度——每秒超过 500 token，是 H100 的 10 倍以上（来源: Groq 官方演示, 2024-02）。虽然 Groq 的成本效益还有争议，但它代表了一个方向：推理和训练可能需要完全不同的硬件架构。Cerebras、SambaNova、d-Matrix 等公司也在这个方向上投入重金。

路径 3：模型蒸馏与量化。 将大模型的能力”蒸馏”到小模型中，或者通过量化（quantization）降低模型的精度（从 FP16 到 INT8 甚至 INT4），可以在保持 90%+ 能力的同时将推理成本降低 3-8 倍（来源: Hugging Face Blog, “Quantization for LLMs”, 2024-09）。Microsoft 的 Phi 系列小模型和 Google 的 Gemma 系列都是这个方向的代表。

路径 4：缓存与预计算。 对于重复性高的查询（如客服场景中的常见问题），可以通过缓存推理结果来避免重复计算。这是传统 CDN（内容分发网络）逻辑在 AI 领域的延伸。一些公司（如 Anyscale）正在开发”推理缓存”层，声称可以将重复查询的成本降低 90% 以上。

这 4 条路径的综合效果可能在未来 3-5 年内将推理成本再降低 10-20 倍。但正如前文分析的，Jevons Paradox 意味着成本下降会刺激更重的使用模式——AI Agent 的多步推理、实时视频理解、代码生成与执行的闭环循环——每一个新用例都在消耗更多的算力。

8. So What：这对投资者、创业者和从业者意味着什么？

对投资者：重新校准 AI 公司的估值框架。 不能再用传统 SaaS 的 EV/Revenue 倍数来给 AI 公司估值。一家毛利率 55% 的 AI 公司，即使收入增长 100%，其估值倍数也不应该与毛利率 85% 的传统 SaaS 公司相同。更合理的估值框架应该基于 EV/Gross Profit（企业价值/毛利润）而非 EV/Revenue。按照这个框架，许多当前估值看似合理的 AI 公司实际上被高估了 40%-60%。

对创业者：选择”AI-enhanced”而非”AI-native”可能是更明智的策略。 纯 AI 原生公司面临毛利率天花板和算力成本的双重压力。相比之下，在现有高毛利业务中嵌入 AI 功能——利用 AI 提升产品价值并提高定价，同时将 AI 成本控制在总成本的 10%-15%——可能是更可持续的商业模式。Canva 在 2024 年将 AI 图像生成功能嵌入其设计平台后，据报道 ARPU 显著提升，而 AI 相关成本占其总收入成本的比例仍保持在较低水平（来源: Canva 官方博客, 2024-11）。这是”AI-enhanced”策略的典型成功案例。

对从业者：理解 AI 的成本结构将成为核心竞争力。 在传统 SaaS 时代，产品经理不需要关心服务器成本——因为它几乎为 0。但在 AI 时代，每一个产品决策都有直接的成本后果。选择使用 GPT-4o 还是 GPT-4o-mini？允许用户发送多长的上下文？是否启用多轮对话的历史记忆？这些决策直接影响推理成本，进而影响毛利率。未来的 AI 产品经理需要像半导体工程师理解晶圆成本一样理解推理成本。

对整个软件行业：我们正在见证一次”毛利率大压缩”（Gross Margin Compression）。 过去 20 年，软件行业享受了人类商业史上最高的毛利率——平均 75%-85%。AI 正在将这个数字拉回到 55%-70% 的区间。这不是灾难，但它意味着软件行业的”暴利时代”正在终结。未来的软件公司将更像是”高效率的服务公司”而非”印钞机”。

这场变革的最终赢家不会是那些拥有最大模型的公司，而是那些最深刻理解”AI 成本结构”并围绕它构建可持续商业模式的公司。在一个毛利率从 85% 跌到 55% 的世界里，效率不再是锦上添花——它是生存的前提。

参考资料

The Economic Case for Generative AI and Who Owns the Platform — a16z (Martin Casado & Matt Bornstein), 2024-08
Introducing Meta Llama 3 — Meta AI, 2024-07
Training Compute of Frontier AI Models — Epoch AI, 2024-03
Will We Run Out of Data? Limits of LLM Scaling Based on Human-Generated Data — Epoch AI, 2024-10
State of the Cloud 2025 — Bessemer Venture Partners, 2025-02
NVIDIA Blackwell Architecture Technical Brief — NVIDIA, 2024-03
Gartner Forecasts Worldwide IT Spending to Grow 8% in 2025 — Gartner, 2024-10
Training Compute-Optimal Large Language Models (Chinchilla) — Hoffmann et al., 2022
来源: The Information, “OpenAI’s Revenue and Cost Structure”, 2024-09（付费内容，无公开 URL）
来源: SemiAnalysis, “The Inference Cost Equation”, 2024-06（付费内容，无公开 URL）