2026年5月7日,OpenAI在开发者文档里悄悄更新了一行字:

「OpenAI is winding down the fine-tuning platform. The platform is no longer accessible to new users.」

没有博客文章,没有发布会,没有Sam Altman的推文。只有一个deprecation时间线,列出了三个日期:

  • 2026年5月7日:新用户无法创建微调任务
  • 2026年7月2日:60天内未使用微调推理的组织被移除访问权限
  • 2027年1月6日:现有活跃客户最终截止日——不能再创建新训练任务,已有微调模型推理服务持续到底层基础模型弃用

这是一场平静的葬礼。被埋葬的,是整整一代AI应用的核心技术范式。

Fine-tuning不是一个小众工具。根据OpenAI过去公开的数据,在其平台上,企业级Fine-tuning客户一度超过数万家,涵盖医疗、法律、金融、教育、客服等几乎所有垂直行业。围绕Fine-tuning生态,形成了一个包含数据标注公司、训练优化服务商、模型评估工具的完整产业链。这些企业在过去3年里,投入了大量时间、数据和资金——现在,它们需要面对一个现实:这条路已经封死了入口。

而真正值得关注的问题是:OpenAI为什么在这个时间节点做这个决定,以及这对整个AI生态意味着什么?


一、Fine-tuning曾经是什么,以及它曾经有多重要

要理解这件事的分量,需要先回到2022年。

那时候GPT-3和GPT-3.5的原生能力还不够,你要让一个语言模型做好某件特定的事——比如以某种公司特定的语气回复客户,或者以某个领域的专业术语起草法律合同——最可靠的方法是提供几百个、几千个「输入→期望输出」的样本,让模型从这批数据里学会你想要什么。

这就是Fine-tuning(微调)。

它不便宜。训练一次中等规模的微调任务,花费从几百到几千美元不等。更贵的是时间成本:整理数据、清洗数据、设计标注标准、运行训练、评估效果、重新迭代——一个完整的微调工程周期,往往以周计算。

但它解决了一个真实问题:在原始大模型能力不足的时代,微调是把通用智能「专业化」的主要路径

整个AI应用生态围绕这条路径生长。在OpenAI的平台上,曾经存在数以万计的企业微调模型。医疗、法律、金融、教育、客服——每个行业都有自己的「定制版GPT」,每家公司都希望通过私有数据构建属于自己的AI护城河。

Fine-tuning有几个具体的使用场景,在当时是无可替代的:

格式一致性:一个零售商需要模型始终以「SKU-类别-颜色-尺码」的固定格式输出商品描述,任何偏差都会破坏下游系统。2023年的GPT,用prompt很难做到99%的格式准确率,Fine-tuning可以。

语气一致性:银行客服需要模型永远以「礼貌、谨慎、不给出具体建议」的语气回复,即使面对最刁钻的问题。这种持续一致的约束,需要模型在权重层面就已经「记住」了规则。

专业领域适配:一个处理中文法律文书的模型,需要熟悉《民法典》的标准表述方式和专业术语体系。即便原始模型知道这些知识,Fine-tuning能让它「更自然地」用这些表述方式输出。

成本优化:用GPT-4o回答一个专业问题,可能花费0.01美元。如果通过Fine-tuning训练一个GPT-3.5-turbo级别的小模型,同样的问题可能只花0.001美元。规模化的场景下,这个差距可以决定商业可行性。

综合格式一致性、语气一致性、领域适配、成本优化这四个维度来看,Fine-tuning的确曾经是AI应用工程化的核心支柱。大量的开发者和企业在2022年到2025年间,围绕这个支柱构建了自己的AI能力体系。

2026年5月7日,这些使用场景的官方解决方案,被关闭了。


二、为什么是现在:GPT-5系列拆解了Fine-tuning的价值主张

官方的解释很简洁:「为了把资源集中在更新、更强大的方式上优化模型输出。」

这句话翻译过来的意思是:Fine-tuning已经不再是最好的答案了。

GPT-5系列改变了这个方程式。当一个基础模型足够强,它需要的已经不是「告诉我你想要什么样的输出」,而是「在prompt里明确说清楚你的需求」。

具体来说,以下几个能力的提升,直接拆解了Fine-tuning的价值主张:

上下文窗口的扩展。早期Fine-tuning的一个核心价值是:「在有限的上下文里放不下足够多的例子,所以把这些例子烧进模型权重里」。GPT-5系列的上下文窗口已达数十万token,大多数情况下你可以在prompt里直接提供足够多的范例,无需训练。这本质上让Fine-tuning最初解决的「样本容量」问题消失了。

指令遵循能力的质变。GPT-4以前,如果你需要模型始终以某种格式输出结构化数据,Fine-tuning几乎是唯一可靠的方案。现在,用一个足够精确的System Prompt加上几个示例,成功率接近99%。GPT-5系列在指令遵循上的改进,是量变触发质变的典型案例——从80%的格式准确率到99%,是「差不多能用」和「真的可以生产」之间的区别。

检索增强生成(RAG)的成熟。Fine-tuning曾经被用来把「专有知识」注入模型权重——医疗手册、公司内部文档、行业术语表。但这种做法有一个根本性的缺陷:知识更新了,模型没更新,你需要重新训练。现在RAG方案不仅更灵活,而且在检索质量上已经超越了大多数Fine-tuning场景。一个金融机构可以实时更新RAG知识库,而不是每季度花费数千美元重新训练微调模型。

推理成本的持续下降。GPT-5系列的API定价,让很多曾经需要Fine-tuning来「降本」的场景——用更小、更专用的模型来替代expensive的大模型调用——变得不再必要。当基础模型本身的调用成本已经降到合理区间,为降本而Fine-tuning的经济逻辑就不成立了。

reasoning能力的出现。对于复杂的推理任务,o3/o4系列和GPT-5.5的chain-of-thought能力,已经远超任何通过Fine-tuning能达到的效果上限。你没有办法用数千个样本训练出GPT-5的数学推理能力——那是一种不同层次的涌现,Fine-tuning根本触及不到它的训练机制。

综合这五个维度,Fine-tuning曾经的价值主张正在被多路径同时挤压:它既在技术能力上不再是最优解,又在经济成本上不再是最优解,还在灵活性上不再是最优解。

OpenAI关闭它,在技术层面上是合理的。


三、谁受损,谁获益

这个决定不是对所有人平等的。

OpenAI开发者社区论坛上,该消息的讨论帖在发出后数小时内收到了大量反馈,情绪分布呈现出清晰的两极化:有人写道「我们在Fine-tuning上投入了18个月和几十万美元的数据标注成本,现在被告知路径关闭」;另一边也有人说「终于可以停止维护那个烦死人的微调流水线了,GPT-5早就比我的微调版本好用了」。

受损最深的是两类开发者:

第一类是已经在Fine-tuning基础上构建了产品护城河的企业。他们相信「我的专有数据+Fine-tuning = 独特的竞争优势」。现在这个等式的左边被抽走了一块。

需要特别说明的是,已有的微调模型推理服务会持续到底层base模型被弃用。这意味着存量用户不会立即被断崖式切断——但新的微调任务无法创建,整个生态在缓慢消亡。

更重要的影响是心理层面的:如果Fine-tuning路径已经被官方放弃,那么基于Fine-tuning构建的竞争壁垒,其可信度就已经受损。投资者和客户都会问同样的问题:「这家公司的AI优势,还有多少来自已经走向终结的技术路径?」

第二类是依赖Fine-tuning平台做商业服务的AI服务商。整个围绕Fine-tuning建立的产业链——数据标注公司、微调训练优化服务、微调模型评估工具——需要重新定位或转型。规模较小的服务商,可能会直接面临订单消失的压力。

受益最显著的是另外两类玩家:

一是OpenAI自己。关闭Fine-tuning平台,意味着OpenAI不再需要维护一个复杂的、资源消耗高的定制训练基础设施。更重要的是,它推动开发者使用更新的模型,而不是继续停留在GPT-4时代的微调版本上——那些老版本不仅效果较差,还在消耗OpenAI的维护资源,同时占据了可以被更高效利用的算力。

二是纯提示工程路线的开发者。一批早就坚持「只用prompt、不用fine-tune」的团队,此刻获得了某种验证。他们押注的是「模型会越来越强,定制化的成本会越来越低」——这个预判是对的。而那些投入大量资源建立Fine-tuning体系的团队,现在面临的是一次被迫的技术债清算。

还有一个间接受益者值得关注:Anthropic和Google。他们的Claude和Gemini系列一直相对保守地提供Fine-tuning服务。OpenAI的这个选择,某种程度上为整个行业提供了「走向去Fine-tuning时代」的背书——接下来其他大模型厂商缩减Fine-tuning支持,会变得更加容易开口,因为可以说「OpenAI都这么做了」。


四、OpenAI在做什么样的赌注

把Fine-tuning平台的关闭放进更大的背景里看,会看到一个清晰的战略脉络。

OpenAI正在做一场关于AI应用范式的大赌注:未来的AI应用,不应该是在基础模型上层叠式地堆积定制训练,而应该是通过更强的基础模型、更好的上下文管理、更灵活的Agent框架来构建。

这个赌注背后是一个对Fine-tuning的深层批判:定制化是一种本质上有限的能力延伸方式。你通过Fine-tuning得到的,是一个在特定分布上表现更好的模型;但你失去的,是模型对这个分布之外情况的泛化能力。随着模型基础能力越来越强,这种权衡越来越不划算——你在微调的同时,也在削弱模型的通用性。

OpenAI这次的决定,本质上是在说:我们不再提供给你定制的工具,因为我们认为通用的能力已经足够了。 如果你觉得还不够——那说明你的问题不是Fine-tuning能解决的问题,你应该思考的是agent架构设计,而不是训练数据质量。

这是一种激进的立场。

它假设了GPT-5系列的原生能力足以覆盖绝大多数曾经需要Fine-tuning的使用场景。这个假设也许是对的,但也许有例外——特别是在那些需要极高一致性输出、非常特定格式要求、或者处理高度专业化语言的场景(比如特定领域的医疗记录处理、多国专利文书写作、监管合规文件生成)。

如果这些例外场景仍然存在——而且存在的规模足够大——Fine-tuning的关闭就会成为一个可以被竞争对手利用的空隙。


五、三种视角,三种解读

乐观派:这是技术成熟度的自然演进

Fine-tuning是模型能力不足时代的补丁,现在模型能力足够了,补丁就该退出舞台了。开发者应该为此欢欣鼓舞——维护一套微调模型的代价不小,包括数据管理、版本控制、定期重训、效果回归测试,转向更简洁的提示工程生态,实际上是工程效率的提升。

更重要的是,这是AI应用门槛降低的信号。Fine-tuning需要的数据标注能力、训练管理能力、评估专业知识,本来就把很多中小开发者和初创企业挡在门外。去掉这层门槛,让更多人可以直接使用顶级基础模型,理论上会激发更多的产品创新——创业者可以把精力放在产品设计和用户需求上,而不是微调流水线。

悲观派:OpenAI在系统性削弱开发者的控制权

Fine-tuning存在的核心价值不只是「让模型更专业」,还有一个经常被忽视的维度:可预测性。一个经过精心Fine-tuning的模型,行为模式是相对稳定的——它不会因为基础模型升级而突然改变输出格式,不会因为prompt解释方式的微小变化而产生行为漂移。

现在,开发者被迫依赖OpenAI的prompt engineering和模型升级节奏。如果OpenAI某次升级改变了默认行为,所有依赖这个行为的应用都可能受到影响。Fine-tuning曾经提供的隔离层——把自己的应用逻辑锁在模型权重里——消失了。这会让更多应用进入一种脆弱的状态:依赖一个持续在变化的基础模型,而没有稳定的缓冲层。

这不是技术问题,是平台依赖性问题。

结构视角:OpenAI从「工具提供者」变成「能力垄断者」

最深层的视角是:Fine-tuning的关闭,是OpenAI在价值链上向上迁移的一个动作。

在Fine-tuning存在的时代,开发者可以用自己的数据积累竞争壁垒——即使OpenAI发布了更强的基础模型,你的微调数据和微调模型也是属于你的资产,不能被轻易复制或替代。

现在,这个资产积累的通道被关闭了。OpenAI在说:「你需要的所有能力,只来自于我们最新的基础模型。」开发者的数据积累价值,被压缩到了RAG和Evals这两个领域——而这两个领域,OpenAI同样在提供自己的基础设施(Platform Evals、Assistants API的文件搜索功能等)。

这是一种结构性的向上迁移:价值的重心,从数据和微调,转移到了基础模型本身和应用层架构。而基础模型,在OpenAI的战略里,永远是它自己的。


六、开源的反弹:一个不会消失的替代路径

这里有一个OpenAI这次决定必然要面对的现实:Fine-tuning作为技术没有死,只是在OpenAI的平台上被关闭了入口。

开源模型——从Llama 4到DeepSeek V4到Qwen 3——在相当程度上填补了这个空间。任何想要微调自己模型的开发者,仍然可以在本地或云端跑SFT、DPO、RLVR——只是不通过OpenAI的平台了。云服务商AWS SageMaker、Azure ML等的Fine-tuning服务,也仍然存在。

这意味着OpenAI的这个决定,实际上在一定程度上推动了开发者向开源生态迁移——特别是那些Fine-tuning需求最强、对OpenAI平台依赖最深、也因此在这次关闭中受损最大的一批企业用户。

这也许是OpenAI做这个决定时承受的一个已知风险:部分开发者会向开源方向分流。

但OpenAI显然认为这个风险可以接受。它押注的是,大多数开发者更在乎的是能力,而不是控制权。当GPT-5系列的能力已经足够强,「在OpenAI平台上用强模型」比「自己微调开源模型然后维护算力基础设施」的性价比更高。

这个押注,最终会由市场来验证。


七、对中国AI市场的镜像含义

OpenAI这个决定在中国市场有一个有趣的镜像效应。

国内的大模型厂商——百度千帆、阿里通义、字节火山方舟、智谱AI——目前大多仍然提供完整的Fine-tuning服务,而且把「私有数据微调」作为企业级产品的核心卖点之一。百度千帆的企业版定价里,Fine-tuning训练资源是一个独立的计费维度;智谱AI甚至提供专门面向企业私有化部署的微调方案。

「用你的数据训练属于你的模型,数据不出域」这个叙事,对许多关注数据主权、合规要求严格的中国企业用户来说,仍然有很强的市场吸引力——特别是金融、医疗、政务这三个领域,数据不能出境是硬性约束,Fine-tuning是数据利用和模型定制的自然选择。

这在短期内可能是一个真实的差异化优势:「我们不像OpenAI,我们仍然给你定制化的能力,而且数据留在你自己的环境里。」

但从更长的时间尺度看,如果OpenAI的赌注是正确的——基础模型的原生能力确实正在替代微调的价值——那么国内厂商继续维护Fine-tuning生态,本质上是在维护一种过渡期的业务模式。Kimi K2.6、DeepSeek V4、Qwen 3的基础能力已经达到了相当高的水平,在通用场景下的指令遵循和格式控制,与GPT-5系列相差不远。当这些基础模型的能力持续提升、使用成本持续下降,Fine-tuning平台同样会面临退出的压力。

这个时间节点,可能比很多人预期的要近。


结语:一行文档更新的分量

回到那行在deprecation页面低调出现的字:

「OpenAI is winding down the fine-tuning platform.」

这不是一个API的关闭,是一个技术时代的宣告。

它告诉我们,AI应用开发正在进入一个新的阶段——在这个阶段里,基础模型的通用能力足够强,以至于「专门为某个应用场景训练一个模型」这件事,正在变得不再必要。

这个趋势的方向是清晰的:AI能力的来源,正在从「拥有定制数据」转向「懂得使用通用能力」。护城河的本质,正在从「数据资产+微调工程」转向「产品设计+用户体验+应用场景选择」。

这场转变的深层逻辑是:在AI发展的早期阶段,定制化意味着稀缺的技术能力,谁能把模型训练得更专业谁就有优势。但在GPT-5时代,基础能力不再稀缺——真正稀缺的是对用户需求的理解深度、对特定场景的产品化打磨、以及对快速演化的AI能力的持续整合能力。这些,都不是Fine-tuning可以赋予的。

对每一个今天还在依赖微调积累竞争壁垒的团队,这是一个需要认真思考的信号:

你的壁垒,建立在一个正在被蒸发的基础之上吗?

如果是,那么现在的问题不是「迁移到哪个Fine-tuning平台」,而是「我的竞争优势的下一个来源在哪里」。

这才是OpenAI这次平台更新,真正想让开发者面对的问题。


参考资料:

  1. OpenAI API Deprecations(官方时间线): https://developers.openai.com/api/docs/deprecations
  2. OpenAI Model Optimization Guide(官方文档,含 Fine-tuning 关闭声明): https://developers.openai.com/api/docs/guides/model-optimization
  3. OpenAI Community Discussion Thread: https://community.openai.com/t/openai-is-winding-down-the-fine-tuning-api-and-platform-discussion-thread/1380522