美团LongCat开源:当外卖公司开始在国产芯片上训练大模型,中国AI去Nvidia化进入生产验证阶段
这不只是美团发布了一个开源模型的故事。真正的故事是:一家中国互联网公司宣布用国产芯片从头训练了一个大型语言模型,并把它开源了。这件事的意义,需要放进一个更长的时间线里才能读懂。
一、一份外卖平台发来的地缘政治消息
2026年6月30日,Reuters发出了一则看起来平平无奇的技术新闻:美团开源了一个叫LongCat的大型语言模型。
美团。就是那个你用来点外卖、买药、预订酒店的平台。市值接近1000亿美元的中国互联网巨头,2015年至2020年靠同城配送业务几乎烧光了所有竞争对手。
它开源了一个AI模型。这本身不算什么大事——每个月都有几十个中国公司在GitHub和Hugging Face上开源模型。但Reuters的报道里有一句话,让这条消息变得非同寻常:
LongCat是在国产AI芯片上训练的。
这句话,在AI行业里的份量,远比一个模型发布重得多。
想象一下这个类比:有人告诉你,他们刚刚用完全自产的材料盖了一栋楼,没有用任何进口水泥、进口钢铁、进口玻璃。你可能会说,这有什么了不起的?盖楼不就是盖楼吗?
但如果你知道过去十年里,这种材料几乎只有一家外国公司能够生产,而且那家公司刚刚宣布停止向你所在的国家出售——那这件事的意义就完全不同了。
美团LongCat,正是这样一栋楼。
二、Nvidia税:一个所有人都在缴纳但没人公开讨论的成本
在过去几年里,训练一个大型语言模型,有一项成本几乎是无法绕开的:向Nvidia缴税。
这当然不是字面意义上的税。但从效果上看,它几乎等同于此。
全球超过80%的AI训练算力,都运行在Nvidia的GPU上——主要是A100和H100系列,以及更新的H200和Blackwell架构。Nvidia的CUDA生态系统花了超过15年建立起来,是AI研究者的母语。你可以不用Nvidia的硬件,但那意味着你需要在一个几乎没有成熟工具链的环境里重新学习如何说话。
不只是硬件。整个PyTorch生态、几乎所有主流的训练框架、各类优化库(NCCL、cuDNN、Flash Attention)——都深度绑定了CUDA。你把一段标准的训练代码搬到非Nvidia硬件上,最好的情况是需要大量适配工作,最差的情况是根本跑不起来。
对美国的AI公司来说,这是一个商业问题:如何在GPU采购和云服务费用上保持竞争力。
对中国的AI公司来说,这是一个生存问题。
2022年10月,美国商务部宣布对中国实施AI芯片出口管制,禁止向中国出口Nvidia A100和H100等高端GPU。2023年10月,管制再次升级,连Nvidia为中国市场专门阉割过的A800和H800也被纳入禁止名单。2024年和2025年,管制继续收紧,几乎封堵了所有高性能AI芯片的合规进口渠道。
在这套管制实施之前,中国的AI公司是Nvidia最重要的客户之一。百度、阿里巴巴、腾讯、字节跳动,每年在Nvidia GPU上的支出合计数以十亿美元计。限制出口,等于切断了这些公司最重要的算力来源。
结果是:中国的AI公司,在算力层面开始了一场不得不进行的自救实验。
三、9家公司过了万卡门槛
2026年1月,China Daily发布了一份罕见的行业统计:中国国内至少有9家AI芯片公司,芯片出货量已经超过了一个关键门槛——单家累计交付超过10000块。
这个数字,在行业里被称为”万卡门槛”——一个集群规模达到10000块GPU的算力中心,是目前训练前沿大型语言模型的最低实用门槛。低于这个规模,训练周期会长到不具竞争力。
这9家公司形成了一个有意思的生态格局:华为昇腾(Ascend)站在最顶端,Ascend 910B的FP16性能接近A100,是目前国产训练芯片里技术最成熟、软件生态最完善的选择,被多家大型互联网公司列为首选替代方案;阿里巴巴T-head含光(Zhenwu PPU)已为内部AI集群和超过400个外部客户服务,包括国家电网、中国科学院、小鹏汽车,证明了国产芯片在真实企业场景中的可用性;寒武纪(Cambricon)则是唯一一家已经在A股上市的专业AI芯片公司,MLU370等推理芯片正在逐渐渗透进互联网大厂的推理侧供应链。
其他几家则各有路径:百度昆仑(Kunlun)深度依托百度生态,字节跳动正在谈判采购天数智芯(Iluvatar CoreX)的Zhikai系列推理芯片,腾讯投资了燧原(Sunrise)主打超大规模训练。这9家公司的存在,意味着中国国产AI芯片产业不再是一家独大,而是形成了从训练到推理、从云端到边缘的完整生态矩阵。
IDC的数据显示,2025年上半年,中国AI服务器市场规模达到160亿美元,其中Nvidia仍占62%的份额,但中国本土芯片已经攀升至35%。2024年上半年,这个数字还不到10%。一年之内翻了三倍以上。
这个速度,比大多数分析师的预期快得多。
华为昇腾系列的增长尤其显著。Ascend系列在国内大型AI集群中的渗透率,在2025年进入了快速上升通道——不是因为技术突然超越Nvidia,而是因为大量客户意识到,在一个Nvidia芯片供应不确定的世界里,必须要有一条备用赛道。
四、美团做了什么,以及为什么它重要
回到美团。
美团不是一家以技术研究见长的公司。它的核心竞争力,长期以来是极致的运营效率和对本地生活市场的深度渗透——用密集的骑手网络、精细的调度算法和激进的补贴策略打赢了竞争对手。
但美团的技术团队,尤其是算法团队,在业界有着相当高的评价。配送路径优化(美团内部称之为”闪电调度”)每天处理数千万个订单的实时分配,这对系统工程能力的要求并不亚于大模型训练。
美团选择训练LongCat的硬件,据报道主要是华为昇腾芯片(部分可能包含寒武纪)。在出口管制生效后,这是目前中国互联网公司训练百亿参数以上模型的主流选择之一。
LongCat的参数规模、具体benchmark表现,Reuters的报道里没有给出精确数字。模型的完整技术报告尚未公布。根据美团AI研究的公开信息和行业惯例,业界人士估计LongCat可能在70B至120B参数量级,这与目前主流开源大模型(Llama 4 Scout/Maverick、Qwen 3等)的训练规模相当。但这仅是外部推测,在官方技术报告发布前,一切技术细节应以美团官方公告为准。
设想一个反事实:如果这件事没有发生——如果美团在花了相当的工程成本之后,最终发现国产芯片的工程路径走不通,选择沉默而不是开源——那么这个路径的可行性,还要再等下一家公司来验证。工程知识的积累,需要有人迈出第一步,也需要有人把第一步的结果公开。美团选择开源,把这个成本降低了,向整个社区开放了这个路径的可行性证明。但美团选择在此时公开开源,本身就是一个重要信号。
第一,工程可行性验证。用国产芯片训练一个可以达到开源水准的大语言模型,在3年前几乎是不可想象的工程挑战——CUDA生态缺失意味着几乎所有主流训练框架(PyTorch、JAX)都需要大量适配工作。华为的CANN框架(AI计算机体系架构)和MindSpore框架在过去几年里快速演进,但工程适配成本依然很高。美团开源LongCat,意味着这个工程路径已经被走通了。
第二,知识溢出效应。开源模型不只是一个模型文件。它包含训练配置、数据处理流程、以及隐含的工程经验。当美团把LongCat推上GitHub,其他面临同样挑战的中国AI团队,可以从中提取关于”如何在华为昇腾上训练大模型”的工程知识。这加速了整个社区在这条路径上的收敛速度。
第三,商业信号。美团是一家以极致精细的成本管理著称的公司——它的精细程度体现在每一单外卖的配送成本上,也会体现在AI基础设施的选型决策上。它不会为一个在业务层面没有价值的项目投入足够多的资源完成整个训练周期。LongCat的开源,意味着美团的AI团队已经判断,基于国产芯片的自研模型路径具备实用价值。
第四,时机选择。选择在2026年6月30日开源,而不是更早或更晚,是一个有意识的决定。这个时间点正好处于中美AI技术竞争最激烈的阶段,也是中国国产AI芯片生态开始形成规模的节点。美团的公开,更像是一个宣言。
五、出口管制的悖论:禁令在加速什么?
2022年,美国实施芯片出口管制的核心逻辑,是通过限制算力来延缓中国AI能力的发展。
这个逻辑有一个隐含假设:中国的AI发展,依赖的是美国芯片的持续输入。切断输入,增长就会放缓。
但实际发生的事情,可能与这个逻辑背道而驰。
首先,出口管制创造了一个几乎无限大的本土需求信号。当Nvidia芯片不再可得,或者价格因为灰色市场溢价飙升到不可持续的水平时,中国的大型互联网公司——他们有足够多的内部需求来支撑一个芯片公司的商业化——开始把采购订单转向国产替代品。华为昇腾2025年出货量的急剧增长,有相当一部分来自这种被迫转向所激活的内需。
其次,被迫转向带来了大量真实场景的工程磨合。在合规Nvidia芯片时代,没有一家中国公司有足够的动力去深入优化国产芯片上的训练框架——CUDA就够用了,而且效率更高。出口管制之后,每家公司的AI团队都不得不去啃这块硬骨头。结果是,华为CANN的适配情况、寒武纪MLU的工程路径、壁仞的软件栈,都在2024-2025年间获得了大量真实训练场景的磨合和优化。这种磨合,是任何实验室条件都难以替代的。
第三,被迫转向带来了意料之外的技术创新。当你无法使用最好的工具时,你会被迫去思考如何在约束条件下做到最好的结果。DeepSeek的MoE架构优化、训练效率的极致压缩——这些创新,有相当一部分动力来自于算力受限的现实压力。美团如果也在同样的约束下找到了某种工程优化路径,这种经验本身就是有价值的知识资产。
第四,美团LongCat代表了一个”公开化”的临界点。在LongCat之前,已经有多家中国公司悄悄用国产芯片做推理,也有一些公司在内部尝试国产芯片训练,但鲜有公司选择把这件事公开。美团的开源,把一个原本在灰色地带进行的实验,变成了可以被整个社区验证和讨论的公开事实。
这不是说出口管制失败了。Nvidia仍然领先很多。但从”中国AI停止发展”到”中国AI在国产芯片上自主发展”的距离,在过去4年里收窄了比大多数人预期更快的程度。
六、两个视角:大多数人看到的vs.真正重要的
大多数关于LongCat的报道,会把它框架成一个”中国AI追赶”的故事。这不错,但不够准确。
大多数人看到的叙事:中国公司开源了一个新模型,性能不错,用了国产芯片,是中国AI崛起的又一个证据。
真正重要的叙事:这不是关于性能的故事,而是关于基础设施可行性的故事。美团用行动验证了一件事:在当前的国产芯片生态下,一家没有专门AI芯片研究背景的互联网公司,可以完成大型语言模型的从零训练。
这个验证的意义,在于它降低了门槛。当美团做到了,下一家公司的学习成本就更低。当下一家也做到了,再下一家的学习成本就更低。这是一个加速效应,而美团是这个加速器的第一块砖。
另一个重要的视角是供应链的变化。当越来越多的中国公司开始在国产芯片上训练和部署模型,国产芯片厂商的出货量会继续增长,软件生态会继续完善,单价会因为规模效应开始下降。这是一个正反馈循环,而LongCat是这个循环获得新动量的一个节点。
七、需要保持的清醒
这里有一些必须说的保留意见。
国产芯片与Nvidia的差距依然显著。华为昇腾910B在FP16性能上接近A100,但H100和H200级别的差距仍然很大。Blackwell架构与国产最先进芯片的差距,估计至少2-3代。更重要的是,软件生态的差距——CUDA vs. 昇腾CANN加MindSpore的生态,在成熟度和第三方支持上,前者领先后者很多年。
美团LongCat的具体性能参数未经公开验证。Reuters的报道没有提供模型在标准benchmark(MMLU、HumanEval、MT-Bench等)上的具体数字。在更多技术细节公布前,我们不知道这个模型的实际能力水位在哪里——它可能接近Llama 3级别,也可能远低于此。
“训练成功”不等于”具有竞争力”。DeepSeek在国产芯片上做了极其精巧的MoE架构和训练效率优化,才能把V3和R1做到对标GPT-4的水平。如果美团没有类似的优化,LongCat的模型能力可能远低于同参数量的其他开源模型。
开源的动机并不唯一。美团开源LongCat,可能有商业动机(建立开发者社区、招募人才),有PR动机(展示技术实力),也可能有政策动机(响应国家对AI开源的鼓励)。”开源”本身是一个有利于外界评估的形式,但动机的复杂性不应被忽略。
但在所有这些保留意见之外,有一件事是确定的:这件事发生了。一家中国互联网公司,用国产芯片,完成了足以公开开源的大型语言模型训练。
这不是DeepSeek那种让市场震动的技术爆炸性时刻,但它是一个更系统性的、更长期叙事里的关键节点。
八、下一个阶段会是什么
从LongCat往后看,有几个值得关注的发展方向:
模型性能数据的公开:美团迟早需要发布完整的技术报告,包括具体参数量和主流benchmark的数字。这些数字会是检验”国产芯片训练有效”命题的关键证据。
开源生态的接力效应:美团LongCat开了一个公开头,其他公司的跟进速度可能会加快。阿里巴巴(T-head含光芯片)、百度(昆仑芯)、字节跳动(正在谈判采购天数智芯Iluvatar芯片)——它们都有自己的国产芯片路径,都有商业动机展示这条路可以走通。
华为昇腾生态的进一步完善:更多真实大规模训练场景,意味着更多工程反馈流向华为的芯片和软件团队。CANN框架的适配宽度和MindSpore的易用性,都会因为更多生产场景的驱动而加速迭代。
美国的出口管制政策讨论中,有两种对立的声音。
一派认为出口管制有效:延缓了中国在最先进训练芯片上的获取,使中国的前沿模型研发不得不在更低效的硬件上进行,大约落后美国2-3年。
另一派认为出口管制适得其反:切断供应创造了强制性的国内市场,加速了华为昇腾等国产替代方案的成熟速度。以往没有足够动力在国产芯片上优化软件栈,现在成了生存问题。
美团LongCat是这场辩论的一个新数据点。但它是哪派论点的证据,本身就有争议——支持”出口管制有效”的人会说,LongCat如果真的达到竞争性性能,那已经是在比英伟达A100性能更低的硬件上完成的,证明了管制在拖慢速度;支持”出口管制适得其反”的人会说,LongCat证明了供应链自主化正在推进,是管制失败的证据。
这个辩论将持续很多年。美团提供了一个新的论据。英伟达自身的应对——其Vera Rubin下一代架构的技术路线,以及可能针对中国市场的特殊规格版本——也是这场博弈的一部分。
商业化路径的分化:开源的LongCat,可能形成自己的商业生态——基于美团开源版本的垂直行业微调版本,或者与国产芯片厂商的联合推广。这是中国AI开源模型的常见路径。
九、一个外卖公司的AI,一场更大的比赛
最后回到美团。
这是一家以外卖配送、本地生活服务为核心业务的公司,但它拥有中国互联网行业顶尖的算法团队——从配送路径优化到定价策略,美团的工程能力在业界被低估了多年。
现在,它把这种工程能力,用到了大语言模型训练上,并选择在国产芯片上完成这件事,并把结果公开了。
这个选择背后有多少战略主动性、多少不得已的现实考量,外界很难判断。美团的核心业务是本地生活,不是AI研究,不是半导体。LongCat的训练,可能更多是出于内部业务需求(对话式搜索、商家服务AI化、用户推荐系统升级),而不是出于为中国AI社区贡献一个开源基础模型的崇高目标。
但结果是一样的:美团用行动告诉中国AI社区,在国产芯片上训练大模型这条路,已经有人走通了,并且把路标立在了那里。
这可能是LongCat开源这件事,比一个具体模型的性能数字重要得多的意义所在。
在一场关于算力独立的长期比赛里,美团用一个叫”长猫”的开源模型,往前走了一步。
参考资料:
- Reuters, “China’s Meituan open-sources AI model trained on domestic chips”, June 30, 2026
- China Daily, “Chinese AI chips gaining market traction”, January 30, 2026
- Yicai Global, “ByteDance Is in Talks to Buy Iluvatar AI Chips, Sources Say”, June 18, 2026
- IDC data via China Daily: China AI server market H1 2025
- CNBC, “Record chip rally adds $2 trillion in combined value to Micron, Intel and AMD in second quarter”, June 30, 2026