在语言模型之后：Odyssey 3.1亿美元豪赌世界模型，以及AI下一个基础设施革命的轮廓

2026年6月17日，Menlo Park的AI初创公司Odyssey宣布完成3.1亿美元B轮融资，估值14.5亿美元，由Natural Capital领投，Amazon、AMD Ventures、GV（Google Ventures）、EQT、IQT等参投。这是当周全球风投最大单笔融资，也是AI世界模型（World Model）赛道迄今最大规模的资金注入。

Odyssey的CEO Oliver Cameron在官方融资公告中写道：“我们相信这个领域正在接近世界模型的GPT-3时刻——世界模型从一个有前途的研究方向，转变为突破性基础技术的临界点。”

这句话值得认真对待。因为上一次有人说类似的话，是2020年，那时候有人宣称大语言模型正在接近GPT-3时刻。接下来发生的事，改变了整个科技行业的格局，创造了数万亿美元的新价值，并且彻底重写了人类与计算机交互的方式。

这笔钱为什么现在进来：世界模型融资的时间逻辑

在深入Odyssey技术之前，先来理解这笔融资为什么是在2026年发生，而不是更早或更晚。

AI风险投资有一个规律：大规模资金往往在两个节点集中涌入——技术刚刚被证明可行时（早期高风险赌注），以及技术开始进入规模化变现时（追随性投资）。Odyssey这轮融资属于第一类：技术已经足够令人兴奋，但商业化还在早期阶段。

3.1亿美元的B轮，意味着什么量级的信心？回忆一下：OpenAI在2019年的B轮（其实是Microsoft战略投资）是10亿美元，当时他们已经有GPT-2和Dall-E。Anthropic在2022年A轮是1.24亿美元，那时Claude还没有正式发布。Odyssey拿到3.1亿美元B轮，在Odyssey-2、Starchild-1、Agora-1已经有公开演示但尚无大规模商业收入的阶段，说明投资人对这个赛道的技术前景有极高的置信度。

时机上的另一个关键背景是：机器人产业的大规模爆发正在2026年加速。Figure、1X Technologies、Physical Intelligence等具身机器人公司都在快速募资和部署，而训练机器人的数据和模拟环境需求正在形成一个快速增长的市场。世界模型恰好处于这个需求的上游。

先定义清楚：什么是世界模型，为什么重要

在深入讨论之前，需要先厘清一个概念混淆，因为”世界模型”这个词被滥用了很多次。

大语言模型（LLM）处理的是符号世界：文字、代码、数学公式。它学习的是人类用语言表达的知识，因此它懂”苹果是水果”，懂”引力让物体下落”，但它没有”亲眼见过”苹果掉落，也没有”感受过”引力作用于一个物体的过程。它的知识是通过语言的间接描述获得的，缺少直接的物理经验。

世界模型（World Model）处理的是感知世界：视频、图像、物理交互过程。它学习的是物理世界本身的规律，包括物理因果关系（球被推就会滚动，玻璃被撞击会破碎）、时间连续性（这个场景在接下来10秒会演化成什么样子）、多智能体交互（两个人在争抢同一个物体会发生什么，每个人的意图如何影响他们的行为）。

这个区别在实用层面意味着什么？举一个例子：如果你训练一个机器人拿起一个杯子，LLM可以告诉你”机器人应该伸出手，抓住杯子，抬起来”——这是正确的文字描述。但LLM无法告诉机器人：这个杯子比你估计的重10%，你需要多用8%的握力；杯子是湿的，摩擦系数降低了，需要换一种抓握策略；桌面有一个微小的倾斜，杯子实际上会向右边滑动。世界模型可以从数百万次物理交互视频中学习这些细微的物理规律，而LLM不能。

这就是为什么世界模型对具身AI（Embodied AI）——能在物理世界中行动的AI——至关重要。

Odyssey的由来：从自动驾驶到通用世界模拟

Odyssey的创始团队背景，是理解这家公司为何有资格做这件事的关键。

CEO Oliver Cameron是Voyage的联合创始人，Voyage是一家专注于老年社区无人驾驶接送服务的自动驾驶公司，后来被Cruise收购。联合创始人Jeff（Eriksson）在自动驾驶感知系统上有超过10年的深度积累。

他们在自动驾驶领域工作期间，意识到一个关键洞察：为了让汽车在复杂城市环境中安全驾驶，他们不得不构建一个极其复杂的”路况世界模型”——这个模型能预测其他司机在不同情况下的行为（他要并道吗？他注意到我了吗？）、行人的移动意图（这个人要过马路还是只是站在路边等人）、天气和路面状况对车辆物理特性的影响。

这个模型，本质上是在模拟一个局部的物理世界。

他们后来的洞察是：驾驶场景只是物理世界的一个极窄子集。他们构建的核心能力——从视频数据中学习物理因果规律，在时间序列上预测世界状态演化——这个能力理论上可以泛化到任何物理场景：工厂装配线、手术室操作、厨房烹饪、体育运动……任何可以被摄像头拍摄的物理过程，都可以成为世界模型的学习对象。

2023年，他们离开自动驾驶，创立Odyssey，把这个能力推向通用化。他们的技术赌注是：通用世界模型，会成为继大语言模型之后AI技术的下一个基础模型类别。

三年后，他们的4个模型（Odyssey-2、Starchild-1、Agora-1、PROWL）以及这轮3.1亿美元融资，都在为这个赌注提供验证。

4个模型，4个战略维度

Odyssey目前在官网展示的4个产品，各自解锁了世界模型的不同能力维度，值得逐一理解：

Odyssey-2（旗舰世界模拟器）：这是他们的核心产品，能接受图像或文字提示，生成数分钟的交互式世界模拟视频。关键差异化点有两个：一是速度（50毫秒内开始流式输出，而传统视频生成模型需要数分钟才能生成10秒片段），二是物理准确性（Odyssey声称其Odyssey-2在物理运动预测上优于同类模型，特别是在流体动力学、刚体碰撞、多物体交互等场景，具体基准数据见其技术报告）。

Starchild-1（多模态世界模型）：超越纯视觉观察，通过整合视觉、触觉、声音等多模态感知来学习世界模型。这是向机器人控制迈进的关键一步，因为真实机器人不只用摄像头，还依赖力矩传感器、雷达、麦克风等多种感知通道的协同。Starchild-1的技术报告显示，多模态训练能显著提升世界模型在真实物理操控场景（如抓取、推拉、装配）中的预测准确性。

Agora-1（多智能体世界模型）：支持多个参与者——无论是人类、机器人还是AI Agent——在同一个世界模拟中实时共享和交互，并且每个参与者都能感知和预测其他参与者的行为。这是游戏、训练模拟、多机器人协作、以及复杂社会场景建模的关键能力。

PROWL（强化学习框架）：一种创新的强化学习方法，让AI Agent通过主动探索环境来主动改进世界模型的弱点——AI不只是被动地从数据中学习，而是主动寻找世界模型预测最不准确的场景，针对性地生成探索行为和新训练数据。这篇工作发表于arxiv（论文编号 2605.18803），代表他们在世界模型持续自我改进方向上的研究突破。

Amazon参投的战略含义：不只是钱

这轮融资中，Amazon的参与方式值得特别解读——不是因为资金量，而是因为其背后的战略绑定深度。

根据Odyssey官方公告，Amazon Web Services将成为Odyssey的首选云提供商，同时Odyssey将与亚马逊的Annapurna Labs合作，专门针对AWS Trainium芯片优化世界模型的训练和推理效率，双方在研究方向和市场推广上深度协作。

这不是普通的财务投资，而是一个垂直整合的战略赌注，隐含的战略意图非常清晰：

AWS的Trainium芯片在AI训练市场上面临的最大挑战，是英伟达H100/H200/B200的绝对主导地位。英伟达的生态优势来自CUDA——几十年积累的软件工具链、优化库、开发者社区，让大多数AI团队习惯性地选择英伟达芯片。打破这个生态壁垒，需要的不只是更好的性能数字，而是让主流AI工作负载实际迁移到Trainium上来。

世界模型，因为其对大规模视频数据处理和高度并行物理模拟计算的独特需求，恰好是一种与传统LLM训练工作负载差异较大的计算密集型任务。这类任务尚未被英伟达CUDA生态完全锁定，是新芯片架构切入的合适赛道。如果Odyssey能公开验证Trainium在世界模型训练上有竞争力甚至领先的性价比，这对整个具身AI和世界模型赛道都有强烈的示范效应。

换句话说，Odyssey对AWS来说不只是一个客户，而是一个战略”样板间”——用来向其他世界模型公司、机器人AI公司展示：在Trainium上训练世界模型是可行的，并且可能是更优的选择。

投资人阵容里藏着的更多信号

除了Amazon，这轮融资的投资人名单还有几个值得仔细解读的信号，每一个都代表了不同的战略判断：

GV（Google Ventures）参投：这意味着Alphabet认可Odyssey作为世界模型赛道的一线独立玩家。值得注意的是，Google DeepMind自己也在做世界模型研究（Genie和Genie 2系列），但通过GV投资Odyssey，说明Google在这个方向上的战略是”内外同时押注”——自己研究的同时，也投资最强的外部竞争者，确保无论谁最终成为世界模型的领导者，Alphabet都在其中有份。

IQT（In-Q-Tel）参投：IQT是美国情报机构（CIA、NSA等）的战略投资部门，专门投资有国防和情报应用价值的深科技公司。IQT的出现，几乎直接告诉我们：美国国家安全体系把世界模型视为具有战略价值的技术。可能的应用方向包括情境感知训练模拟（让分析师在虚拟世界中练习识别异常行为）、无人系统对抗模拟（在世界模型里测试无人机的作战策略）、以及地理空间情报的动态可视化。

Jeff Dean作为天使投资者：Jeff Dean是Google大脑的创始人之一，TensorFlow的共同创始人，深度学习工程实践上最有影响力的人物之一。他在离开Google担任全职岗位后，以个人名义参与了Odyssey的早期投资，并在这轮B轮中继续跟投。Jeff Dean的个人投资行为，在技术圈内有强烈的信号意义——他下注的方向，往往代表的是”这个技术路线在技术上是可行的、可扩展的”的判断。

Elad Gil、Kyle Vogt（Cruise联合创始人）、Garry Tan（YC总裁）：这些都是生态系统中最有洞察力的科技投资人，他们的同时参投，形成了一个高浓度的共识信号：世界模型是下一个值得押注的AI基础设施赛道。

那些最值得关注的应用方向

Odyssey在官网列出了世界模型的一系列潜在应用，但其中最接近现实、最有短期商业价值的3个方向是：

1. 机器人训练数据飞轮

这是最清晰、最迫切的商业需求。训练机器人在物理世界中执行任务，需要大量的真实世界数据和失败尝试。传统方法昂贵、缓慢且危险——一台机器人，在真实环境中，一次只能做一件事，失败一次就可能损坏设备或伤害周围的人。

世界模型解决方案：用高保真的物理世界模拟，在几个小时内完成传统方法需要几个月才能完成的机器人行为学习。1000个并行的虚拟机器人同时在不同物理场景中尝试同一个任务，每次失败都生成有价值的训练数据，生成的数据再用来微调真实机器人的控制策略。这是具身AI领域的”AlphaGo自我对弈”时刻。

2. 高风险场景的安全训练替代

医疗手术训练、消防员应急训练、军事行动模拟——这些场景有一个共同特征：真实训练的成本极高、风险极大、条件难以复现。世界模型可以生成高保真的虚拟训练场景，让受训者在”接近真实”的世界模拟中反复练习，大幅降低训练成本并提升训练效果。

3. 游戏与互动娱乐的下一代平台

Agora-1的多智能体能力，为游戏行业提供了一个全新的可能性：AI生成的游戏世界，其中每个NPC都有真实的物理感知和行为预测能力，而不是按照固定脚本行动。这从根本上改变了游戏世界的沉浸感和可信度——玩家的每一个动作都会触发符合物理规律的连锁反应，而不是触发预设的剧情节点。

一个诚实的风险评估

公允地说，世界模型领域当前的进展令人兴奋，但值得谨慎对待几个重要的不确定性。

技术挑战仍然巨大：当前的世界模型，包括Odyssey-2，在长时间模拟（超过2分钟）中仍然会出现物理失真——场景会出现不合物理规律的跳变，多个物体的复杂交互会产生错误的碰撞结果。对于需要高精度物理准确性的机器人训练应用，这仍然是一个重要限制，需要大量工程工作来克服。

“GPT-3时刻”的类比可能是过度乐观的：GPT-3时刻的关键不只是技术进步本身，而是一个关键能力（语言生成流畅度）的突破越过了用户可感知的实用门槛。世界模型的”GPT-3时刻”，需要物理模拟的准确性达到”足够好用于真实应用部署”的水平，而不只是”令人印象深刻的演示”。这个门槛的高低，仍然需要实际部署的检验。

商业化路径仍不清晰：Odyssey展示的应用场景大多是”1-2年后可能规模化的用例”，而不是现在已经有大量企业客户付费的成熟场景。3.1亿美元的融资，在模型研发、计算基础设施和团队扩张上的烧钱速度会非常快，从B轮到商业化规模仍有相当的距离需要跨越。

写在最后：语言之后的AI地图

大语言模型解锁了语言空间的AI——能够写作、对话、编程、推理的AI。这已经创造了数千亿美元的新市场，并且仍在加速渗透各个行业。但语言只是人类知识和认知的一个维度。

人类还有感知（看到、听到、触到真实世界）、行动（移动、操控、建造物理对象）、社交（在物理空间中协作、竞争、预测他人行为）等维度的智能，这些都没有被LLM真正捕获。

世界模型，代表的是向感知和行动智能的突破——不再只是懂得描述世界，而是能模拟、预测、甚至参与和控制物理世界的AI。这是一个更宏大的技术愿景，也是一个更高风险、更长周期的赌注。

但Odyssey这次3.1亿美元的融资告诉我们一个清晰的事实：业界最聪明的一批人，正在用真实的资本押注这个方向。Amazon、Google Ventures、Jeff Dean、IQT同时下注同一家公司，这不是随机事件，也不是跟风，而是经过深度研究后形成的共同判断。

这个判断是：语言模型不是AI的终点，而是起点；物理世界的理解和模拟，是AI能力跃升的下一个边界。

下一张AI地图，正在被一笔一笔地画出来。而这3.1亿美元，是其中一笔相当关键的落点。

世界模型从研究方向转变为产业基础设施，需要的不只是技术突破，还需要算力基础设施的成熟（AWS Trainium的押注正是在解决这个问题）、垂直应用的规模化落地（机器人训练、专业场景模拟），以及开发者生态的形成（让更多团队基于世界模型API构建应用，而不是每家公司都从零训练自己的世界模型）。Odyssey这3.1亿美元，很大一部分将用来推动这3个方向同时加速。

AI正在从懂语言走向懂世界。这是一场比大语言模型还要深刻的变革，因为它的影响不只是信息处理，而是人类与物理现实之间的关系。当AI能够真正理解、预测和模拟物理世界，机器人、医疗、制造、科学研究的边界都将被重新定义。

这一天比我们预想的要来得快。

参考资料:

Odyssey官方公告, “Our $310 Million Fundraise to Accelerate World Simulation”, Odyssey Blog, 2026-06-17, https://odyssey.ml/our-series-b
Crunchbase News, “The Week’s 10 Biggest Funding Rounds: World-Model Startup Odyssey Leads With $310M In Slower Week For Large Deals”, Crunchbase News, 2026-06-18, https://news.crunchbase.com/venture/biggest-funding-rounds-cybersecurity-defense-startup-ai-odyssey-leads/

在语言模型之后：Odyssey 3.1亿美元豪赌世界模型，以及AI下一个基础设施革命的轮廓

这笔钱为什么现在进来：世界模型融资的时间逻辑

先定义清楚：什么是世界模型，为什么重要

Odyssey的由来：从自动驾驶到通用世界模拟

4个模型，4个战略维度

Amazon参投的战略含义：不只是钱

投资人阵容里藏着的更多信号

那些最值得关注的应用方向

一个诚实的风险评估

写在最后：语言之后的AI地图

Tags:

About

Categories

Recent Posts

Resources