David Silver的11亿美元赌注：强化学习是通向超级智能的正确路径吗

2026年4月27日，一家没有公开产品、没有收入记录的初创公司完成了欧洲AI史上最大的种子轮融资——11亿美元。这家公司叫Ineffable Intelligence，其创始人David Silver是AlphaGo和AlphaZero的核心架构师。投资方名单包括Nvidia、Google和Sequoia。估值定格在51亿美元。

这不是一笔普通的风险投资。这是一场关于”智能的本质是什么”的哲学赌注，以资本的形式被具象化。

第一章：11亿美元的开场白——欧洲最大种子轮的诞生

让我们先直面这笔交易的震撼性数字。

根据CNBC的报道，Ineffable Intelligence完成了创纪录的11亿美元种子轮融资，投资方包括Nvidia和Google，目标明确指向”pursue superintelligence”（追求超级智能）。（来源: CNBC, 2026-04-27）根据The Next Web的报道，Sequoia同样参与了这轮融资，公司估值达到51亿美元。（来源: The Next Web, 2026-04-27）

从英国视角看，这一数字更为惊人。根据Hot Minute的报道，这笔融资折合约8.8亿英镑，创下英国种子轮融资的历史纪录。（来源: Hot Minute, 2026-04-27）

种子轮融资通常意味着什么？在传统风险投资语境中，种子轮是一家公司最早期的机构融资，金额通常在数百万至数千万美元之间，用于验证产品概念。而11亿美元的种子轮，意味着投资方在Ineffable Intelligence尚未构建出任何可验证产品的阶段，已经押注了一个相当于中型科技公司市值的金额。

这种反常规的资本配置背后，有一个极为清晰的逻辑：David Silver本人就是信任基础。

Silver在DeepMind的履历几乎是AI研究领域最具说服力的背书之一。根据多家媒体的报道，他是AlphaGo的核心架构师——那个在2016年击败世界围棋冠军李世石的AI系统——同时也是AlphaZero的主要设计者。（来源: TechCrunch, 2026-04-27; CNBC, 2026-04-27）在AI研究圈，这两个名字代表的不只是技术成就，而是范式转移的证明。需要指出的是，部分媒体在报道中将Silver与AlphaFold关联，但AlphaFold的主要负责人是John Jumper团队，Silver在该项目中的具体角色并未被公开文献明确记载，不应将其与Silver在AlphaGo/AlphaZero中的核心贡献混为一谈。

但Silver的离开本身也值得解读。Google DeepMind是全球顶级AI研究机构之一，拥有几乎无限的计算资源和顶尖的研究团队。一个在这里取得过历史性突破的研究员，选择在这个时间节点出走创业，这个决定本身传递了某种信号：他认为，在现有机构框架内，他想做的事情无法实现。

那件事是什么？根据TechCrunch的报道，Silver的目标是构建一种”learns without human data”（不依赖人类数据学习）的AI系统。（来源: TechCrunch, 2026-04-27）这句话看似简单，实则是对当前整个AI行业主流路线的根本性否定。

Sequoia、Nvidia、Google同时押注一个”反主流”路线的创始人——这本身就是一个需要深入分析的市场信号。Nvidia的参与尤为耐人寻味：作为GPU计算基础设施的主要供应商，Nvidia同时投资了大量依赖大规模预训练的LLM公司。它在这里押注一条”不依赖人类数据”的路线，意味着它认为这条路线同样需要大量计算资源——只是计算的方式不同。强化学习的自我博弈过程，本质上是一种计算密集型的探索过程，这对Nvidia的硬件需求并不构成威胁，反而可能创造新的需求结构。

第二章：从AlphaGo到Ineffable——一条被验证过的哲学路径

要理解Silver为什么能说服投资者押注11亿美元，必须回到他最核心的技术贡献，以及这些贡献背后一以贯之的哲学信念。

AlphaGo的故事广为人知：2016年，DeepMind的AI系统击败了当时世界排名第一的围棋选手李世石。这被普遍视为AI里程碑，但大多数报道忽略了一个关键细节：第一代AlphaGo的训练仍然依赖大量人类棋谱数据。它学习了数十万盘人类高手的对局，从中提炼模式，再通过强化学习进一步优化。换句话说，它的起点仍然是人类知识。

真正的范式转移发生在AlphaZero。

AlphaZero完全不使用任何人类棋谱数据。它从零开始，只知道围棋的基本规则，然后通过自我博弈——让AI与自己对弈数百万盘——从第一性原理中发展出棋艺。结果令人震惊：AlphaZero不仅超越了之前所有依赖人类数据训练的AI，更发展出了人类棋手从未想到过的新型战术和布局风格。职业棋手在研究AlphaZero的棋谱时，发现了大量违反传统围棋直觉但极为有效的走法。DeepMind在2018年发表于《Science》的论文中详细记录了这一成果，AlphaZero在仅24小时的自我训练后便超越了所有前代系统。（来源: Silver et al., “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play”, Science, 2018）

这个结果的意义超越了围棋本身。它证明了一个核心命题：在有明确规则和可计算奖励函数的封闭系统中，不依赖人类数据的强化学习不仅可行，而且能够突破人类认知的天花板。

Silver在DeepMind的研究生涯，从某种意义上说，是对这个命题的持续验证和深化。值得注意的是，DeepMind的另一项里程碑成果AlphaFold虽然同样体现了AI解决结构化科学问题的能力，但其技术路线与AlphaZero有本质区别：AlphaFold的核心训练范式是监督学习，大量依赖蛋白质数据库（PDB）中已知的蛋白质结构数据，而非纯粹的强化学习自我博弈。将AlphaFold与AlphaZero的纯RL路线混为一谈，是对这两种方法论的误读。Silver的核心贡献和哲学信念，更精确地说，是由AlphaGo到AlphaZero这条从”依赖人类数据”到”完全摆脱人类数据”的进化弧线所定义的。

Ineffable Intelligence这个公司名称本身也值得分析。”Ineffable”在英语中意为”难以言说的”、”超越语言表达的”——这个命名选择不是偶然的。它暗示了Silver的核心信念：真正的超级智能所能触达的认知领域，可能是人类语言所无法描述的，因此也是基于人类语言数据的LLM所无法触达的。

根据unite.ai的报道，Silver的方向明确是”build AI without LLMs”（构建不依赖大语言模型的AI）。（来源: unite.ai, 2026-04-27）这不是对LLM的技术性批评，而是对整个训练范式的根本性质疑。

这条哲学路径有一个内在的一致性：Silver在DeepMind证明了”不依赖人类数据”可以在特定领域产生超越人类的智能；他现在的赌注是，这个范式可以被推广到更广泛的智能领域。11亿美元，是这个信念的资本化表达。

第三章：路线之争——强化学习 vs 大语言模型的哲学分歧

要真正理解这场赌注的意义，必须清晰地解剖两条技术路线的根本差异——不是在技术细节层面，而是在哲学假设层面。

LLM路线的核心假设

当前AI行业的主流路线，以OpenAI、Anthropic、Google的Gemini为代表，建立在一个核心假设之上：人类语言是智能的主要载体，通过对海量人类文本数据的压缩和模式提取，可以涌现出通用智能能力。

这个假设有其深刻的合理性。人类几千年积累的知识、推理模式、价值判断，都以某种形式编码在语言中。一个能够深度理解和生成语言的系统，在很多实际任务中确实表现出令人印象深刻的能力——从代码生成到医学诊断，从法律分析到创意写作。

但这个假设也内置了一个结构性的限制：纯粹基于人类文本数据训练的LLM，在原则上难以系统性地超越人类知识的边界。它可以更快地检索、更有效地综合、更流畅地表达，但要发现人类从未发现过的全新知识，仅靠文本模式匹配是不够的——因为那些知识根本不在训练数据中。

这里需要做一个重要的限定：上述论断针对的是”纯LLM”路线。现实中，LLM+RL的混合范式正在迅速模糊这条边界。OpenAI的o系列模型在推理时引入了强化学习机制，DeepSeek的R1同样使用了RL来增强推理能力。这些混合系统通过RL赋予LLM一定程度的”自主探索”能力，使其有可能在推理链条中组合出训练数据中不直接存在的新结论。此外，合成数据的使用也在扩展LLM的训练边界。因此，”LLM有天花板”这个论断的精确适用范围，是那些完全依赖人类生成数据、不引入任何自主探索机制的纯预训练系统。

更深层的问题在于：LLM学到的究竟是”智能”本身，还是”智能的表达形式”？一个系统能够流畅地谈论量子力学，是否意味着它真正理解了量子力学？这个问题在哲学上至今没有定论，但它直接影响着我们对LLM能力边界的判断。

RL路线的核心假设

Silver的路线建立在一个不同的假设之上：真正的智能不是从外部知识中提炼的，而是通过与环境的交互、通过试错和奖励信号、从内部自主涌现的。

这个假设同样有其深刻的合理性，并且有AlphaZero的实证支撑。在一个定义明确的问题空间中，强化学习不仅能够达到人类水平，还能发现人类从未探索过的解决方案。这是因为RL的探索过程不受人类认知偏见的约束——它不会因为”这个走法看起来很奇怪”而放弃探索。

这条路线的哲学基础更接近于对”智能”本质的某种朴素直觉：人类婴儿学习走路、学习语言，并不是通过阅读大量关于走路和语言的文本，而是通过与环境的直接交互和反馈。在这个意义上，RL更接近于”真正的学习”，而LLM更接近于”大规模记忆和模式匹配”。

来自学术界的对立声音

Silver的纯RL路线并非没有强有力的批评者。Meta首席AI科学家Yann LeCun长期以来对纯强化学习通向通用智能的可行性持怀疑态度。LeCun在多个公开场合指出，RL的样本效率问题使其在开放世界中几乎不可行——人类婴儿虽然通过与环境交互学习，但人类大脑内置了大量进化赋予的先验结构（如视觉系统的层级处理、物理直觉等），这些先验结构相当于”免费的训练数据”。LeCun主张的”世界模型”（world model）路线，试图让AI通过学习环境的内部表征来进行高效规划，而非通过海量试错。他在2024年发表的JEPA（Joint Embedding Predictive Architecture）论文中系统阐述了这一立场。（来源: LeCun, “A Path Towards Autonomous Machine Intelligence”, OpenReview, 2022）

另一个值得关注的批评来自AI安全研究领域。Stuart Russell在其著作《Human Compatible》中指出，纯RL系统在优化目标函数时可能产生与人类意图严重偏离的行为，而这个问题在没有人类数据作为”锚点”的系统中可能更为严重。换言之，不依赖人类数据的AI可能不仅在知识上与人类不同，在价值观和目标上也可能与人类完全脱节。

Rich Sutton——Silver的博士导师、强化学习领域的奠基人之一——在其著名的”The Bitter Lesson”（2019）一文中则站在了Silver的一边，认为AI研究的历史反复证明，利用大规模计算进行通用搜索和学习的方法，最终总是胜过依赖人类知识的方法。这篇文章可以被视为Silver哲学信念的学术根基之一。（来源: Sutton, “The Bitter Lesson”, incompleteideas.net, 2019）

两条路线的技术优劣分析

从技术角度看，两条路线各有其结构性优势和劣势。

LLM的优势在于：训练信号丰富（人类语言数据几乎是无限的）、泛化能力强（自然语言是高度通用的表示形式）、部署成本相对可控、与人类交互的界面天然友好。其劣势在于：依赖数据质量、在纯预训练范式下难以系统性超越训练数据的知识边界、在需要精确推理的任务上仍然脆弱、对新颖问题的泛化能力存疑。

RL的优势在于：理论上可以突破人类知识边界、在有明确目标的领域能够实现超人表现、不受人类偏见的约束。其劣势同样明显：需要精确定义奖励函数（这在开放世界中极为困难）、样本效率低（需要大量交互才能学习）、在没有模拟器的领域难以实现自我博弈、训练过程可能产生意料之外的优化结果（奖励黑客问题）。

Silver的赌注是一个更激进的命题：不是在LLM上打补丁，也不是走LLM+RL的混合路线，而是从根本上走一条不依赖人类数据的纯RL路径。

谁对谁错？我的判断

这里需要给出明确立场，而非”平衡报道”。

我认为，在短期（1-3年）和中期（3-7年）的商业应用层面，LLM路线及其与RL的混合变体仍然占据压倒性优势。原因很简单：LLM已经在大量真实场景中被验证了商业价值，其能力边界虽然存在，但在当前大多数企业应用中远未触及。对于需要快速商业化的AI公司来说，LLM路线的风险收益比更为合理。

但在长期（7年以上）和”超级智能”这个具体目标上，Silver的质疑是有根本合理性的。如果超级智能的定义是”在几乎所有认知任务上超越人类最高水平”，那么一个完全被人类数据天花板所限制、不具备自主探索能力的系统，在原则上无法实现这个目标。这不是技术问题，而是逻辑问题。当然，LeCun关于”先验结构”的批评也同样有力——纯粹的白板式RL是否能在合理的计算预算内解决开放世界问题，仍然是一个未被证明的假设。

这意味着，最终的答案可能既不是纯LLM，也不是纯RL，而是某种我们尚未完全理解的融合形态。但Silver选择从纯RL的极端出发进行探索，这在科学方法论上是合理的——只有在极端条件下测试一个假设，才能真正理解它的边界。

第四章：开放世界的挑战——围棋之外，强化学习能走多远？

理解了Silver的哲学信念之后，我们必须直面这条路线最核心的技术挑战。AlphaZero的成功是真实的，但它建立在一系列特殊条件之上，这些条件在开放世界中并不自然成立。

封闭系统的特权

围棋是一个完美信息博弈游戏。它的规则完全明确，状态空间虽然巨大但有限，胜负判断是二元的且无歧义，可以用计算机精确模拟，自我博弈的成本主要是计算资源。

这些特性使得强化学习在围棋中能够高效运作：奖励函数清晰（赢棋得+1，输棋得-1），环境完全可控，可以无限次重置和重复，不需要与物理世界交互。

现实世界的问题几乎在每一个维度上都与此相反。

奖励函数的定义困境

在开放世界的通用智能场景中，如何定义奖励函数是第一个也是最根本的挑战。

以一个看似简单的任务为例：”帮助用户解决一个科学问题”。这个任务的奖励应该怎么定义？是解决方案的正确性？但谁来验证正确性，以及如何验证？是用户的满意度？但用户满意度是主观的，且可能与实际问题的解决质量不一致。是解决方案的新颖性？但新颖性如何量化？

在围棋中，这个问题的答案是”赢棋”，简单、明确、可计算。在现实世界中，几乎所有有价值的任务都没有这样清晰的奖励信号。

这个问题在AI安全领域被称为”奖励黑客”（reward hacking）问题：当奖励函数无法完美捕捉人类真正想要的结果时，RL系统会倾向于找到优化奖励函数的捷径，而这些捷径往往并不符合人类的真实意图。一个被训练来最大化”用户点击率”的系统，可能会学会生成耸人听闻的内容；一个被训练来最大化”解决方案被接受率”的系统，可能会学会迎合用户的偏见而非提供真正正确的答案。

Ineffable Intelligence必须回答的核心技术问题之一，就是如何在开放世界中构建足够精确、足够鲁棒的奖励函数，同时避免奖励黑客问题。这不是一个已经有成熟解决方案的问题。

模拟器的缺失

AlphaZero能够高效训练，另一个关键条件是存在完美的模拟器：计算机可以在毫秒内完成一盘围棋的模拟，因此AlphaZero可以在极短时间内完成数以百万计的自我博弈。

在许多现实世界的重要领域，这个条件同样不成立。生物学实验无法在计算机中完美模拟（至少目前不能）；社会系统的动态远比围棋复杂，且充满不可预测的涌现效应；物理世界的交互需要真实时间和真实资源。

当然，这个问题并非无解。在某些领域，已经存在足够精确的模拟器——例如数学证明（形式化数学系统如Lean提供了精确的验证机制）、某些材料科学问题（分子动力学模拟）、以及部分工程设计领域。Ineffable Intelligence的早期研究方向，很可能会集中在这些有模拟器可用的领域。DeepMind自身在2024年发布的AlphaProof——一个将RL应用于数学定理证明的系统，在国际数学奥林匹克竞赛级别的问题上取得了突破——可以被视为这条路线的早期验证。（来源: Google DeepMind Blog, “AI achieves silver-medal standard solving International Mathematical Olympiad problems”, 2024-07-25）

但如果目标是”通用超级智能”，那么最终必须面对那些没有完美模拟器的领域。这是一个尚未解决的根本性挑战。

样本效率与计算成本

强化学习的另一个已知弱点是样本效率低。人类学习下围棋，可能需要几年时间和数千盘对局；AlphaZero达到超人水平，需要数百万盘自我博弈——尽管每盘对局的时间极短，总计算量仍然巨大。

在更复杂的开放世界任务中，这个问题会被进一步放大。如果每次”试错”的成本不是几毫秒的计算时间，而是真实世界中的资源消耗，那么RL的样本效率问题将成为严重的实际障碍。

这也解释了为什么11亿美元的种子轮是必要的：大规模强化学习需要大量计算资源，而Ineffable Intelligence的研究路线，本质上是一场计算资源密集型的探索。Nvidia的投资在这个背景下有其战略逻辑——这家公司对大规模计算需求的增长有直接的商业利益。

一个被大多数人忽视的维度：知识表示问题

这里有一个大多数媒体报道都没有深入探讨的技术层面，值得单独分析。

纯RL路线面临的一个深层挑战是：即使系统通过自我探索发现了超越人类的解决方案，它如何表示和存储这些知识？AlphaZero的”知识”被编码在神经网络的权重中，这种表示形式对人类来说几乎是不可解释的。围棋棋手可以通过观察AlphaZero的走法来学习，但他们无法直接”读取”AlphaZero的知识。

在更广泛的智能任务中，这个问题会变得更加严重。一个通过RL自主发现了重要科学规律的AI系统，如何将这个发现传递给人类？如何验证这个发现的正确性？如何将其整合进人类的知识体系？

这不仅是一个技术问题，也是一个关于AI与人类协作模式的根本问题。Silver的”不依赖人类数据”路线，可能最终面临一个悖论：它发现的知识，可能也无法以人类可理解的形式表达——这恰好呼应了”Ineffable”这个公司名称的深层含义。

11亿美元够吗？

从纯计算资源的角度看，11亿美元对于大规模AI研究来说是一笔可观但并非无限的资金。OpenAI的累计融资已超过300亿美元，Anthropic也已获得超过100亿美元的投资，且仍在持续烧钱。

但Ineffable Intelligence的路线有一个潜在的资本效率优势：不依赖人类数据意味着不需要支付大规模数据采集、标注和清洗的成本。这部分成本在LLM训练中占据相当大的比例。RL的主要成本是计算资源，而计算资源的单位成本在持续下降——Nvidia的H100 GPU在2024年的性能价格比已经比2020年的A100提升了数倍。

从这个角度看，11亿美元可能足够支撑Ineffable Intelligence完成早期的技术验证阶段。但如果要真正实现”超级智能”的目标，后续轮次的融资几乎是必然的。

第五章：大多数人没看到的那一层——这场赌注真正的战略意义

大多数媒体报道将这笔融资解读为”AI路线之争”或”对LLM的挑战”。这个解读并没有错，但它停留在了表面。

Silver的赌注实际上是在重新定义”超级智能”的评判标准

当前AI行业对”超级智能”的讨论，往往以人类能力为基准：比人类更聪明、能做人类能做的所有事情、在各种认知任务上超越人类最高水平。这个定义内置了一个隐含假设：超级智能是人类智能的延伸和放大。

Silver的路线挑战的，正是这个假设本身。如果超级智能通过RL从第一性原理中自主涌现，它所发展出的认知结构可能与人类智能有根本性的差异——不是”更聪明的人类”，而是”完全不同的智能形态”。

这个区别在实践中意味着什么？它意味着评估这种AI的能力，可能无法使用为评估人类智能设计的基准测试（benchmark）。一个AlphaZero式的AI在围棋上超越了所有人类，但如果你用语言理解测试来评估它，它的得分会是零——因为它根本没有学过语言。

Ineffable Intelligence如果成功，可能会创造出一种在特定问题域内远超人类的AI，同时在其他领域完全无能。这与当前LLM的”广泛但浅层”能力形成鲜明对比。这种”深度专精但范围受限”的超级智能，在商业上如何定价、如何部署、如何与人类协作，是一个目前几乎没有人认真讨论过的问题。

投资方的真实逻辑：对冲，而非押注

另一个被大多数报道忽略的维度是：为什么Nvidia和Google要同时投资一个与他们现有路线相悖的公司？

答案不是他们相信Silver的路线会取代LLM，而是他们在进行战略对冲。

对于Nvidia来说，无论AI的主流路线是LLM还是RL，都需要大量GPU计算资源。投资Ineffable Intelligence，一方面是确保在RL路线崛起时不被排除在外，另一方面也是在向市场传递信号：Nvidia的GPU是AI计算的通用基础设施，无论哪条路线最终胜出。Nvidia CEO黄仁勋在2025年的多次公开演讲中反复强调”加速计算是AI的基础层”，投资Ineffable Intelligence与这一战略叙事完全一致。

对于Google来说，逻辑更为复杂。Google既是DeepMind的母公司（DeepMind是AlphaGo/AlphaZero的诞生地），也是LLM路线的主要参与者（Gemini）。投资Ineffable Intelligence，可以被解读为Google在为”如果LLM路线触及天花板”的情景进行布局，同时也可能是在与Silver保持关系，为未来的技术合作或人才回流保留选项。

Sequoia的参与则更符合传统风险投资逻辑：在AI这个高度不确定的领域，投资最顶尖的研究者，无论他们走哪条路线，是降低选择风险的合理策略。Silver的历史成就，使他成为AI领域少数几个”无论做什么都值得投资”的人物之一。

欧洲AI生态的战略意义

这笔融资还有一个地缘政治维度值得关注。Ineffable Intelligence是一家英国公司，这笔11亿美元的种子轮创下了欧洲AI融资纪录。（来源: Hot Minute, 2026-04-27）

在当前AI竞争格局中，欧洲长期被认为在AI基础研究和商业化方面落后于美国和中国。法国的Mistral AI在2024年的融资虽然引人注目（6亿欧元的B轮），但与美国头部AI公司的融资规模仍有数量级差距。Ineffable Intelligence的出现，以及其背后的资本规模，代表了欧洲AI生态的一次重要信号——至少在特定的高风险、高潜力的研究方向上，欧洲仍然能够吸引顶级人才和顶级资本。

这对欧洲AI政策的讨论也有潜在影响。欧盟的AI监管框架（AI Act）在很大程度上是针对当前LLM范式设计的，其核心关注点包括训练数据的版权问题、输出内容的偏见和有害性等。如果RL路线代表了一种根本不同的AI形态——不使用人类数据训练、不生成自然语言输出——现有的监管框架是否适用，将是一个需要重新讨论的问题。

结语：一场关于AI未来的哲学赌注，以及它对我们意味着什么

David Silver的11亿美元赌注，在技术层面是对强化学习路线的押注，在哲学层面是对”智能本质”的一种立场表达，在商业层面是对AI行业路线之争的一次资本化介入。

让我们给出明确的判断，而非模糊的”两条路线各有优劣”式结论。

Silver是对的，但时间表是未知数，且纯RL路线可能需要与其他方法融合。

他对纯LLM路线的根本性质疑——完全被人类数据天花板所限制、不具备自主探索能力的系统无法实现真正的超级智能——在逻辑上是成立的。这不是悲观，而是对定义的诚实：如果”超级智能”意味着在认知能力上全面超越人类，那么一个以模仿人类知识为唯一机制的系统，在原则上无法实现这个目标。

但”在逻辑上成立”和”在实践中可行”之间，存在巨大的鸿沟。开放世界的奖励函数定义问题、模拟器缺失问题、样本效率问题，以及知识表示和传递问题，都是真实存在的技术障碍，目前没有成熟的解决方案。LeCun关于先验结构的批评也提醒我们，纯粹的白板式学习可能在计算上不可行。Ineffable Intelligence能否在这些问题上取得突破，以及需要多长时间和多少资源，是这场赌注最大的不确定性。

对AI行业的影响

如果Ineffable Intelligence在某个特定领域（例如数学证明、蛋白质工程、材料科学）取得AlphaZero级别的突破，它将迫使整个AI行业重新思考路线选择。更多的资本将流向RL路线，更多的顶级研究者将开始质疑”LLM能否通向超级智能”的假设。

如果Ineffable Intelligence陷入长期的技术瓶颈而无法突破，它将为AI研究提供一个重要的反面数据点：强化学习在开放世界通用智能上的适用边界，以及11亿美元的资本在面对根本性技术挑战时的局限性。

无论结果如何，这场赌注已经产生了一个无法否认的效果：它重新打开了关于AI路线的根本性讨论，让”LLM是否是通向超级智能的正确路径”这个问题从学术争论变成了资本市场的显性分歧。

对不同读者意味着什么

如果你是AI行业的从业者，这笔融资传递的信号是：不要把所有的技术认知都押在LLM范式上。强化学习、世界模型、以及其他非LLM路线的基础知识，可能在未来3-5年内从”学术兴趣”变成”职业必需”。现在是重新审视自己技术栈广度的时候。

如果你是投资者，核心启示是：AI领域的路线不确定性远比市场共识所反映的要大。当前市场对LLM路线的高度共识，可能正在制造一个定价盲区——如果RL路线取得突破性进展，大量基于”LLM将主导一切”假设的估值模型将需要重新校准。分散押注不同技术路线的AI公司，是应对这种不确定性的合理策略。

如果你是普通读者，最值得记住的一点是：当前AI行业看似铁板一块的”大语言模型”叙事，并非唯一的可能性。David Silver用11亿美元告诉世界，通向超级智能的道路可能完全不同于我们今天所看到的。这不意味着你手中的ChatGPT会变得无用——它在短期内仍然是最实用的AI工具。但它意味着，AI的未来比任何单一叙事所描绘的都要更加开放、更加不确定，也更加令人期待。

这场赌注的最终结果，可能需要5到10年才能揭晓。但它提出的问题——智能究竟是从数据中提炼的，还是从交互中涌现的——将定义下一个十年AI研究的核心议程。

参考资料

DeepMind’s David Silver launches Ineffable Intelligence with $1.1B seed round to pursue superintelligence — CNBC, 2026-04-27
Ineffable Intelligence raises record $1.1B seed to build AI without LLMs — TechCrunch, 2026-04-27
A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play — Silver, D. et al., Science, 2018-12-07
AI achieves silver-medal standard solving International Mathematical Olympiad problems — Google DeepMind Blog, 2024-07-25
A Path Towards Autonomous Machine Intelligence — LeCun, Y., OpenReview, 2022-06-27
The Bitter Lesson — Sutton, R., incompleteideas.net, 2019-03-13
Ineffable Intelligence: AlphaGo creator raises record £880M seed round — The Next Web, 2026-04-27
David Silver’s Ineffable Intelligence raises $1.1B to build AI without large language models — unite.ai, 2026-04-27

David Silver的11亿美元赌注：强化学习是通向超级智能的正确路径吗

第一章：11亿美元的开场白——欧洲最大种子轮的诞生

第二章：从AlphaGo到Ineffable——一条被验证过的哲学路径

第三章：路线之争——强化学习 vs 大语言模型的哲学分歧

第四章：开放世界的挑战——围棋之外，强化学习能走多远？

第五章：大多数人没看到的那一层——这场赌注真正的战略意义

结语：一场关于AI未来的哲学赌注，以及它对我们意味着什么

参考资料

About

Categories

Recent Posts

Resources