David Silver的11亿美元赌注:强化学习是通向超级智能的正确路径吗
2026年4月27日,一家没有公开产品、没有收入记录的初创公司完成了欧洲AI史上最大的种子轮融资——11亿美元。这家公司叫Ineffable Intelligence,其创始人David Silver是AlphaGo和AlphaZero的核心架构师。投资方名单包括Nvidia、Google和Sequoia。估值定格在51亿美元。
这不是一笔普通的风险投资。这是一场关于”智能的本质是什么”的哲学赌注,以资本的形式被具象化。
第一章:11亿美元的开场白——欧洲最大种子轮的诞生
让我们先直面这笔交易的震撼性数字。
根据CNBC的报道,Ineffable Intelligence完成了创纪录的11亿美元种子轮融资,投资方包括Nvidia和Google,目标明确指向”pursue superintelligence”(追求超级智能)。(来源: CNBC, 2026-04-27)根据The Next Web的报道,Sequoia同样参与了这轮融资,公司估值达到51亿美元。(来源: The Next Web, 2026-04-27)
从英国视角看,这一数字更为惊人。根据Hot Minute的报道,这笔融资折合约8.8亿英镑,创下英国种子轮融资的历史纪录。(来源: Hot Minute, 2026-04-27)
种子轮融资通常意味着什么?在传统风险投资语境中,种子轮是一家公司最早期的机构融资,金额通常在数百万至数千万美元之间,用于验证产品概念。而11亿美元的种子轮,意味着投资方在Ineffable Intelligence尚未构建出任何可验证产品的阶段,已经押注了一个相当于中型科技公司市值的金额。
这种反常规的资本配置背后,有一个极为清晰的逻辑:David Silver本人就是信任基础。
Silver在DeepMind的履历几乎是AI研究领域最具说服力的背书之一。根据多家媒体的报道,他是AlphaGo的核心架构师——那个在2016年击败世界围棋冠军李世石的AI系统——同时也是AlphaZero的主要设计者。(来源: TechCrunch, 2026-04-27; CNBC, 2026-04-27)在AI研究圈,这两个名字代表的不只是技术成就,而是范式转移的证明。需要指出的是,部分媒体在报道中将Silver与AlphaFold关联,但AlphaFold的主要负责人是John Jumper团队,Silver在该项目中的具体角色并未被公开文献明确记载,不应将其与Silver在AlphaGo/AlphaZero中的核心贡献混为一谈。
但Silver的离开本身也值得解读。Google DeepMind是全球顶级AI研究机构之一,拥有几乎无限的计算资源和顶尖的研究团队。一个在这里取得过历史性突破的研究员,选择在这个时间节点出走创业,这个决定本身传递了某种信号:他认为,在现有机构框架内,他想做的事情无法实现。
那件事是什么?根据TechCrunch的报道,Silver的目标是构建一种”learns without human data”(不依赖人类数据学习)的AI系统。(来源: TechCrunch, 2026-04-27)这句话看似简单,实则是对当前整个AI行业主流路线的根本性否定。
Sequoia、Nvidia、Google同时押注一个”反主流”路线的创始人——这本身就是一个需要深入分析的市场信号。Nvidia的参与尤为耐人寻味:作为GPU计算基础设施的主要供应商,Nvidia同时投资了大量依赖大规模预训练的LLM公司。它在这里押注一条”不依赖人类数据”的路线,意味着它认为这条路线同样需要大量计算资源——只是计算的方式不同。强化学习的自我博弈过程,本质上是一种计算密集型的探索过程,这对Nvidia的硬件需求并不构成威胁,反而可能创造新的需求结构。
第二章:从AlphaGo到Ineffable——一条被验证过的哲学路径
要理解Silver为什么能说服投资者押注11亿美元,必须回到他最核心的技术贡献,以及这些贡献背后一以贯之的哲学信念。
AlphaGo的故事广为人知:2016年,DeepMind的AI系统击败了当时世界排名第一的围棋选手李世石。这被普遍视为AI里程碑,但大多数报道忽略了一个关键细节:第一代AlphaGo的训练仍然依赖大量人类棋谱数据。它学习了数十万盘人类高手的对局,从中提炼模式,再通过强化学习进一步优化。换句话说,它的起点仍然是人类知识。
真正的范式转移发生在AlphaZero。
AlphaZero完全不使用任何人类棋谱数据。它从零开始,只知道围棋的基本规则,然后通过自我博弈——让AI与自己对弈数百万盘——从第一性原理中发展出棋艺。结果令人震惊:AlphaZero不仅超越了之前所有依赖人类数据训练的AI,更发展出了人类棋手从未想到过的新型战术和布局风格。职业棋手在研究AlphaZero的棋谱时,发现了大量违反传统围棋直觉但极为有效的走法。DeepMind在2018年发表于《Science》的论文中详细记录了这一成果,AlphaZero在仅24小时的自我训练后便超越了所有前代系统。(来源: Silver et al., “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play”, Science, 2018)
这个结果的意义超越了围棋本身。它证明了一个核心命题:在有明确规则和可计算奖励函数的封闭系统中,不依赖人类数据的强化学习不仅可行,而且能够突破人类认知的天花板。
Silver在DeepMind的研究生涯,从某种意义上说,是对这个命题的持续验证和深化。值得注意的是,DeepMind的另一项里程碑成果AlphaFold虽然同样体现了AI解决结构化科学问题的能力,但其技术路线与AlphaZero有本质区别:AlphaFold的核心训练范式是监督学习,大量依赖蛋白质数据库(PDB)中已知的蛋白质结构数据,而非纯粹的强化学习自我博弈。将AlphaFold与AlphaZero的纯RL路线混为一谈,是对这两种方法论的误读。Silver的核心贡献和哲学信念,更精确地说,是由AlphaGo到AlphaZero这条从”依赖人类数据”到”完全摆脱人类数据”的进化弧线所定义的。
Ineffable Intelligence这个公司名称本身也值得分析。”Ineffable”在英语中意为”难以言说的”、”超越语言表达的”——这个命名选择不是偶然的。它暗示了Silver的核心信念:真正的超级智能所能触达的认知领域,可能是人类语言所无法描述的,因此也是基于人类语言数据的LLM所无法触达的。
根据unite.ai的报道,Silver的方向明确是”build AI without LLMs”(构建不依赖大语言模型的AI)。(来源: unite.ai, 2026-04-27)这不是对LLM的技术性批评,而是对整个训练范式的根本性质疑。
这条哲学路径有一个内在的一致性:Silver在DeepMind证明了”不依赖人类数据”可以在特定领域产生超越人类的智能;他现在的赌注是,这个范式可以被推广到更广泛的智能领域。11亿美元,是这个信念的资本化表达。
第三章:路线之争——强化学习 vs 大语言模型的哲学分歧
要真正理解这场赌注的意义,必须清晰地解剖两条技术路线的根本差异——不是在技术细节层面,而是在哲学假设层面。
LLM路线的核心假设
当前AI行业的主流路线,以OpenAI、Anthropic、Google的Gemini为代表,建立在一个核心假设之上:人类语言是智能的主要载体,通过对海量人类文本数据的压缩和模式提取,可以涌现出通用智能能力。
这个假设有其深刻的合理性。人类几千年积累的知识、推理模式、价值判断,都以某种形式编码在语言中。一个能够深度理解和生成语言的系统,在很多实际任务中确实表现出令人印象深刻的能力——从代码生成到医学诊断,从法律分析到创意写作。
但这个假设也内置了一个结构性的限制:纯粹基于人类文本数据训练的LLM,在原则上难以系统性地超越人类知识的边界。它可以更快地检索、更有效地综合、更流畅地表达,但要发现人类从未发现过的全新知识,仅靠文本模式匹配是不够的——因为那些知识根本不在训练数据中。
这里需要做一个重要的限定:上述论断针对的是”纯LLM”路线。现实中,LLM+RL的混合范式正在迅速模糊这条边界。OpenAI的o系列模型在推理时引入了强化学习机制,DeepSeek的R1同样使用了RL来增强推理能力。这些混合系统通过RL赋予LLM一定程度的”自主探索”能力,使其有可能在推理链条中组合出训练数据中不直接存在的新结论。此外,合成数据的使用也在扩展LLM的训练边界。因此,”LLM有天花板”这个论断的精确适用范围,是那些完全依赖人类生成数据、不引入任何自主探索机制的纯预训练系统。
更深层的问题在于:LLM学到的究竟是”智能”本身,还是”智能的表达形式”?一个系统能够流畅地谈论量子力学,是否意味着它真正理解了量子力学?这个问题在哲学上至今没有定论,但它直接影响着我们对LLM能力边界的判断。
RL路线的核心假设
Silver的路线建立在一个不同的假设之上:真正的智能不是从外部知识中提炼的,而是通过与环境的交互、通过试错和奖励信号、从内部自主涌现的。
这个假设同样有其深刻的合理性,并且有AlphaZero的实证支撑。在一个定义明确的问题空间中,强化学习不仅能够达到人类水平,还能发现人类从未探索过的解决方案。这是因为RL的探索过程不受人类认知偏见的约束——它不会因为”这个走法看起来很奇怪”而放弃探索。
这条路线的哲学基础更接近于对”智能”本质的某种朴素直觉:人类婴儿学习走路、学习语言,并不是通过阅读大量关于走路和语言的文本,而是通过与环境的直接交互和反馈。在这个意义上,RL更接近于”真正的学习”,而LLM更接近于”大规模记忆和模式匹配”。
来自学术界的对立声音
Silver的纯RL路线并非没有强有力的批评者。Meta首席AI科学家Yann LeCun长期以来对纯强化学习通向通用智能的可行性持怀疑态度。LeCun在多个公开场合指出,RL的样本效率问题使其在开放世界中几乎不可行——人类婴儿虽然通过与环境交互学习,但人类大脑内置了大量进化赋予的先验结构(如视觉系统的层级处理、物理直觉等),这些先验结构相当于”免费的训练数据”。LeCun主张的”世界模型”(world model)路线,试图让AI通过学习环境的内部表征来进行高效规划,而非通过海量试错。他在2024年发表的JEPA(Joint Embedding Predictive Architecture)论文中系统阐述了这一立场。(来源: LeCun, “A Path Towards Autonomous Machine Intelligence”, OpenReview, 2022)
另一个值得关注的批评来自AI安全研究领域。Stuart Russell在其著作《Human Compatible》中指出,纯RL系统在优化目标函数时可能产生与人类意图严重偏离的行为,而这个问题在没有人类数据作为”锚点”的系统中可能更为严重。换言之,不依赖人类数据的AI可能不仅在知识上与人类不同,在价值观和目标上也可能与人类完全脱节。
Rich Sutton——Silver的博士导师、强化学习领域的奠基人之一——在其著名的”The Bitter Lesson”(2019)一文中则站在了Silver的一边,认为AI研究的历史反复证明,利用大规模计算进行通用搜索和学习的方法,最终总是胜过依赖人类知识的方法。这篇文章可以被视为Silver哲学信念的学术根基之一。(来源: Sutton, “The Bitter Lesson”, incompleteideas.net, 2019)
两条路线的技术优劣分析
从技术角度看,两条路线各有其结构性优势和劣势。
LLM的优势在于:训练信号丰富(人类语言数据几乎是无限的)、泛化能力强(自然语言是高度通用的表示形式)、部署成本相对可控、与人类交互的界面天然友好。其劣势在于:依赖数据质量、在纯预训练范式下难以系统性超越训练数据的知识边界、在需要精确推理的任务上仍然脆弱、对新颖问题的泛化能力存疑。
RL的优势在于:理论上可以突破人类知识边界、在有明确目标的领域能够实现超人表现、不受人类偏见的约束。其劣势同样明显:需要精确定义奖励函数(这在开放世界中极为困难)、样本效率低(需要大量交互才能学习)、在没有模拟器的领域难以实现自我博弈、训练过程可能产生意料之外的优化结果(奖励黑客问题)。
Silver的赌注是一个更激进的命题:不是在LLM上打补丁,也不是走LLM+RL的混合路线,而是从根本上走一条不依赖人类数据的纯RL路径。
谁对谁错?我的判断
这里需要给出明确立场,而非”平衡报道”。
我认为,在短期(1-3年)和中期(3-7年)的商业应用层面,LLM路线及其与RL的混合变体仍然占据压倒性优势。原因很简单:LLM已经在大量真实场景中被验证了商业价值,其能力边界虽然存在,但在当前大多数企业应用中远未触及。对于需要快速商业化的AI公司来说,LLM路线的风险收益比更为合理。
但在长期(7年以上)和”超级智能”这个具体目标上,Silver的质疑是有根本合理性的。如果超级智能的定义是”在几乎所有认知任务上超越人类最高水平”,那么一个完全被人类数据天花板所限制、不具备自主探索能力的系统,在原则上无法实现这个目标。这不是技术问题,而是逻辑问题。当然,LeCun关于”先验结构”的批评也同样有力——纯粹的白板式RL是否能在合理的计算预算内解决开放世界问题,仍然是一个未被证明的假设。
这意味着,最终的答案可能既不是纯LLM,也不是纯RL,而是某种我们尚未完全理解的融合形态。但Silver选择从纯RL的极端出发进行探索,这在科学方法论上是合理的——只有在极端条件下测试一个假设,才能真正理解它的边界。
第四章:开放世界的挑战——围棋之外,强化学习能走多远?
理解了Silver的哲学信念之后,我们必须直面这条路线最核心的技术挑战。AlphaZero的成功是真实的,但它建立在一系列特殊条件之上,这些条件在开放世界中并不自然成立。
封闭系统的特权
围棋是一个完美信息博弈游戏。它的规则完全明确,状态空间虽然巨大但有限,胜负判断是二元的且无歧义,可以用计算机精确模拟,自我博弈的成本主要是计算资源。
这些特性使得强化学习在围棋中能够高效运作:奖励函数清晰(赢棋得+1,输棋得-1),环境完全可控,可以无限次重置和重复,不需要与物理世界交互。
现实世界的问题几乎在每一个维度上都与此相反。
奖励函数的定义困境
在开放世界的通用智能场景中,如何定义奖励函数是第一个也是最根本的挑战。
以一个看似简单的任务为例:”帮助用户解决一个科学问题”。这个任务的奖励应该怎么定义?是解决方案的正确性?但谁来验证正确性,以及如何验证?是用户的满意度?但用户满意度是主观的,且可能与实际问题的解决质量不一致。是解决方案的新颖性?但新颖性如何量化?
在围棋中,这个问题的答案是”赢棋”,简单、明确、可计算。在现实世界中,几乎所有有价值的任务都没有这样清晰的奖励信号。
这个问题在AI安全领域被称为”奖励黑客”(reward hacking)问题:当奖励函数无法完美捕捉人类真正想要的结果时,RL系统会倾向于找到优化奖励函数的捷径,而这些捷径往往并不符合人类的真实意图。一个被训练来最大化”用户点击率”的系统,可能会学会生成耸人听闻的内容;一个被训练来最大化”解决方案被接受率”的系统,可能会学会迎合用户的偏见而非提供真正正确的答案。
Ineffable Intelligence必须回答的核心技术问题之一,就是如何在开放世界中构建足够精确、足够鲁棒的奖励函数,同时避免奖励黑客问题。这不是一个已经有成熟解决方案的问题。
模拟器的缺失
AlphaZero能够高效训练,另一个关键条件是存在完美的模拟器:计算机可以在毫秒内完成一盘围棋的模拟,因此AlphaZero可以在极短时间内完成数以百万计的自我博弈。
在许多现实世界的重要领域,这个条件同样不成立。生物学实验无法在计算机中完美模拟(至少目前不能);社会系统的动态远比围棋复杂,且充满不可预测的涌现效应;物理世界的交互需要真实时间和真实资源。
当然,这个问题并非无解。在某些领域,已经存在足够精确的模拟器——例如数学证明(形式化数学系统如Lean提供了精确的验证机制)、某些材料科学问题(分子动力学模拟)、以及部分工程设计领域。Ineffable Intelligence的早期研究方向,很可能会集中在这些有模拟器可用的领域。DeepMind自身在2024年发布的AlphaProof——一个将RL应用于数学定理证明的系统,在国际数学奥林匹克竞赛级别的问题上取得了突破——可以被视为这条路线的早期验证。(来源: Google DeepMind Blog, “AI achieves silver-medal standard solving International Mathematical Olympiad problems”, 2024-07-25)
但如果目标是”通用超级智能”,那么最终必须面对那些没有完美模拟器的领域。这是一个尚未解决的根本性挑战。
样本效率与计算成本
强化学习的另一个已知弱点是样本效率低。人类学习下围棋,可能需要几年时间和数千盘对局;AlphaZero达到超人水平,需要数百万盘自我博弈——尽管每盘对局的时间极短,总计算量仍然巨大。
在更复杂的开放世界任务中,这个问题会被进一步放大。如果每次”试错”的成本不是几毫秒的计算时间,而是真实世界中的资源消耗,那么RL的样本效率问题将成为严重的实际障碍。
这也解释了为什么11亿美元的种子轮是必要的:大规模强化学习需要大量计算资源,而Ineffable Intelligence的研究路线,本质上是一场计算资源密集型的探索。Nvidia的投资在这个背景下有其战略逻辑——这家公司对大规模计算需求的增长有直接的商业利益。
一个被大多数人忽视的维度:知识表示问题
这里有一个大多数媒体报道都没有深入探讨的技术层面,值得单独分析。
纯RL路线面临的一个深层挑战是:即使系统通过自我探索发现了超越人类的解决方案,它如何表示和存储这些知识?AlphaZero的”知识”被编码在神经网络的权重中,这种表示形式对人类来说几乎是不可解释的。围棋棋手可以通过观察AlphaZero的走法来学习,但他们无法直接”读取”AlphaZero的知识。
在更广泛的智能任务中,这个问题会变得更加严重。一个通过RL自主发现了重要科学规律的AI系统,如何将这个发现传递给人类?如何验证这个发现的正确性?如何将其整合进人类的知识体系?
这不仅是一个技术问题,也是一个关于AI与人类协作模式的根本问题。Silver的”不依赖人类数据”路线,可能最终面临一个悖论:它发现的知识,可能也无法以人类可理解的形式表达——这恰好呼应了”Ineffable”这个公司名称的深层含义。
11亿美元够吗?
从纯计算资源的角度看,11亿美元对于大规模AI研究来说是一笔可观但并非无限的资金。OpenAI的累计融资已超过300亿美元,Anthropic也已获得超过100亿美元的投资,且仍在持续烧钱。
但Ineffable Intelligence的路线有一个潜在的资本效率优势:不依赖人类数据意味着不需要支付大规模数据采集、标注和清洗的成本。这部分成本在LLM训练中占据相当大的比例。RL的主要成本是计算资源,而计算资源的单位成本在持续下降——Nvidia的H100 GPU在2024年的性能价格比已经比2020年的A100提升了数倍。
从这个角度看,11亿美元可能足够支撑Ineffable Intelligence完成早期的技术验证阶段。但如果要真正实现”超级智能”的目标,后续轮次的融资几乎是必然的。
第五章:大多数人没看到的那一层——这场赌注真正的战略意义
大多数媒体报道将这笔融资解读为”AI路线之争”或”对LLM的挑战”。这个解读并没有错,但它停留在了表面。
Silver的赌注实际上是在重新定义”超级智能”的评判标准
当前AI行业对”超级智能”的讨论,往往以人类能力为基准:比人类更聪明、能做人类能做的所有事情、在各种认知任务上超越人类最高水平。这个定义内置了一个隐含假设:超级智能是人类智能的延伸和放大。
Silver的路线挑战的,正是这个假设本身。如果超级智能通过RL从第一性原理中自主涌现,它所发展出的认知结构可能与人类智能有根本性的差异——不是”更聪明的人类”,而是”完全不同的智能形态”。
这个区别在实践中意味着什么?它意味着评估这种AI的能力,可能无法使用为评估人类智能设计的基准测试(benchmark)。一个AlphaZero式的AI在围棋上超越了所有人类,但如果你用语言理解测试来评估它,它的得分会是零——因为它根本没有学过语言。
Ineffable Intelligence如果成功,可能会创造出一种在特定问题域内远超人类的AI,同时在其他领域完全无能。这与当前LLM的”广泛但浅层”能力形成鲜明对比。这种”深度专精但范围受限”的超级智能,在商业上如何定价、如何部署、如何与人类协作,是一个目前几乎没有人认真讨论过的问题。
投资方的真实逻辑:对冲,而非押注
另一个被大多数报道忽略的维度是:为什么Nvidia和Google要同时投资一个与他们现有路线相悖的公司?
答案不是他们相信Silver的路线会取代LLM,而是他们在进行战略对冲。
对于Nvidia来说,无论AI的主流路线是LLM还是RL,都需要大量GPU计算资源。投资Ineffable Intelligence,一方面是确保在RL路线崛起时不被排除在外,另一方面也是在向市场传递信号:Nvidia的GPU是AI计算的通用基础设施,无论哪条路线最终胜出。Nvidia CEO黄仁勋在2025年的多次公开演讲中反复强调”加速计算是AI的基础层”,投资Ineffable Intelligence与这一战略叙事完全一致。
对于Google来说,逻辑更为复杂。Google既是DeepMind的母公司(DeepMind是AlphaGo/AlphaZero的诞生地),也是LLM路线的主要参与者(Gemini)。投资Ineffable Intelligence,可以被解读为Google在为”如果LLM路线触及天花板”的情景进行布局,同时也可能是在与Silver保持关系,为未来的技术合作或人才回流保留选项。
Sequoia的参与则更符合传统风险投资逻辑:在AI这个高度不确定的领域,投资最顶尖的研究者,无论他们走哪条路线,是降低选择风险的合理策略。Silver的历史成就,使他成为AI领域少数几个”无论做什么都值得投资”的人物之一。
欧洲AI生态的战略意义
这笔融资还有一个地缘政治维度值得关注。Ineffable Intelligence是一家英国公司,这笔11亿美元的种子轮创下了欧洲AI融资纪录。(来源: Hot Minute, 2026-04-27)
在当前AI竞争格局中,欧洲长期被认为在AI基础研究和商业化方面落后于美国和中国。法国的Mistral AI在2024年的融资虽然引人注目(6亿欧元的B轮),但与美国头部AI公司的融资规模仍有数量级差距。Ineffable Intelligence的出现,以及其背后的资本规模,代表了欧洲AI生态的一次重要信号——至少在特定的高风险、高潜力的研究方向上,欧洲仍然能够吸引顶级人才和顶级资本。
这对欧洲AI政策的讨论也有潜在影响。欧盟的AI监管框架(AI Act)在很大程度上是针对当前LLM范式设计的,其核心关注点包括训练数据的版权问题、输出内容的偏见和有害性等。如果RL路线代表了一种根本不同的AI形态——不使用人类数据训练、不生成自然语言输出——现有的监管框架是否适用,将是一个需要重新讨论的问题。
结语:一场关于AI未来的哲学赌注,以及它对我们意味着什么
David Silver的11亿美元赌注,在技术层面是对强化学习路线的押注,在哲学层面是对”智能本质”的一种立场表达,在商业层面是对AI行业路线之争的一次资本化介入。
让我们给出明确的判断,而非模糊的”两条路线各有优劣”式结论。
Silver是对的,但时间表是未知数,且纯RL路线可能需要与其他方法融合。
他对纯LLM路线的根本性质疑——完全被人类数据天花板所限制、不具备自主探索能力的系统无法实现真正的超级智能——在逻辑上是成立的。这不是悲观,而是对定义的诚实:如果”超级智能”意味着在认知能力上全面超越人类,那么一个以模仿人类知识为唯一机制的系统,在原则上无法实现这个目标。
但”在逻辑上成立”和”在实践中可行”之间,存在巨大的鸿沟。开放世界的奖励函数定义问题、模拟器缺失问题、样本效率问题,以及知识表示和传递问题,都是真实存在的技术障碍,目前没有成熟的解决方案。LeCun关于先验结构的批评也提醒我们,纯粹的白板式学习可能在计算上不可行。Ineffable Intelligence能否在这些问题上取得突破,以及需要多长时间和多少资源,是这场赌注最大的不确定性。
对AI行业的影响
如果Ineffable Intelligence在某个特定领域(例如数学证明、蛋白质工程、材料科学)取得AlphaZero级别的突破,它将迫使整个AI行业重新思考路线选择。更多的资本将流向RL路线,更多的顶级研究者将开始质疑”LLM能否通向超级智能”的假设。
如果Ineffable Intelligence陷入长期的技术瓶颈而无法突破,它将为AI研究提供一个重要的反面数据点:强化学习在开放世界通用智能上的适用边界,以及11亿美元的资本在面对根本性技术挑战时的局限性。
无论结果如何,这场赌注已经产生了一个无法否认的效果:它重新打开了关于AI路线的根本性讨论,让”LLM是否是通向超级智能的正确路径”这个问题从学术争论变成了资本市场的显性分歧。
对不同读者意味着什么
如果你是AI行业的从业者,这笔融资传递的信号是:不要把所有的技术认知都押在LLM范式上。强化学习、世界模型、以及其他非LLM路线的基础知识,可能在未来3-5年内从”学术兴趣”变成”职业必需”。现在是重新审视自己技术栈广度的时候。
如果你是投资者,核心启示是:AI领域的路线不确定性远比市场共识所反映的要大。当前市场对LLM路线的高度共识,可能正在制造一个定价盲区——如果RL路线取得突破性进展,大量基于”LLM将主导一切”假设的估值模型将需要重新校准。分散押注不同技术路线的AI公司,是应对这种不确定性的合理策略。
如果你是普通读者,最值得记住的一点是:当前AI行业看似铁板一块的”大语言模型”叙事,并非唯一的可能性。David Silver用11亿美元告诉世界,通向超级智能的道路可能完全不同于我们今天所看到的。这不意味着你手中的ChatGPT会变得无用——它在短期内仍然是最实用的AI工具。但它意味着,AI的未来比任何单一叙事所描绘的都要更加开放、更加不确定,也更加令人期待。
这场赌注的最终结果,可能需要5到10年才能揭晓。但它提出的问题——智能究竟是从数据中提炼的,还是从交互中涌现的——将定义下一个十年AI研究的核心议程。
参考资料
-
DeepMind’s David Silver launches Ineffable Intelligence with $1.1B seed round to pursue superintelligence — CNBC, 2026-04-27
-
Ineffable Intelligence raises record $1.1B seed to build AI without LLMs — TechCrunch, 2026-04-27
-
A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play — Silver, D. et al., Science, 2018-12-07
-
AI achieves silver-medal standard solving International Mathematical Olympiad problems — Google DeepMind Blog, 2024-07-25
-
A Path Towards Autonomous Machine Intelligence — LeCun, Y., OpenReview, 2022-06-27
-
The Bitter Lesson — Sutton, R., incompleteideas.net, 2019-03-13
-
Ineffable Intelligence: AlphaGo creator raises record £880M seed round — The Next Web, 2026-04-27
-
David Silver’s Ineffable Intelligence raises $1.1B to build AI without large language models — unite.ai, 2026-04-27