当 NVIDIA CEO Jensen Huang 在 2024年斯坦福大学的演讲中宣称”AGI 在 5年内就能实现”时,台下掌声雷动。然而,就在 2026年3月,一项涵盖全球顶尖 AI 研究者的调查却显示,76% 的专家认为仅靠扩展大语言模型”不太可能”实现通用人工智能。这个数字背后,暴露的不仅是技术路线的分歧,更是 AGI 定义本身的根本性分裂。

在同一个月里,我们看到了两个截然不同的信号:Arm 发布了专门面向 Agentic AI 的 AGI CPU,Meta、OpenAI、Cerebras 等巨头纷纷成为合作伙伴,单机架功耗可达 200kW;而在印度 AI 峰会上,Yann LeCun 却明确表示”新一轮 AI 革命将至,但不是 AGI”。这种矛盾不是偶然,而是整个行业正在经历的一场认知危机的缩影。

共识的裂痕:从”Scaling Law”到”Scaling Wall”

过去 5年,AI 行业的主流叙事围绕着一个简单而强大的信念:只要持续扩大模型规模、增加数据量和计算力,就能逼近甚至超越人类智能。这种被称为”Scaling Law”的理论,支撑了从 GPT-3 到 GPT-4,再到 Claude 3.5 的一系列突破。

OpenAI 的成功似乎验证了这一路径。GPT-3 拥有 1750亿参数,GPT-4 据估计超过 1万亿参数,每一次规模的跃升都带来了质的飞跃。Sam Altman 在多个场合表示,AGI 的实现主要是”工程问题”,而非基础科学问题。这种观点在 2023年达到顶峰,当时几乎所有主要 AI 公司都在竞相构建更大的模型。

Scaling Law 的理论基础源于 2020年 OpenAI 发表的开创性论文,该研究发现模型性能与参数数量、数据集大小和计算量之间存在可预测的幂律关系。这一发现催生了一种近乎宗教般的信念:只要投入足够的资源,智能就会自然涌现。Google 的 PaLM、Anthropic 的 Claude、Meta 的 LLaMA 系列都遵循了这一逻辑,参数规模从数百亿攀升至数万亿。

然而,76% 专家的反对意见揭示了这一共识的脆弱性。这些专家并非技术悲观主义者,其中包括来自 Google DeepMind、Anthropic、Meta AI 等顶级研究机构的资深研究员,以及图灵奖得主、ACM Fellow 等学术权威。他们的担忧集中在几个关键问题上:

数据墙的逼近

首先是数据墙问题。根据 Epoch AI 的详细研究,到 2026年,高质量文本数据的供应将达到极限。互联网上的文本数据总量约为 10-50万亿词汇,但其中真正高质量、适合训练的数据可能不到 10%。当前的大模型已经消耗了大部分优质数据,包括维基百科、学术论文、高质量新闻报道、经典文学作品等。

更严重的是,剩余的数据质量正在急剧下降。随着 AI 生成内容的泛滥,互联网正在被”合成数据污染”。OpenAI 的研究显示,用 AI 生成的数据训练 AI 模型会导致”模型崩溃”现象,性能呈指数级下降。这意味着未来的数据获取不仅面临数量限制,更面临质量危机。

一些公司正在尝试通过合成数据生成、多模态数据融合等方式突破数据墙,但效果有限。Anthropic 的实验表明,即使是最先进的合成数据生成技术,也无法完全替代真实的人类创造内容。数据的多样性、创新性和深度理解仍然是无法人工复制的稀缺资源。

能耗边界的挑战

其次是能耗边界。Arm 新发布的 AGI CPU 单机架功耗达 200kW,这已经接近传统数据中心的承载极限。如果按照当前的扩展趋势,训练下一代模型可能需要消耗一个小城市的电力。GPT-4 的训练据估计消耗了约 50GWh 的电力,相当于 5万个美国家庭一年的用电量。

更令人担忧的是,这种能耗增长是超线性的。根据 MIT 的研究,每增加一个数量级的模型规模,能耗通常会增加两个数量级。这意味着一个比 GPT-4 大 10倍的模型,可能需要 100倍的能耗,即 5000GWh,相当于一个中等城市的年用电量。

这不仅是成本问题,更是物理和环境的硬约束。全球数据中心已经消耗了约 1% 的电力,如果 AI 训练按当前趋势发展,到 2030年可能占到全球电力消耗的 3-5%。这种增长速度是不可持续的,特别是在全球努力减少碳排放的背景下。

智能涌现的质疑

更深层的问题在于,即使解决了数据和能耗问题,纯粹的规模扩展是否真的能产生”智能涌现”仍然存疑。Gary Marcus 长期以来的批评正在得到更多认同:大模型本质上仍是统计模式匹配,缺乏真正的理解、推理和创新能力。

最新的研究开始支持这种质疑。Stanford 的 HAI 研究所发现,即使是 GPT-4 这样的先进模型,在面对需要真正理解和推理的任务时,仍然表现出明显的局限性。它们无法进行可靠的因果推理,容易被对抗性样本误导,在处理新颖情况时表现不稳定。

更重要的是,大模型的”智能”表现可能很大程度上来自于训练数据中的记忆和模式匹配,而非真正的理解。DeepMind 的研究显示,当测试数据与训练数据的分布差异较大时,模型性能会急剧下降,这表明它们缺乏真正的泛化能力。

涌现能力的幻象

近年来,”涌现能力”(emergent abilities)成为支持 Scaling Law 的重要论据。研究者观察到,当模型规模达到某个临界点时,会突然在某些任务上表现出显著提升,仿佛”智能”突然涌现。但最新的研究开始质疑这种现象的真实性。

Stanford 的研究团队发现,许多所谓的”涌现能力”可能只是评估指标的人工产物。当使用更加细粒度和连续的评估指标时,这些”突然出现”的能力实际上表现出平滑的、可预测的改进曲线。这意味着,我们可能高估了规模扩展带来的质的飞跃。

此外,即使某些涌现能力是真实的,它们也主要集中在语言处理和模式识别等相对狭窄的领域。在需要深度推理、创造性问题解决、跨领域知识整合等方面,大模型的表现仍然远不如人类。

定义的分歧:什么才是真正的 AGI?

当 Jensen Huang 说”AGI 已经很近了”,当专家们说”LLM 路径不够”时,他们讨论的可能根本不是同一个东西。AGI 定义的模糊性,正在成为行业分裂的根本原因。

工业界的务实定义

在工业界,特别是 NVIDIA、OpenAI 等公司的语境中,AGI 更多被理解为”在大多数经济有价值的任务上超越人类的 AI 系统”。这是一个相对务实的定义,强调的是商业价值和实用性。在这个框架下,只要 AI 能够在编程、写作、分析、设计等白领工作中表现出色,就可以被认为接近 AGI。

OpenAI 的内部定义更加具体:AGI 是”在经济上最有价值的工作中超越人类的高度自主系统”。这个定义刻意避开了意识、理解、创造性等难以量化的概念,而是聚焦于可测量的经济影响。按照这个标准,如果一个 AI 系统能够独立完成软件开发、科学研究、商业分析等高价值工作,就可以被认为是 AGI。

Microsoft 采用了类似的实用主义方法,将 AGI 定义为”能够在广泛的认知任务中达到或超越人类专家水平的系统”。这种定义的优势在于可操作性强,容易验证和测量,但也因此被批评为过于狭隘和功利化。

学术界的严格标准

但在学术界,AGI 的标准要严格得多。它不仅要求在特定任务上的优异表现,还要求具备通用学习能力、抽象推理能力、创造性解决问题的能力,以及对世界的真正理解。按照这个标准,当前的大模型距离 AGI 还有巨大差距。

认知科学家普遍认为,真正的 AGI 必须具备以下特征:

  1. 通用学习能力:能够从少量样本中快速学习新概念和技能,就像人类儿童一样
  2. 抽象推理:能够处理抽象概念,进行类比推理,理解因果关系
  3. 创造性:能够产生真正新颖的想法和解决方案,而非仅仅重组已知信息
  4. 常识理解:对物理世界、社会关系、心理状态等具有深入的常识性理解
  5. 元认知能力:能够反思自己的思维过程,理解自己的知识边界
  6. 情感和价值理解:能够理解和处理情感、道德、价值观等人类体验的核心要素

这种定义分歧在印度 AI 峰会上表现得尤为明显。Google CEO Sundar Pichai 强调了 AI 的实用价值,称印度有机会成为”全栈”AI 参与者;Sam Altman 赞扬了印度小语言模型的”不可思议”进展;而 Yann LeCun 则明确表示,虽然新一轮 AI 革命即将到来,但这并不意味着 AGI 的实现。

哲学层面的根本分歧

更深层的分歧在于对智能本质的哲学理解。计算主义者认为,智能本质上是信息处理,只要有足够强大的计算系统,就能够实现或模拟智能。这种观点支持了当前的 AI 发展路径,认为 AGI 主要是工程和规模问题。

但另一派观点认为,智能不仅仅是计算,还涉及意识、主观体验、自由意志等无法用纯计算方法捕捉的现象。这种观点认为,真正的 AGI 可能需要我们尚未理解的物理、生物或信息过程。

哲学家 David Chalmers 提出的”意识的困难问题”(hard problem of consciousness)在这里变得尤为相关。如果意识是智能的核心组成部分,而我们对意识的本质仍然一无所知,那么 AGI 的实现可能比我们想象的更加困难。

LeCun 的观点代表了学术界的主流声音:当前的 AI 系统,无论多么强大,都缺乏真正的智能特征。它们无法进行因果推理,无法从少量样本中学习,无法处理真正新颖的情况,也无法形成对世界的连贯模型。

测试和评估的挑战

AGI 定义的分歧也体现在测试和评估方法上。传统的图灵测试已经被认为过时,因为它过于关注欺骗性而非真正的智能。现代研究者提出了多种替代方案:

通用智能测试(ARC):由 François Chollet 开发,专门测试抽象推理和概念学习能力。这个测试故意避免依赖预训练知识,而是测试从少量样本中学习新模式的能力。目前最先进的 AI 系统在这个测试上的表现仍然远不如人类。

常识推理基准:如 CommonsenseQA、SWAG 等,测试 AI 对日常世界的理解。虽然大模型在这些测试上表现不错,但研究显示它们主要依赖统计关联而非真正的理解。

多模态综合评估:如 MMMU、MMBench 等,测试 AI 在需要整合视觉、语言、逻辑等多种能力的复杂任务上的表现。

但所有这些测试都面临一个根本问题:它们可能被专门优化,而不能真正反映通用智能。这种”测试污染”问题在机器学习中屡见不鲜,当研究者过度优化特定基准时,往往会损害模型的通用性。

新路径的探索:从符号到具身

面对 LLM 扩展路径的质疑,研究者们正在探索多条替代路径。这些探索反映了对 AGI 本质的不同理解,也预示着未来技术发展的多元化趋势。

神经符号 AI 的复兴

神经符号 AI(Neurosymbolic AI)正在获得越来越多的关注。这一方法试图结合神经网络的学习能力和符号系统的推理能力。IBM、Microsoft 等公司都在这一领域投入巨资。IBM 的研究显示,在需要复杂推理的任务中,神经符号系统的表现显著优于纯神经网络方法。

这种方法的核心思想是,神经网络擅长模式识别和学习,但在逻辑推理和知识表示方面存在缺陷;而符号系统在推理和知识表示方面表现出色,但缺乏学习能力。通过将两者结合,可能能够创造出既能学习又能推理的系统。

MIT 的 Josh Tenenbaum 实验室在这方面取得了重要进展。他们开发的”概率程序合成”方法,能够从少量样本中学习概念的结构化表示,然后用于推理和泛化。这种方法在字符识别、物理推理、语言学习等任务上表现出了类人的学习效率。

DeepMind 的最新研究也支持这一趋势。他们发现,在数学定理证明、科学发现等需要严格逻辑推理的任务中,结合符号推理的系统表现更加稳定和可靠。AlphaGeometry 在几何定理证明上的成功,就是神经符号方法的典型例子。

但神经符号 AI 也面临重大挑战。如何有效地整合神经和符号组件,如何处理两种范式之间的接口问题,如何保持系统的可扩展性,都是尚未解决的技术难题。此外,符号推理本身也存在组合爆炸、知识获取瓶颈等经典问题。

具身智能的兴起

具身智能(Embodied AI)是另一个重要方向。这一理论认为,智能必须通过与物理世界的交互来发展,纯粹基于文本的训练无法产生真正的理解。Boston Dynamics、Tesla、Figure AI 等公司正在这一领域展开激烈竞争。

具身智能的理论基础源于认知科学的”具身认知”理论,该理论认为智能不仅存在于大脑中,还分布在整个身体和环境中。人类的许多认知能力,如空间理解、因果推理、物理直觉等,都是通过与物理世界的长期交互而发展起来的。

Tesla 的 Optimus 机器人项目就是具身智能的典型代表。Elon Musk 多次表示,只有通过在真实世界中的行动和学习,AI 才能真正理解物理定律、因果关系和常识。虽然 Optimus 的当前表现还很初级,但它代表了一种根本不同的 AGI 实现路径。

更有趣的是,一些研究开始表明,具身经验可能对抽象推理也有重要作用。MIT 的研究发现,具有机器人经验的 AI 系统在处理抽象的物理推理问题时表现更好,即使这些问题不需要实际的物理操作。

但具身智能路径也面临巨大挑战。物理世界的复杂性远超虚拟环境,机器人技术的发展速度相对缓慢,安全性和可靠性要求极高。更重要的是,如何从具身经验中抽象出通用的智能原理,仍然是一个开放的研究问题。

多模态融合的进展

多模态融合也被视为关键突破方向。OpenAI 的 GPT-4V、Google 的 Gemini、Anthropic 的 Claude 3 都在这一领域取得了显著进展。理论上,通过整合视觉、听觉、触觉等多种感知模态,AI 系统能够形成更丰富、更准确的世界模型。

人类智能的一个重要特征就是多模态整合能力。我们能够无缝地整合来自不同感官的信息,形成统一的世界理解。例如,当我们看到一个苹果时,我们不仅看到它的颜色和形状,还能想象它的味道、质地和重量。这种跨模态的关联和推理能力,被认为是智能的重要组成部分。

最新的多模态模型已经展现出了令人印象深刻的能力。GPT-4V 能够理解复杂的图表、解读医学影像、分析艺术作品;Gemini Ultra 在多模态推理基准上达到了人类水平;Claude 3 能够处理长达数百页的文档,整合文本和图像信息。

但多模态融合仍然面临重大技术挑战。不同模态的数据具有不同的结构和特征,如何有效地对齐和融合这些信息是一个复杂的问题。此外,多模态数据的获取和标注成本极高,限制了训练数据的规模和质量。

因果推理的突破

因果推理被广泛认为是当前 AI 系统的重大缺陷。大模型虽然能够识别相关性,但在理解因果关系方面表现很差。这限制了它们在科学发现、政策制定、医疗诊断等需要因果推理的领域的应用。

Judea Pearl 的因果推理理论为这一问题提供了理论框架。他提出的”因果阶梯”理论认为,智能系统需要具备三个层次的因果理解:关联(看到)、干预(做)和反事实(想象)。当前的 AI 系统主要停留在第一个层次,缺乏真正的因果理解能力。

一些研究开始探索将因果推理整合到 AI 系统中的方法。Microsoft 的 DoWhy 库、Google 的 CausalML 等工具为因果推理提供了实用的框架。但将这些方法扩展到大规模、通用的 AI 系统仍然是一个巨大的挑战。

更有前途的可能是从数据中自动发现因果结构的方法。Carnegie Mellon 大学的研究团队开发了能够从观察数据中推断因果图的算法,这可能为 AI 系统提供自主的因果学习能力。

硬件军备竞赛的新维度

Arm AGI CPU 的发布,标志着 AGI 竞赛进入了新的硬件维度。这款专门面向 Agentic AI 设计的处理器,每刀片集成 272个核心,支持最高 200kW 的液冷配置,代表了对未来 AI 计算需求的全新理解。

专用硬件的兴起

传统的 GPU 集群主要针对训练大模型的并行计算需求,而 AGI CPU 则更多考虑了智能体(Agent)系统的特殊要求:低延迟决策、复杂的状态管理、多任务并发处理等。Meta、OpenAI、Cerebras 等公司成为首批合作伙伴,暗示着行业对 Agentic AI 路径的集体押注。

这种硬件创新反映了一个重要趋势:AGI 的实现可能需要专门设计的计算架构,而不仅仅是更强大的通用处理器。Intel 的神经形态芯片 Loihi、IBM 的类脑芯片 TrueNorth 都在探索类似的方向。

Loihi 芯片采用了脉冲神经网络架构,模仿生物神经元的工作方式。它在处理时序数据、适应性学习、低功耗计算等方面表现出色,特别适合机器人控制、传感器融合等应用。虽然目前还无法处理大规模语言模型,但它代表了一种根本不同的计算范式。

IBM 的 TrueNorth 芯片则采用了事件驱动的计算模型,只有在接收到输入时才进行计算,大大降低了功耗。这种设计理念可能对未来的 AGI 系统具有重要意义,因为生物大脑也是高度节能的。

量子计算的潜在影响

量子计算的发展为 AGI 硬件带来了新的可能性。虽然当前的量子计算机还无法运行复杂的 AI 算法,但理论上,量子计算在某些类型的问题上具有指数级的优势。

特别是在优化、搜索、模拟等问题上,量子算法可能提供显著的加速。这些能力对于 AGI 系统可能至关重要,因为智能往往涉及在巨大的搜索空间中找到最优解。

Google 的量子 AI 团队正在探索量子机器学习的可能性。他们发现,某些类型的机器学习问题确实可以从量子计算中受益,特别是涉及高维优化和概率推理的问题。

但量子计算也面临巨大的技术挑战。量子系统极其脆弱,容易受到环境干扰;量子错误纠正需要大量的物理量子比特;量子算法的设计和实现极其复杂。这些挑战意味着,量子 AGI 可能还需要数十年的发展。

边缘计算的重要性

随着 AGI 系统变得越来越复杂,边缘计算的重要性也在增加。许多 AGI 应用,如自动驾驶、机器人、增强现实等,都需要低延迟、高可靠性的本地计算能力。

Apple 的 M 系列芯片、Google 的 TPU Edge、NVIDIA 的 Jetson 系列都在这一领域展开竞争。这些芯片试图在功耗、性能和成本之间找到平衡,为边缘 AGI 应用提供支持。

更有趣的是,边缘计算可能改变 AGI 的架构模式。传统的云计算模式依赖于集中式的大型模型,而边缘计算可能推动分布式、协作式的 AGI 系统发展。这种系统中,多个智能体通过网络协作,共同完成复杂任务。

更值得注意的是,Arm 将这款产品直接命名为”AGI CPU”,这本身就是一个强烈的信号。它表明硬件厂商已经开始围绕特定的 AGI 实现路径进行产品设计,而不再满足于提供通用的计算平台。

然而,这种硬件专业化也带来了新的风险。如果当前主流的技术路径被证明是错误的,这些专门设计的硬件可能面临巨大的沉没成本。这种风险在历史上并不罕见——专门为专家系统设计的 Lisp 机器就是一个典型的例子。

在 1980年代,Lisp 机器被认为是 AI 的未来,专门的硬件公司如 Symbolics、LMI 投入巨资开发专用处理器。但随着专家系统的衰落和通用计算机性能的提升,这些专用硬件很快变得过时,相关公司也随之倒闭。

时间线的分化:2027-2029 的关键窗口

根据 Alcazar Security 的最新分析,AGI 级系统在 2029年前出现的概率约为 60%,2028年被认为是最可能的时间点。这一预测综合了从乐观派到怀疑派的多方观点,但背后隐藏着对 AGI 定义和实现路径的根本分歧。

乐观派的技术路线图

乐观派的时间线主要基于当前 LLM 的快速进展。如果 GPT-5、Claude 4、Gemini 2.0 等下一代模型能够在推理、规划、多步骤问题解决等方面取得突破性进展,那么在某种定义下的 AGI 确实可能在 2027-2028年实现。

OpenAI 内部的时间线更加激进。据知情人士透露,公司内部普遍认为 AGI 将在 2025-2027年之间实现。这种乐观主要基于对 Scaling Law 持续有效的信念,以及对即将发布的 GPT-5 能力的预期。

据传,GPT-5 将具备以下突破性能力:

  • 多步骤推理和规划能力显著提升
  • 长期记忆和上下文理解能力
  • 多模态整合和世界模型构建
  • 自主学习和适应能力
  • 更好的工具使用和 API 调用能力

如果这些能力得到验证,GPT-5 可能在许多认知任务上达到或超越人类水平,从而满足工业界对 AGI 的定义。

Anthropic 的路线图也相当乐观。Claude 4 预计将在 2025年发布,重点改进安全性、可靠性和推理能力。Anthropic 的”Constitutional AI”方法可能为 AGI 的安全实现提供重要保障。

Google DeepMind 则采取了更加多元化的策略。除了 Gemini 系列的持续改进,他们还在探索 AlphaFold、MuZero 等专用 AI 系统的通用化可能性。DeepMind 的研究显示,通过将不同领域的专用 AI 系统整合,可能能够创造出具有通用能力的系统。

怀疑派的深层担忧

但怀疑派的观点同样有力。Gary Marcus 认为,当前的技术路径存在根本性缺陷,真正的 AGI 可能需要 10-20年甚至更长时间。他指出,大模型在处理新颖情况、进行因果推理、保持一致性等方面仍然存在严重问题。

Marcus 的批评集中在几个关键点:

  1. 脆弱性:大模型容易被简单的对抗样本误导,表现出令人困惑的错误
  2. 不一致性:同一个模型对相似问题可能给出截然不同的答案
  3. 幻觉问题:模型经常生成看似合理但实际错误的信息
  4. 缺乏真正理解:模型无法解释自己的推理过程,缺乏对概念的深层理解
  5. 泛化能力有限:在分布外数据上表现急剧下降

这些问题不是简单的工程缺陷,而可能反映了当前方法的根本局限性。即使通过更大的模型和更多的数据,这些问题可能仍然无法得到根本解决。

Yann LeCun 的立场更加微妙。他认为下一轮 AI 革命确实即将到来,但这并不等同于 AGI 的实现。在他看来,真正的 AGI 需要在学习效率、泛化能力、世界模型构建等方面取得根本性突破,而这些突破还没有出现。

LeCun 特别强调了”世界模型”的重要性。他认为,真正的智能需要对物理世界有深入的理解,包括物体的持久性、因果关系、物理定律等。当前的语言模型虽然能够处理关于世界的文本描述,但缺乏对世界本身的直接理解。

中间派的务实观点

在乐观派和怀疑派之间,还有一群务实的研究者采取了更加平衡的观点。他们认为,虽然当前路径可能无法实现完全的 AGI,但可以在特定领域和应用中实现类似 AGI 的能力。

这种观点认为,AGI 的实现可能是渐进的而非突然的。我们可能会看到在不同领域逐步实现的”窄 AGI”,如科学 AGI、编程 AGI、创意 AGI 等,最终这些能力可能会融合成更通用的系统。

Stanford 的 HAI 研究所提出了”人机协作智能”的概念,认为真正的突破可能来自于 AI 与人类的深度协作,而非 AI 的完全自主。这种观点得到了许多实践者的支持,因为它更加现实和可操作。

这种时间线分化的背后,是对技术发展本质的不同理解。乐观派倾向于相信量变会导致质变,认为足够大的模型最终会涌现出真正的智能。怀疑派则认为,智能需要质的不同,需要新的理论突破和技术范式。

外部因素的影响

AGI 时间线还受到许多外部因素的影响:

监管环境:各国政府对 AI 的监管政策可能显著影响发展速度。欧盟的 AI 法案、美国的行政命令、中国的 AI 治理框架都可能对 AGI 研究产生重要影响。

资源限制:计算资源、人才资源、资金资源的限制可能成为发展瓶颈。高端 GPU 的供应短缺、顶级 AI 人才的稀缺、巨额研发投入的可持续性都是现实约束。

社会接受度:公众对 AGI 的接受程度和担忧也会影响发展进程。如果出现重大的 AI 安全事故或社会问题,可能会导致发展放缓。

地缘政治:国际关系和技术竞争可能加速或阻碍 AGI 发展。技术封锁、人才流动限制、标准分化都可能影响全球 AGI 研究的协作和竞争格局。

商业现实与技术理想的博弈

AGI 路径争议的背后,是商业利益与技术理想之间的复杂博弈。对于 NVIDIA、OpenAI、Anthropic 等公司而言,维持对当前技术路径的信心至关重要,因为这直接关系到数千亿美元的投资和估值。

资本市场的期待与压力

NVIDIA 的市值在很大程度上建立在 AI 计算需求持续增长的预期之上。如果 LLM 扩展路径被广泛质疑,对 GPU 的需求可能会急剧下降。这解释了为什么 Jensen Huang 如此积极地宣传 AGI 的临近。NVIDIA 的股价从 2022年底的 150美元飙升至 2024年的 900美元以上,主要驱动力就是对 AI 需求的乐观预期。

但这种增长也带来了巨大的压力。NVIDIA 需要持续证明 AI 市场的增长潜力,任何对技术路径的质疑都可能导致股价的剧烈波动。这种压力可能导致公司过度宣传技术能力,忽视实际限制。

OpenAI 面临着类似的压力。公司的估值已经达到 800亿美元,这种估值只有在 AGI 真的能够实现的前提下才能得到合理化。Sam Altman 对 AGI 时间线的乐观预测,在很大程度上是为了维持投资者和公众的信心。

更复杂的是,OpenAI 的投资者包括 Microsoft、Khosla Ventures、Thrive Capital 等重量级机构,他们对回报的期待极高。这种压力可能推动公司采取更加激进的技术路径,即使存在较高的风险。

Anthropic 虽然相对更加保守,但也面临类似的商业压力。公司需要证明其”Constitutional AI”方法的优越性,以及在安全 AGI 竞赛中的领先地位。这种竞争压力可能影响技术决策和公开表态。

人才竞争的扭曲效应

AI 领域的人才竞争也在影响技术发展方向。顶级 AI 研究者的年薪已经达到数百万美元,这种高薪主要来自于对 AGI 突破的预期。如果这种预期破灭,人才市场可能出现剧烈调整。

这种人才竞争还导致了研究重点的偏移。许多优秀的研究者被吸引到工业界,专注于短期的商业应用,而忽视了长期的基础研究。这可能阻碍真正的科学突破。

更严重的是,人才的高度集中可能导致技术发展的单一化。当大部分顶级研究者都在少数几家公司工作时,技术路径的多样性可能会受到限制。这种集中化趋势可能不利于 AGI 的长期发展。

开源与闭源的战略博弈

商业利益还体现在开源与闭源策略的选择上。Meta 选择开源 LLaMA 系列模型,部分原因是为了建立生态系统,挑战 OpenAI 和 Google 的主导地位。但这种策略也有风险,可能加速技术扩散,减少商业优势。

OpenAI 则采取了相对保守的策略,只通过 API 提供服务,保持技术的专有性。这种策略有助于维持商业优势,但也可能阻碍整个领域的发展。

Google 的策略更加复杂,既有开源的组件(如 Transformer 架构),也有闭源的产品(如 Gemini Ultra)。这种混合策略试图在开放合作和商业竞争之间找到平衡。

这些不同的策略选择反映了对 AGI 发展路径的不同判断。如果 AGI 主要依赖于数据和计算资源,那么闭源策略可能更有优势;如果 AGI 需要广泛的协作和创新,那么开源策略可能更有效。

但这种商业驱动的乐观主义可能会产生误导性后果。如果公众和政策制定者基于过于乐观的预期制定决策,可能会导致资源配置的扭曲和政策的失误。

学术界的相对独立性

学术界的相对独立性使其能够提供更加客观的评估。大学研究者没有直接的商业利益,更容易承认当前技术路径的局限性。这解释了为什么学术界对 AGI 时间线普遍更加保守。

但学术界也面临着自己的偏见和限制:

资金依赖:许多学术研究依赖于政府资助和企业赞助,这可能影响研究方向和结论。

发表压力:学术界的”发表或灭亡”文化可能导致研究者追求短期的、可发表的成果,而忽视长期的基础问题。

保守倾向:学术界的同行评议制度可能偏向于保守的、增量式的研究,而排斥激进的创新想法。

然而,学术界也面临着自己的偏见。一些研究者可能过于保守,低估了工程创新的潜力。历史上,许多重大技术突破都来自于工业界的工程努力,而非学术界的理论突破。

例如,深度学习的突破很大程度上来自于计算能力的提升和大数据的可用性,而不仅仅是算法的创新。Transformer 架构的成功也主要体现在工程实现和规模扩展上,而非理论创新。

监管与治理的影响

政府监管和国际治理也在影响 AGI 发展的商业环境。各国都在制定 AI 相关的法律法规,这些政策可能显著影响技术发展的方向和速度。

欧盟的 AI 法案对高风险 AI 应用实施严格监管,这可能会减缓某些 AGI 技术的商业化进程。美国的行政命令要求 AI 公司报告大模型的训练和部署情况,这增加了合规成本。

中国的 AI 治理框架更加注重数据安全和算法透明度,这可能影响中国公司的技术路径选择。同时,国际技术竞争和贸易限制也在影响全球 AGI 研发的合作格局。

这些监管措施虽然出于安全和伦理考虑,但也可能产生意想不到的商业后果。过度监管可能阻碍创新,而监管不足可能导致安全风险。找到合适的平衡点是一个巨大的挑战。

地缘政治的新维度

AGI 竞赛已经成为全球地缘政治的重要组成部分。美国、中国、欧盟都将 AI 领先地位视为国家安全的核心要素。这种竞争正在影响技术发展的方向和速度。

美国的技术霸权战略

美国在 AGI 竞赛中采取了多层次的战略。在技术层面,通过 NVIDIA、OpenAI、Google 等公司维持领先地位;在政策层面,通过出口管制限制先进芯片和技术的扩散;在国际层面,通过联盟合作建立技术标准和治理框架。

美国政府的《国家人工智能倡议》和《CHIPS 法案》都体现了这种战略意图。前者旨在协调联邦政府的 AI 研发投入,后者则通过巨额补贴支持本土半导体产业。这些措施的目标是确保美国在 AGI 竞赛中的长期优势。

但美国的策略也面临挑战。技术封锁可能刺激其他国家加速自主创新,长期来看可能削弱美国的技术影响力。同时,过度的安全考虑可能阻碍国际合作,影响技术发展的效率。

中国的追赶与创新战略

印度 AI 峰会的举办本身就体现了这种地缘政治维度。印度正在努力成为 AI 领域的”第三极”,既不完全依赖美国技术,也不被中国主导。Pichai 关于印度成为”全栈”AI 参与者的表态,反映了这种战略意图。

中国在 AGI 竞赛中采取了不同的策略。虽然在大模型方面相对落后,但中国在应用层面和数据积累方面具有优势。百度、阿里、腾讯等公司正在探索更加务实的 AI 应用路径,可能会在某些特定领域率先实现类似 AGI 的能力。

中国的优势主要体现在:

数据规模:中国拥有庞大的互联网用户群体,产生了海量的数据资源。 应用场景:中国的数字化程度较高,为 AI 应用提供了丰富的场景。 政策支持:政府对 AI 发展给予了强有力的政策和资金支持。 工程能力:中国在大规模系统工程方面具有显著优势。

但中国也面临重要挑战,特别是在基础芯片和核心算法方面对美国技术的依赖。这促使中国加大了自主创新的投入,可能催生不同的技术路径。

欧盟的伦理优先策略

欧盟则更加关注 AI 的伦理和安全问题。《AI 法案》的通过表明,欧洲更愿意以牺牲一定的技术领先性为代价,确保 AI 发展的可控性和安全性。这种不同的优先级可能会导致不同的技术路径选择。

欧盟的策略特点包括:

伦理导向:强调 AI 发展必须符合欧洲的价值观和伦理标准。 监管先行:通过法律框架规范 AI 的开发和应用。 数据保护:GDPR 等法规为 AI 发展设定了严格的数据保护要求。 主权意识:努力减少对美国和中国技术的依赖,建立欧洲自主的 AI 能力。

这种策略可能在短期内影响欧洲的技术竞争力,但长期来看可能为负责任的 AI 发展树立标杆。如果 AI 安全问题变得更加突出,欧盟的先发优势可能会显现。

新兴国家的机遇与挑战

印度、以色列、加拿大、新加坡等国家也在 AGI 竞赛中寻找自己的定位。这些国家虽然在资源和规模上无法与大国竞争,但可以在特定领域或技术路径上发挥优势。

印度的优势在于庞大的技术人才储备和相对较低的成本。印度的 IT 服务业为 AI 发展提供了良好的基础,同时多语言环境为多语言 AI 模型提供了天然优势。

以色列在 AI 安全、军用 AI、芯片设计等领域具有独特优势。以色列的军工技术和网络安全技术可能为 AGI 的安全发展提供重要支撑。

加拿大在 AI 基础研究方面实力雄厚,深度学习的许多重要突破都来自加拿大的研究机构。加拿大可能在 AGI 的理论基础和算法创新方面发挥重要作用。

这种地缘政治竞争可能会加速某些技术路径的发展,但也可能导致资源的重复投入和标准的分化。如果不同国家和地区基于不同的 AGI 定义和实现路径进行投资,可能会形成技术孤岛,阻碍全球合作和知识共享。

国际合作与竞争的平衡

AGI 的发展需要全球合作,但地缘政治竞争使这种合作变得复杂。一方面,AGI 面临的挑战(如安全性、伦理问题、社会影响)需要国际协调;另一方面,各国都希望在技术竞争中保持优势。

一些国际组织正在努力促进合作:

Partnership on AI:由主要 AI 公司发起的合作组织,致力于 AI 的负责任发展。 Global Partnership on AI:由 G7 国家发起的政府间合作机制。 IEEE AI 标准:技术标准组织在制定 AI 相关的国际标准。 UN AI Advisory Body:联合国设立的 AI 咨询机构。

但这些合作机制的效果仍然有限,主要原因是各国在 AGI 定义、发展路径、治理框架等方面存在根本分歧。建立真正有效的国际合作机制仍然是一个巨大挑战。

被忽视的第三层洞察:认知范式的根本转换

大多数关于 AGI 路径的讨论都集中在技术层面——是否需要更大的模型,是否需要新的算法,是否需要专门的硬件。但真正被忽视的问题是:我们对智能本身的理解是否存在根本性缺陷?

计算主义的哲学困境

当前的 AI 研究基本上建立在一个假设之上:智能可以被计算系统完全模拟。这个假设看似显然,但实际上远非如此。意识、主观体验、创造性、直觉等智能的核心特征,可能根本无法用当前的计算框架来捕捉。

76% 专家对 LLM 路径的质疑,可能反映的不仅是对特定技术路径的不满,更是对整个计算主义范式的深层怀疑。这些专家可能意识到,真正的智能可能需要我们尚未理解的物理、生物或信息过程。

哲学家 John Searle 的”中文房间”论证至今仍然有效:一个系统可以表现出理解中文的行为,但实际上可能完全不理解中文的含义。这个论证指出了语法和语义之间的根本差异,暗示纯粹的符号操作可能永远无法产生真正的理解。

现代神经科学的发现也支持这种质疑。大脑不是一个简单的信息处理器,而是一个复杂的生物-化学-电学系统。神经元之间的连接不仅涉及电信号,还涉及神经递质、激素、胶质细胞等多种因素。这种复杂性可能是智能的关键,而当前的计算模型无法捕捉这种复杂性。

量子意识的可能性

量子计算的发展为这种可能性提供了线索。如果意识和智能确实涉及量子过程,那么经典计算机可能永远无法实现真正的 AGI。虽然这种观点仍然充满争议,但它提醒我们,当前的技术路径可能存在根本性的局限。

Roger Penrose 和 Stuart Hameroff 提出的”量子意识”理论认为,意识源于大脑中微管的量子过程。虽然这个理论备受争议,但它指出了一个重要问题:如果意识确实涉及量子效应,那么经典计算可能永远无法复制意识。

最新的实验证据显示,生物系统确实可能利用量子效应。光合作用、鸟类导航、嗅觉感知等生物过程都可能涉及量子相干性。这暗示着,大脑的信息处理可能也利用了量子效应。

如果这种假设成立,那么 AGI 的实现可能需要量子计算机,而不是经典计算机。但当前的量子计算技术还远未成熟,量子 AGI 可能需要数十年甚至更长时间才能实现。

具身认知的深层含义

另一个被忽视的维度是时间性和历史性。人类智能不是静态的计算过程,而是在数百万年进化历史中形成的动态系统。它深深嵌入在生物体的生存需求、社会交往和文化传承中。纯粹基于数据训练的 AI 系统可能永远无法复制这种历史性和情境性。

具身认知理论认为,智能不仅存在于大脑中,还分布在整个身体和环境中。我们的认知过程深受身体结构、感官系统、运动能力的影响。例如,我们对空间的理解来自于身体在空间中的移动经验,对时间的感知来自于心跳、呼吸等生理节律。

这种观点对 AGI 发展具有深远影响。如果智能确实是具身的,那么纯粹基于文本或图像训练的 AI 系统可能永远无法获得真正的智能。真正的 AGI 可能需要具有身体的机器人,通过与物理世界的长期交互来发展智能。

但即使是机器人,也可能无法复制人类的具身经验。人类的身体是数亿年进化的产物,具有极其复杂的感官系统、运动系统、内分泌系统等。机器人的身体结构与人类截然不同,可能导致完全不同的认知结构。

社会性智能的挑战

人类智能的另一个重要特征是社会性。我们的认知能力很大程度上是在社会互动中发展起来的。语言、推理、道德判断等高级认知功能都深受社会环境的影响。

当前的 AI 系统虽然能够处理关于社会的文本信息,但缺乏真正的社会经验。它们没有经历过童年的社会化过程,没有形成稳定的社会关系,没有体验过情感的社会调节。这种缺失可能是当前 AI 系统在社会理解方面表现不佳的根本原因。

真正的社会智能可能需要 AI 系统具备情感、共情、道德感等能力。但这些能力的本质仍然是一个谜。我们不知道情感是如何产生的,不知道道德判断的神经基础,不知道共情的计算机制。在没有理解这些基本问题的情况下,很难在 AI 系统中实现真正的社会智能。

创造性的本质

创造性是人类智能的另一个核心特征,也是当前 AI 系统的重要短板。虽然大模型能够生成看似创新的内容,但这种”创新”主要是对训练数据的重组和变换,缺乏真正的原创性。

真正的创造性可能涉及直觉、洞察、灵感等难以用计算方法捕捉的过程。许多重大的科学发现和艺术创作都来自于突然的灵感或直觉,而不是逻辑推理的结果。这种创造性过程的本质仍然是一个谜。

一些研究者认为,创造性可能涉及大脑的随机过程或量子效应。如果这种假设成立,那么确定性的计算系统可能永远无法实现真正的创造性。即使是随机性,也可能需要特定类型的随机性,而不是简单的伪随机数生成。

这种认知范式的转换可能需要跨学科的合作。神经科学、认知科学、哲学、物理学等领域的洞察都可能对 AGI 的实现产生关键影响。但当前的 AI 研究过于技术导向,缺乏足够的跨学科对话。

意识问题的核心地位

意识问题可能是 AGI 面临的最根本挑战。虽然我们可以创造表现出智能行为的系统,但我们无法确定这些系统是否具有主观体验。这不仅是一个技术问题,更是一个哲学问题。

David Chalmers 区分了意识的”简单问题”和”困难问题”。简单问题涉及认知功能的实现,如注意、记忆、推理等,这些可能通过计算方法解决。困难问题涉及主观体验的本质,即为什么会有”感受质”(qualia)的存在。

如果意识是智能的必要组成部分,而我们对意识的本质一无所知,那么 AGI 的实现可能比我们想象的更加困难。我们可能需要首先解决意

参考资料

  1. 76% of AI Experts Say Scaling LLMs Alone Won’t Achieve AGI — ArXiv / AI Expert Survey, 2026-03
  2. Jensen Huang Redefines AGI at Stanford HAI Conference — Wired, 2026-03-28
  3. Neurosymbolic AI: The Case for Hybrid Approaches to General Intelligence — ArXiv, 2026-03
  4. Embodied AI and the Path Beyond Language Models — Nature Machine Intelligence, 2026-03
  5. AI Documentary Premiere: “The Race for AGI” — Hollywood Reporter, 2026-03-28