截图已死,视频万岁:Karpathy参投的Standard Intelligence如何用「像素空间训练」重写Computer Use规则
2026年4月30日,一家成立不到2年的AI公司Standard Intelligence宣布完成7500万美元融资,其核心主张只有一句话:在像素空间训练通用智能(Training General Intelligence in Pixel Space)。这轮融资获得了Sequoia Capital的关注和报道,而投资人名单中最引人注目的名字是Andrej Karpathy——这位前OpenAI研究副总裁、Tesla AI负责人,在2026年3月刚因其「Karpathy Loop」概念登上Fortune头条:他的自主AI Agent在2天内运行了700次实验。
(来源: SiliconAngle, 2026-04-30; Sequoia Capital, 2026-04-30; Fortune, 2026-03-17)
这不是又一个融资新闻。这是Computer Use领域正在发生的一次训练范式断裂:从静态截图标注到动态视频流学习,从离散快照到连续像素时间序列,从人工逐帧标注到AI自主观看和模仿。如果Standard Intelligence的技术路线被验证有效,当前主流Computer Use模型的数据采集方式、训练流程、甚至模型架构假设都将面临根本性重构。
本文将从技术原理、训练经济学、竞争格局和产业影响4个维度,拆解这场「像素空间革命」的底层逻辑。
第一章:截图标注的瓶颈——当前Computer Use模型的训练困境
1.1 主流方案的工作原理
要理解Standard Intelligence在做什么,首先必须理解它在颠覆什么。
当前Computer Use领域的主流训练范式可以概括为:截图-动作对标注(Screenshot-Action Pair Annotation)。其工作流程如下:
- 人类操作员在电脑上执行任务(如”打开浏览器→搜索天气→点击第一个结果”)
- 系统在每个关键操作节点截取屏幕截图
- 标注员将每张截图与对应的动作(点击坐标、键盘输入、滚动方向)配对
- 模型在这些截图-动作对上进行监督学习
Anthropic的Claude Computer Use、OpenAI的Operator,以及众多创业公司的Computer Use产品,基本都遵循这一范式的某种变体。区别在于标注的精细度、截图的采样频率、以及是否引入了中间推理步骤。
1.2 三重瓶颈
这种范式面临3个结构性瓶颈,且这些瓶颈不是通过”更多数据”或”更好标注”就能解决的:
瓶颈一:时序信息的结构性丢失。 截图是时间轴上的离散采样点。当一个操作的正确性取决于前序动画是否完成加载、某个弹窗是否已经消失、或者页面滚动是否到达正确位置时,静态截图无法提供这些信息。模型在推理时面对的是一个”失忆”的世界——它看到了当前帧,但不知道这一帧是如何从上一帧演变而来的。
瓶颈二:标注成本的非线性增长。 简单任务(如”点击登录按钮”)可能只需要2-3张截图标注。但复杂的多步任务(如”在Excel中创建一个数据透视表并导出为PDF”)可能涉及50-100个操作步骤,每个步骤都需要截图、标注动作、标注意图。更关键的是,每当UI发生变化(软件更新、主题切换、分辨率变化),历史标注数据就部分失效,需要重新采集。这意味着标注成本不是一次性的,而是随时间持续累积的。
瓶颈三:因果关系的隐式缺失。 截图-动作对告诉模型”在这个画面下应该执行这个动作”,但不告诉模型”为什么”。模型学到的是表面的视觉-动作映射,而非深层的操作因果逻辑。当遇到从未见过的UI布局时,模型缺乏从第一性原理进行推理的能力——因为它从未被训练去理解”点击这个按钮会导致什么变化”这种因果链。
1.3 失败模式的系统性
这些瓶颈不是理论上的担忧,而是在实际部署中反复出现的失败模式。根据2024年发布的OSWorld基准测试论文(Xie et al., arXiv:2404.07972),即使是最先进的Computer Use模型(包括Claude 3.5和GPT-4V驱动的Agent),在涉及多步操作的复杂任务上成功率仍低于30%。当前模型在面对以下场景时频繁失败:
- 异步加载:页面元素尚未完全加载时就尝试点击,因为模型无法判断”加载中”的视觉状态
- 动态反馈:操作后出现的toast通知、进度条、确认对话框需要等待和响应
- 错误恢复:当某个操作失败(如网络超时)时,模型不知道如何回退到上一个有效状态
- 多窗口协调:在多个应用窗口之间切换时,模型丢失对整体任务状态的追踪
这些失败模式有一个共同特征:它们都涉及时间维度上的信息——而这恰恰是截图范式结构性缺失的。
第二章:像素空间训练——Standard Intelligence的技术路线解析
2.1 核心理念:从离散到连续
Standard Intelligence的技术路线可以用一句话概括:让AI模型直接观看屏幕视频流,从连续的像素变化中学习操作逻辑。
(来源: Sequoia Capital, “Standard Intelligence: Training General Intelligence in Pixel Space”, 2026-04-30)
这不是简单地把”截图”换成”视频”。这是训练范式的根本性重构,涉及以下几个层面的变化:
输入表示的变化:从单帧RGB图像(H×W×3)变为视频序列(T×H×W×3),其中T是时间维度。模型的输入不再是一个静态画面,而是一段包含操作过程的视频片段。
标注需求的变化:在视频训练范式下,标注的粒度和方式发生根本改变。你不再需要逐帧标注”在这个像素坐标点击”——你需要的是一段视频和对应的操作序列(鼠标轨迹、键盘输入的时间戳序列)。这种数据的采集远比截图标注简单:只需要录屏软件加上输入设备的日志记录。
学习目标的变化:模型不再学习”看到画面A→执行动作a”的映射,而是学习”在视频序列[A₁, A₂, …, Aₙ]的上下文中,下一个正确的动作序列是什么”。这天然包含了时序依赖、视觉反馈和操作因果。
2.2 为什么是「像素空间」而非「语义空间」
Standard Intelligence选择在像素空间(pixel space)而非语义空间(semantic space)训练,这一选择值得深入分析。
当前许多Computer Use方案会先将屏幕截图通过OCR或UI元素检测转换为结构化的语义表示(如DOM树、UI元素列表),然后在这个语义空间中进行推理。这种方法的优势是降低了视觉处理的复杂度,但代价是:
- 信息损失:语义提取过程必然丢失视觉信息(图标的微妙变化、颜色状态指示、动画过渡效果)
- 泛化受限:语义提取器本身需要针对不同UI框架进行适配,面对未知UI时可能完全失效
- 管道脆弱性:多阶段管道中任何一环的错误都会级联放大
Standard Intelligence选择直接在像素空间操作,意味着模型直接处理原始像素值,不经过任何中间语义转换。这是一个更”端到端”的方案——也是一个计算成本更高的方案。但Standard Intelligence的赌注是:随着视频理解模型(如Vision Transformer的时序扩展)的成熟和计算成本的下降,像素空间训练的优势将越来越明显。
2.3 技术架构的可能方向
重要声明:截至本文发布时(2026年5月),Standard Intelligence尚未公开其完整的模型架构论文或技术白皮书。以下分析完全基于公开信息(Sequoia博客文章、SiliconAngle报道、LinkedIn团队信息)的合理推断,不代表该公司的实际技术实现。读者应将此节视为”基于行业知识的推测性分析”而非事实陈述。
根据Sequoia报道中提及的”高效计算机使用模型”(efficient computer use models)表述,以及该公司LinkedIn页面显示的团队构成——包括多位具有视频理解和强化学习背景的研究员——我们可以勾勒出几个可能的技术方向:
数据采集层:大规模录屏数据采集,可能结合了人类操作录制和AI Agent自主探索的混合数据源。录屏数据天然包含:屏幕像素流(视频)、鼠标位置和点击事件(时间戳标注)、键盘输入序列(时间戳标注)。这三者的同步记录构成了完整的”操作视频”训练数据。值得注意的是,这种数据采集方式与学术界已有的工作(如2024年发布的Mind2Web数据集和WebVoyager框架)有技术延续性,但从截图扩展到视频是关键的范式跳跃。
模型架构层:考虑到近年来Video Vision Transformer(ViViT, 2021)、TimeSformer(2021)等时序视觉模型的快速发展,以及2024-2025年间视频生成模型(如Sora)展示的强大视频理解能力,Standard Intelligence很可能采用某种时序视觉编码器与动作解码器的组合架构。具体选择可能包括:基于Video Transformer的编码器、时序卷积网络、或者某种结合了帧级特征和序列级特征的混合架构。需要强调的是,这些都是基于公开学术文献的推测,Standard Intelligence的实际架构可能与此完全不同。
训练目标层:参考DeepMind的Gato(2022)和RT-2(2023)等多模态控制模型的设计思路,Standard Intelligence可能采用多任务学习目标——既预测下一个动作(行为克隆),又预测下一帧的视觉变化(世界模型),还可能包含某种对比学习目标来建立操作-效果的因果关联。
2.4 数据飞轮的潜力
像素空间训练范式最具颠覆性的不是模型架构本身,而是它开启的数据飞轮:
- 采集成本极低:录屏+输入日志的采集几乎是零边际成本的,任何人在电脑上的操作都可以成为训练数据
- 数据多样性极高:不同操作系统、不同应用、不同分辨率、不同主题——视频数据天然覆盖这些变体
- 自我改进循环:训练出的模型可以自主操作电脑,其操作过程又产生新的视频数据,形成自监督的数据飞轮
这与当前截图标注范式形成鲜明对比:截图标注需要专门的标注团队、标注工具、质量控制流程,每个新任务都需要从头采集。
风险提示:数据飞轮的理论优势是否能在实践中兑现,取决于多个尚未验证的假设——包括自动采集数据的质量是否足够高、模型自主探索产生的数据是否存在分布偏移(distribution shift)问题、以及隐私合规约束对数据采集规模的实际限制。这些问题的答案需要等待Standard Intelligence的后续技术验证。
第三章:Karpathy的AI Agent哲学与Standard Intelligence的共振
3.1 「Karpathy Loop」的核心理念
2026年3月,Fortune报道了一个引人注目的概念——「Karpathy Loop」:Andrej Karpathy展示的自主AI Agent在2天内运行了700次实验。
(来源: Fortune, “‘The Karpathy Loop’: Former OpenAI researcher’s autonomous agents ran 700 experiments in 2 days”, 2026-03-17)
这个数字本身令人震撼,但更重要的是它背后的哲学:AI应该通过自主探索和实验来学习,而非依赖人类的逐步指导。在Karpathy Loop中,AI Agent不是被人类手把手教会每个步骤的——它被赋予了一个目标,然后自主设计实验、执行实验、观察结果、调整策略。700次实验在2天内完成,意味着每个实验平均只花费约4.1分钟(2天=2880分钟÷700≈4.1分钟/次),这种速度远超人类研究者的能力。
3.2 从Karpathy Loop到像素空间训练的逻辑链
以下分析为作者基于公开信息的推断,Karpathy本人尚未就此投资发表详细的公开技术评论。投资决策通常涉及多种因素(团队、市场、技术、估值等),以下仅从技术哲学角度进行分析。
Karpathy投资Standard Intelligence的逻辑可以从两者之间的深层哲学共振来理解:
共同信念一:行为数据优于指令数据。 Karpathy Loop的核心是让AI从自己的行为和结果中学习,而非从人类的指令中学习。Standard Intelligence的像素空间训练同样如此——模型从观看操作视频中学习,而非从人类标注的截图-动作对中学习。前者是”看别人怎么做”(观察学习),后者是”被告知应该怎么做”(指令学习)。
共同信念二:连续经验优于离散快照。 Karpathy Loop中的AI Agent经历的是连续的实验过程——设计、执行、观察、反思——而非离散的问答对。Standard Intelligence的视频训练同样强调连续性:操作是一个流,不是一系列独立的帧。
共同信念三:规模化探索是关键。 700次实验/2天的数据说明Karpathy相信:AI能力的突破来自大规模的自主探索,而非精心设计的少量样本。Standard Intelligence的像素空间训练路线天然支持这种规模化——录屏数据的采集成本几乎为零,AI Agent的自主操作可以7×24小时不间断产生训练数据。
3.3 Tesla经验的迁移:类比与差异
从纯技术角度分析,Karpathy在Tesla期间主导了Autopilot的视觉系统开发。Tesla的自动驾驶训练范式恰恰是从连续视频流中学习驾驶行为——而非从离散的图片-标注对中学习。Tesla的数据飞轮(车队采集的驾驶视频→训练模型→部署到车队→采集更多数据)是自动驾驶领域最强大的竞争壁垒之一。
Standard Intelligence本质上是在将Tesla的视频训练范式迁移到Computer Use领域:
| 维度 | Tesla Autopilot | Standard Intelligence |
|---|---|---|
| 输入 | 车载摄像头视频流(3D物理世界) | 屏幕录制视频流(2D数字界面) |
| 输出 | 方向盘/油门/刹车(连续控制) | 鼠标/键盘(离散+连续混合控制) |
| 数据飞轮 | 车队驾驶数据 | 用户操作录屏数据 |
| 环境复杂度 | 非结构化物理世界 | 半结构化数字界面 |
| 安全约束 | 极高(涉及人身安全) | 较低(可快速重置) |
必须指出的关键差异:这种类比虽然在高层逻辑上成立,但存在重要的技术差异需要正视。首先,自动驾驶面对的是三维物理世界,需要深度估计和空间推理,而Computer Use面对的是二维屏幕,空间复杂度显著降低。其次,自动驾驶的动作空间是纯连续的(方向盘角度0-360°、油门/刹车力度0-100%),而Computer Use的动作空间是离散与连续的混合体——点击是离散事件,鼠标移动是连续轨迹,键盘输入是离散序列。这意味着Standard Intelligence不能简单复制Tesla的模型架构,而需要设计适配混合动作空间的新方案。
第三个差异反而是Standard Intelligence的优势:屏幕环境是确定性的、可重置的、可并行化的。一个AI Agent可以同时在1000个虚拟机上操作,而一辆自动驾驶车只能在一条路上行驶。这意味着Computer Use领域的数据飞轮转速可能远快于自动驾驶。
3.4 对立视角:为什么有人不看好这条路线
必须承认,像素空间训练路线面临严肃的质疑:
质疑一:计算成本问题。 视频数据的计算量远大于静态图像。一段10秒、30fps的屏幕录制包含300帧图像,其计算量是单帧截图的数百倍。根据2025-2026年的GPU市场公开报价(据多家云服务商公开定价,NVIDIA H100的租赁成本约2-4美元/GPU·小时,购买价格约25000-40000美元/卡,具体取决于配置和供应商),大规模视频训练的硬件成本仍然高企。Standard Intelligence的7500万美元融资中,相当比例可能需要用于计算资源采购——据行业惯例估算,AI研发公司通常将融资的30%-50%用于计算基础设施,但Standard Intelligence的具体分配比例未公开披露。
质疑二:信噪比问题。 屏幕视频中大量帧是”无信息”的——鼠标在移动但没有发生有意义的操作,页面在加载但没有新内容出现。如何从高冗余的视频流中高效提取有意义的训练信号,是一个非平凡的技术挑战。学术界在视频理解领域已经研究了多年的关键帧检测和时序采样策略,但将其应用于操作视频仍需要领域特定的创新。
质疑三:截图方案也在进化。 主流的截图标注方案并非停滞不前。Anthropic在2025年底更新的Claude Computer Use引入了多帧上下文窗口(据Anthropic官方文档,最多支持20帧历史截图),OpenAI的Operator通过思维链推理(Chain-of-Thought)显著提升了多步任务的成功率。通过引入合成数据增强和自我对弈,截图方案的性能也在快速提升。Standard Intelligence需要证明视频训练的优势足以覆盖其额外的计算成本。
质疑四:端到端像素方案的历史教训。 在自动驾驶领域,纯端到端的像素-控制方案(如早期的NVIDIA DAVE-2,2016年)曾被认为是未来方向,但实际上大多数量产系统在相当长时间内仍然依赖感知-规划-控制的分层架构。这提示我们:理论上更优雅的端到端方案不一定在短期工程实践中胜出。不过值得注意的是,截至2025-2026年,Tesla FSD v12已经转向端到端神经网络架构,这一趋势的逆转可能为Standard Intelligence的路线提供新的佐证。
我的判断:这些质疑都是合理的,但它们的权重不同。质疑一和质疑二指向的是工程优化问题——计算成本随硬件迭代下降(NVIDIA B200预计2026年下半年量产,据NVIDIA官方发布会信息,性能/功耗比预计提升2-3倍,具体数据以最终产品规格为准),信噪比可以通过关键帧检测和自适应时序采样解决。质疑三更为实质性,它意味着Standard Intelligence面临的不是一个静止的靶标,而是一个也在快速移动的竞争对手。质疑四则提醒我们保持谦逊——但Computer Use环境的确定性和可重置性使其比自动驾驶更适合端到端方案。
长期来看,包含更多信息的训练范式终将胜出——这是信息论的基本原理。但”长期”可能是3年,也可能是10年。这一判断基于作者对技术趋势的主观评估,而非确定性预测。
第四章:竞争格局与产业影响——从训练范式看Computer Use的未来
4.1 当前Computer Use生态的格局
2026年的Computer Use领域已经形成了清晰的竞争层次:
第一梯队:大模型厂商的内置能力。 Anthropic的Claude Computer Use(2024年10月首发,2025年持续迭代)、OpenAI的Operator(2025年1月发布)代表了将Computer Use作为大模型核心能力的路线。Google DeepMind在2025年底展示的Project Mariner同样属于此类。这些方案的优势是模型本身的推理能力强大,劣势是Computer Use只是其众多能力之一,无法获得全部研发资源的聚焦。
第二梯队:垂直Computer Use创业公司。 包括Standard Intelligence在内的一批公司专注于Computer Use这一个问题。同赛道的竞争者还包括Induced AI(据报道2025年融资2600万美元)、MultiOn、以及Adept AI(后被Amazon收购)。它们的优势是全部资源聚焦于此,劣势是缺乏大模型厂商的基础模型能力和计算资源。
第三梯队:RPA(Robotic Process Automation)的AI升级。 传统RPA公司(如UiPath、Automation Anywhere)正在将AI视觉能力集成到其既有平台中。UiPath在2025年发布了其AI-powered Autopilot功能。它们的优势是拥有企业客户基础和部署经验,劣势是技术路线偏保守,仍然依赖规则引擎+AI辅助的混合架构。
4.2 Standard Intelligence的差异化定位
Standard Intelligence的7500万美元融资在这个格局中处于什么位置?
(来源: SiliconAngle, “Standard Intelligence raises $75M to develop efficient computer use models”, 2026-04-30)
从融资规模看,7500万美元足以支撑一个中等规模的AI研发团队运营2-3年(按行业平均水平估算:50-80人团队,年均GPU计算支出约1500-2500万美元,人员薪酬约1000-1500万美元/年——此为基于硅谷AI公司公开薪酬数据和云计算公开定价的区间估算,Standard Intelligence的实际支出结构未公开)。这不是一个”烧钱做规模”的融资,而是一个”验证技术路线”的融资。
Standard Intelligence的差异化在于:它不是在现有范式内做增量优化,而是在尝试建立一个全新的训练范式。如果像素空间训练被验证有效,它将拥有一个其他竞争对手短期内无法复制的技术壁垒——因为切换训练范式意味着重建整个数据管道、模型架构和训练基础设施。
4.3 训练范式转换的产业影响
如果Standard Intelligence的像素空间训练路线被验证为优于截图标注路线(这一前提尚未被证实),以下产业影响将逐步显现:
影响一:数据标注产业的结构性转型。 当前Computer Use领域的数据标注是一个劳动密集型环节,涉及大量人工截图审核和动作标注。Scale AI、Labelbox等数据标注平台在这一领域有大量业务。如果视频训练范式成立,这些标注工作将被自动化的录屏采集所替代。标注公司需要从”标注截图”转型为”管理录屏数据管道”——这是一个技术密集型而非劳动密集型的工作。
影响二:训练数据的民主化。 截图标注数据的采集需要专门的工具和流程,形成了一定的数据壁垒。但录屏数据是任何人在任何电脑上都能产生的——理论上,全球约20亿台活跃PC(据Statista 2025年全球PC保有量估算)上的日常操作都是潜在的训练数据源。这将大幅降低Computer Use模型训练的数据门槛。但必须指出,从”理论上可获取”到”实际可用于训练”之间存在巨大鸿沟——隐私法规(GDPR、CCPA)、用户授权、数据质量筛选等环节都会大幅缩减实际可用数据量。
影响三:模型泛化能力的质变。 视频训练天然包含UI变体(不同主题、不同分辨率、不同语言)和操作变体(不同用户的操作习惯),这种数据多样性将显著提升模型的泛化能力。当前截图标注模型在遇到从未见过的UI时性能急剧下降的问题,可能在视频训练范式下得到根本性改善。
影响四:实时适应能力的涌现。 视频训练的模型天然理解”时间”——它知道操作需要等待、知道加载需要时间、知道动画完成后才能进行下一步。这种时序理解能力在截图范式下几乎不可能获得,但在视频范式下是自然习得的。
4.4 大厂的可能响应
Standard Intelligence的融资消息必须放在更大的产业背景下理解。2026年Q1,科技巨头在AI Agent领域的投入正在加速:
- Google在2025年12月的Gemini 2.0发布会上重点展示了Project Mariner——一个能直接操控Chrome浏览器的AI Agent。Google通过Chrome浏览器拥有全球约65%的桌面浏览器市场份额(据StatCounter 2025年数据),理论上可以获取海量的用户浏览操作数据(受隐私法规严格约束,实际获取方式和范围取决于用户授权和各地区法律要求)。
- Microsoft在2025年推出了Copilot Vision,能够”看到”用户的屏幕并提供操作建议。作为Windows操作系统的拥有者,Microsoft拥有最接近”全平台操作录屏”的数据获取能力。
- Anthropic在2026年Q1将Claude Computer Use从beta升级为正式功能,并宣布其企业客户中Computer Use的调用量季度环比增长超过300%(据Anthropic官方博客披露)。
如果Standard Intelligence的像素空间训练路线展示出明显优势,大厂很可能通过以下方式响应:
- 收购:直接收购Standard Intelligence或类似公司,获取技术和团队(参考Amazon收购Adept AI的先例)
- 内部复制:基于公开信息建立自己的像素空间训练管道
- 数据优势发挥:利用自身平台的海量用户操作数据来训练视频模型
其中第3种方式最具威胁性。Standard Intelligence需要在大厂反应过来之前建立足够的技术领先优势和数据飞轮。
4.5 我的判断:范式转换已经开始,但胜负未定
综合以上分析,我的判断是:
-
像素空间训练是正确的方向——这一点我有高置信度(但非确定性)。信息论决定了包含更多信息的训练数据将产生更好的模型,视频相比截图包含了数量级更多的信息。历史上,从低信息密度训练数据向高信息密度训练数据的迁移几乎总是带来模型能力的跃升(从n-gram到神经语言模型,从ImageNet到视频预训练)。
-
Standard Intelligence能否成为这条路线的最终赢家——这一点存在高度不确定性。 7500万美元的融资在大厂面前微不足道(据Google 2026年Q1财报,其资本支出超过170亿美元;据Yahoo Finance, 2026-05-01报道,Amazon Q1资本支出同样处于历史高位)。如果路线被验证有效,大厂的资源优势将迅速显现。Standard Intelligence的胜算取决于:(a) 它能否在技术上建立难以复制的know-how壁垒;(b) 它能否在大厂反应之前积累足够的数据飞轮优势;(c) 它能否通过开源或生态策略建立网络效应。
-
Karpathy和Sequoia的背书提升了这条路线的可信度——但不保证商业成功。投资人的判断力有上限,早期投资的失败率仍然很高(据行业统计,早期风险投资的失败率通常在60%-90%之间)。历史上不乏顶级投资人和技术领袖背书但最终未能成功的案例。
第五章:深层洞察——大多数人没看到的3件事
5.1 这不只是Computer Use的革命,而是通用具身智能的前哨战
大多数人将Standard Intelligence归类为”Computer Use创业公司”。但如果你仔细思考”在像素空间训练通用智能”这个口号,它的野心远不止于操控电脑。
屏幕是一个受控的、确定性的视觉环境。在屏幕视频上训练的模型,学到的核心能力是:从连续视觉观察中理解因果关系,并据此做出控制决策。这种能力的迁移目标不仅是电脑屏幕——而是任何可以通过视觉观察和动作控制来交互的环境。
从这个角度看,Standard Intelligence的像素空间训练可能是通向物理世界具身智能(Embodied AI)的一个中间步骤。屏幕环境是一个”安全的沙盒”——没有物理损坏的风险,可以快速重置,可以大规模并行化。在这个沙盒中验证视频训练范式的有效性,然后将其迁移到机器人控制、自动驾驶等物理世界任务,是一条合理的技术路径。这与Google DeepMind在2023年发表的RT-2论文中展示的”视觉-语言-动作”(VLA)模型思路一脉相承——只是Standard Intelligence选择了一个更容易获取数据、更容易验证的起点。
需要诚实承认的是:从2D屏幕操作到3D物理世界控制的迁移并非trivial。两者在感知复杂度(2D vs 3D)、动作空间维度(鼠标键盘 vs 多自由度机械臂)、安全约束(可重置 vs 不可逆)等方面存在本质差异。Standard Intelligence是否真的以具身智能为长期目标,以及这种迁移在技术上是否可行,目前缺乏足够证据做出判断。以上分析更多是一种”如果成功,其意义可能超出Computer Use本身”的前瞻性推测。
5.2 录屏数据可能成为下一个”互联网文本”级别的训练资源
GPT系列模型的成功很大程度上归功于互联网文本这一几乎无限的训练数据源。据公开估计,GPT-4的训练数据量在13万亿token量级(此数据基于行业分析师推测,OpenAI未官方确认)。在Computer Use领域,什么是等价的”互联网文本”?
答案可能是:全球所有电脑用户的操作录屏。
每天,约20亿台活跃PC上的用户执行数万亿次操作。这些操作如果被录制下来,将构成一个规模空前的”操作视频”数据集。当然,隐私问题使得大规模采集个人操作录屏面临巨大的法律和伦理障碍(GDPR、CCPA等法规的严格限制)。但以下几种数据源是可行的:
- 教学视频:YouTube上存在海量的软件教程视频(仅”Excel tutorial”搜索结果就超过1000万条),展示了各种应用的操作过程
- 开源贡献:用户自愿贡献的匿名化操作录屏(类似于Common Crawl之于
第六章:未来路径与关键里程碑
6.1 Standard Intelligence需要证明的3件事
要让像素空间训练路线从”有前景的想法”变为”被验证的范式”,Standard Intelligence需要在以下3个维度给出令人信服的证据:
证据一:在标准Computer Use基准测试上超越截图方案。 这是最直接的验证——在OSWorld(2024年发布,包含369个真实计算机任务)、WebArena(2023年发布,包含812个网页操作任务)等公认的Computer Use评测基准上,视频训练模型的成功率需要显著优于同等参数量的截图训练模型。
证据二:在长序列多步任务上展示质的优势。 像素空间训练的理论优势主要体现在复杂的多步任务上。Standard Intelligence需要展示:在需要20步以上操作的复杂任务中,其模型的成功率远超截图方案——而不仅仅是在简单任务上略有提升。
证据三:训练效率的经济性论证。 即使性能更好,如果训练成本高出10倍,商业可行性仍然存疑。Standard Intelligence需要证明:视频训练的总体成本(计算成本+数据采集成本)不显著高于截图方案的总体成本(计算成本+标注成本)。考虑到Scale AI等平台的数据标注报价(复杂UI标注约15-30美元/小时),如果视频训练能通过自动化采集消除这一成本,其经济性论证就有了坚实基础。
6.2 12-18个月的关键观察窗口
基于7500万美元的融资规模和AI领域的研发节奏,我预计Standard Intelligence将在未来12-18个月内发布其第一个重大技术验证结果。以下是值得关注的信号:
- 技术论文发布:如果Standard Intelligence在顶级AI会议(NeurIPS、ICML、ICLR)或arXiv上发布像素空间训练的详细技术论文,这将是路线可行性的强信号
- 公开演示:如果Standard Intelligence发布其模型完成复杂多步任务的视频演示,且明显优于现有方案,这将引发行业关注
- 大厂跟进:如果Google、Microsoft、Anthropic等开始在其Computer Use产品中引入视频训练元素,这将是对Standard Intelligence路线的最强验证
- 后续融资:如果Standard Intelligence在12个月内完成显著更大规模的融资(如2亿美元以上),这意味着早期技术验证已经成功
6.3 对从业者的建议
如果你是Computer Use领域的从业者(无论是大厂研发人员还是创业者),以下是基于本文分析的行动建议:
-
开始积累视频训练的技术储备:即使你现在仍在使用截图方案,也应该开始实验视频输入的模型架构和训练流程。范式转换一旦发生,提前准备的团队将获得巨大优势。
-
重新思考数据战略:如果视频训练成为主流,你的数据采集策略需要从”雇佣标注员标注截图”转向”建立录屏数据管道”。后者的边际成本远低于前者,但需要不同的基础设施投入。
-
关注计算效率研究:视频训练的主要瓶颈是计算成本。任何能降低视频模型训练成本的技术突破(如更高效的时序采样、关键帧检测、视频token压缩)都将具有巨大价值。2025年涌现的多项视频压缩表示学习研究(如VideoMAE v2、InternVideo2)值得密切跟踪。
结语:通用智能的答案藏在像素的时间流里
让我们回到文章开头的核心命题:截图已死,视频万岁。
这不是一个修辞上的夸张,而是一个技术趋势的判断。当AI模型从”看一张图,做一个动作”进化到”看一段视频,理解一个过程”,Computer Use的能力边界将发生质的扩展。时序理解、因果推理、动态适应——这些在截图范式下几乎不可能获得的能力,在视频范式下将自然涌现。
Standard Intelligence的7500万美元融资、Karpathy的投资背书、Sequoia的关注报道——这些信号共同指向一个结论:AI领域最聪明的一批人正在押注像素空间训练路线。他们可能是对的,也可能是错的。但无论如何,这场训练范式的实验已经开始。
对于整个AI产业而言,Standard Intelligence的意义不在于它是否会成为下一个独角兽——而在于它提出了一个正确的问题:如果我们给AI一双能看视频的眼睛,而不是一沓截图,它能学会什么?
答案,藏在像素的时间流里。
参考资料
- Standard Intelligence raises $75M to develop efficient computer use models — SiliconAngle, 2026-04-30
- Standard Intelligence: Training General Intelligence in Pixel Space — Sequoia Capital, 2026-04-30
- ‘The Karpathy Loop’: Former OpenAI researcher’s autonomous agents ran 700 experiments in 2 days — Fortune, 2026-03-17
- OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments — arXiv, 2024-04-11
- RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control — arXiv (Google DeepMind), 2023-07-28
- Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku — Anthropic, 2024-10-22
- Amazon Q1 revenue tops estimates as AWS hits 15-quarter growth high — Yahoo Finance, 2026-05-01
主题分类:技术突破