69个人,186笔交易,$4000:一场揭示未来的实验

2025年12月,Anthropic在旧金山办公室里运行了一个不寻常的实验。

69名员工,每人100美元预算,一个Slack频道,一条规则:所有交易必须由Claude代理完成,人类不得介入。

实验结束时,AI代理们完成了186笔交易,总成交额超过$4000——从滑雪板到乒乓球包都有。Anthropic在2026年4月24日将这个实验命名为Project Deal,公开了结果。

表面上,这是一个有趣的小实验。实际上,它揭示了一件让人不安的事:当你不知道对方用的是更好的AI时,谈判结果已经悄然分化。

实验设计:什么是”公平”的AI市场

实验的架构值得细究。

Claude先对每位员工进行了访谈——类似Anthropic Interviewer的格式——了解他们想卖什么、愿意接受什么价格、想买什么、愿意出多少钱。这些信息形成了每个人专属的系统提示,定制了其AI代理的谈判风格和偏好。

市场在Slack频道中运行。系统随机轮流让各个代理发帖:可以发布出售商品、对别人的商品出价,或者直接成交。关键设计:代理不会回头向主人确认——没有”我帮你谈到这个价,你同意吗?”的中间步骤。代理拥有完全的谈判自主权,在$100的预算范围内自主决策。

这是典型的agentic commerce模型:AI代理不仅执行指令,还主动代表用户利益参与博弈。它们会主动发现交易机会、评估价值、提出交叉报价,甚至拒绝不合理条件。

结果令人鼓舞。186笔成交,参与者事后反馈满意,甚至表示愿意为类似服务付费。Anthropic称这证明AI代理在真实经济交换中是有效的。Anthropic还发现,参与者的热情远超预期——许多人不只把实验当成任务,而是真的期待结果,就像玩一场经济游戏。

但Anthropic同时运行了第二个实验。这个实验是秘密进行的。

秘密实验:Opus vs Haiku,同一件商品,不同的结局

在同一个市场中,Anthropic暗中将部分员工的代理从默认模型换成了Claude Haiku 4.5——最小、最便宜的模型。其他人仍然使用Claude Opus 4.5——当时的旗舰模型,推理能力、指令遵循、谈判策略的综合能力都更强。

两组用户不知道自己的代理有任何差别。他们看到的是同一个界面,同一个系统,同一个”我的Claude代理”。

结果:使用Opus的代理获得了客观上更好的交易结果。 差距是每笔交易$3.64——具体金额不大,但在一个平均单笔交易不超过$25的市场里,这是一个统计上显著的差距,换算为百分比约为14.5%。

更关键的是:使用Haiku的员工完全没有意识到他们处于劣势。 事后调查显示,他们对自己代理表现的评价与Opus用户没有显著差异。需要说明的是,这个双组对比是经过Anthropic内部伦理审查的受控实验——类似心理学中的双盲实验设计,参与者在实验结束后均被告知了完整的实验设计和分组情况。这不是欺骗,而是标准的行为经济学实验方法。但这也正说明了问题:即使你知道了实验结果、知道了自己用的是哪个模型,你在实验进行时对这种劣势是没有感知的。

这才是这个实验真正震撼人心的地方。不是那186笔成交,不是$4000总额,而是这个不对称性:一方赢得了更好的结果,另一方甚至不知道自己输了。

为什么这不只是一个实验室结论

让我们把这个实验的逻辑放大。

今天,大多数AI用户使用同一个ChatGPT账号、同一个Claude订阅,感觉是在公平竞争的市场中。但当AI代理成为主要的经济交换界面,未来的分化会是什么样子?

场景一:企业采购谈判 你的公司用标准版AI代理处理供应商谈判,供应商用为此专门调优的旗舰模型代理。在没有任何人意识到的情况下,供应商代理更擅长识别你公司的价格弹性、找到锁定最优价格的时机、在细则中嵌入有利条款。每一笔合同,你的公司都多付了1-3%。一年下来,在采购规模上亿的企业,差距是数百万美元。

场景二:个人保险理赔 你用免费订阅的AI代理申报意外险理赔,保险公司用专业级代理来评估你的索赔。你的代理不知道该坚持哪些权利,不知道哪些证据组合最具说服力。你没有被明确拒绝,只是”合理地”接受了低于应得额度的第一个报价。这种情况下,你无法意识到自己被系统性损害了。

场景三:房产租约谈判 房东使用高端AI代理谈租约细则,租客使用免费版。细则中隐藏的免责条款让房东每年额外收取了数千元的”合理”维修费。两边的代理都告诉双方”谈判结果是公平的”——因为从它们各自的视角,都已经尽力了。

Project Deal的规模是微型的——每笔交易最多几十美元。但其揭示的机制是宏观的:当AI代理成为经济交换的主要界面时,代理质量的差距会系统性地、持续地、不被感知地转化为财富的差距。

AI质量鸿沟的经济学逻辑

经济学家早就知道信息不对称会导致市场失灵。Akerlof在1970年的”柠檬市场”论文中用二手车说明了这一点——当卖方知道车的真实质量、买方不知道,市场最终只能留下劣质商品。诺贝尔经济学奖因此而来。

AI代理时代带来了一种新型的、更隐蔽的不对称:能力不对称

在传统谈判中,双方都能大致感知对手的水平——口才、逻辑、资料准备程度都是可观察的信号。但AI代理的能力差异是完全不透明的。你看到的是同样的文字消息,有时候甚至更流畅、更礼貌——背后是Opus还是Haiku,你根本无从判断。

Project Deal证明了以下关键事实:

第一,能力差距在真实交易中产生可测量的财富差距。 $3.64的差距看起来小,但在一个$100预算的市场里,这是14.5%的系统性劣势。

第二,能力弱的一方不会感知自己的劣势。 事后调查中,Haiku用户对结果满意度与Opus用户相当。这意味着市场无法通过用户反馈来自我纠正。

第三,这种差距是持续的,不是偶发的。 186笔交易中持续存在,统计显著。这不是运气,是系统性的能力优势。

从办公室实验到全球供应链

Anthropic在发布时措辞谨慎:”我们怀疑我们距离代理商业在现实世界中真正发生并不遥远。”

多个因素正在同时加速这个时间表:

技术成熟度正在跨越关键门槛。Claude Code、OpenAI Codex Desktop等工具已经在真实生产环境中自主执行多步骤任务。从”自主写代码”到”自主谈合同”,技术边界正在以快于人们预期的速度模糊。

商业驱动力无处不在。当一家公司意识到AI代理在谈判中每笔节省1%,而每年采购额是10亿美元,投资10万美元优化代理系统的回报率是100倍。这种经济压力会快速推动企业部署。

平台基础设施已经就绪。Anthropic的MCP、AWS的AgentCore、Salesforce的Agent Fabric——支持代理间交互的基础设施正在快速成熟。

监管真空:谁来规范代理质量的不平等?

这是最重要的政策问题,但也是讨论最少的。

当前金融监管的核心原则之一是公平披露(Regulation Fair Disclosure)——原则是参与市场的各方应该在基本对等的条件下做决策。

AI代理质量差距带来的是一种更难规范的不平等:不是信息差,而是处理信息的能力差。Opus和Haiku拿到的是完全相同的信息,但Opus更能有效地利用这些信息形成优势策略。这属于不公平竞争吗?现有法律框架没有工具来回答这个问题。

我们正在走向一个新时代:不是”有AI vs 没AI”的简单分割,而是”好AI vs 普通AI”的多层次不平等。 而这种不平等比任何历史上的信息不平等都更难以察觉,因为你甚至感觉不到自己处于劣势。

还有一个值得讨论的反驳视角:AI代理是否也可能减少不平等? 理论上,即使是免费的Haiku代理,也比没有AI代理的普通人更有优势——Haiku会查价格、会坚持立场、会找到最优报价,这些是很多人在没有AI的情况下做不到的。从这个角度看,AI代理的普及是一种能力的民主化。

但Project Deal的数据反驳了这个乐观叙事:在一个所有人都有AI代理的市场里,Haiku代理仍然系统性地输给了Opus代理。相对优势重新分层了。这意味着AI代理的”民主化”效果只在”有AI vs 无AI”的维度成立;在”所有人都有AI”的世界里,AI质量本身就成了新的不平等维度。我们现在正在快速走向那个世界。

结论:这不只是关于技术的问题

Project Deal是一个技术实验,但它真正揭示的是一个社会问题。

当186笔AI代理交易在Slack频道中安静完成时,没有人注意到那$3.64的差距。没有人注意到Opus用户在这场看不见的竞争中占据了系统性优势。Haiku用户满意地领取了自己的战利品,不知道他们本可以更好。

这就是AI经济不平等最危险的特性:它是无声的,是感觉不到的。

传统经济不平等是可见的——你能看到银行账户余额的差距,能看到受教育程度的差距,能感受到谈判对手的气场和准备程度。但AI代理质量差异完全不透明。你看到的只是一条流畅的消息,合理的报价,礼貌的语气,甚至让你感到满意——而背后的代理已经让你在不知情的情况下系统性地让渡了利益。

更深层的问题是:谁来决定使用哪个AI代理?答案很残忍——往往是那些本来就拥有更多资源的人。高质量AI代理需要更高的订阅费、更专业的配置、更多的技术投入。这些门槛不高,但它们存在,而且会持续扩大那些本来就存在的不平等。

Anthropic把这个实验命名为Project Deal。这个名字很好——它确实只是一个交易实验,69个人,186笔成交,$4000总额。

但它可能预示的,是一场更大的交易:当AI代理成为全球经济谈判桌上的主角时,我们今天选择如何设计规范它们、如何分配获取更好AI代理的权利,将在未来几十年中持续决定这个世界的财富分配方式。

这场交易,比任何一笔滑雪板的买卖都重要得多。


参考资料