当所有人都在谈Agent,有多少真的在赚钱?

2026年的AI圈有个奇怪的现象:每个人都在做”Agent”,每场发布会都要提”自主决策”,每份融资PPT都写着”下一代AI范式”。但当我问一个最简单的问题——”你的Agent给客户创造了多少收入”——能给出具体数字的公司屈指可数。

上周Ezra宣布完成320万美元种子轮融资,用语音AI做招聘Agent。我仔细研究了他们的产品,发现这可能是我见过的少数几个”真Agent”——不是PPT上的概念,而是真正在生产环境中运行、为客户解决问题、创造可衡量价值的Agent。

这让我开始思考:为什么市场上有那么多Agent项目,但真正落地的这么少?从炒作到现实,这中间到底隔着什么?


Agent的三层定义:你做的是哪一层?

首先我们要搞清楚,什么是”真Agent”。

我观察到,市场上对Agent有三层完全不同的定义,而大部分人在故意混淆这三层,把第一层的东西包装成第三层来融资。

第一层:对话式界面(Chatbot)

这是最基础的层次。用户输入一个问题,AI给出一个回答。可能比传统搜索框聪明一点,但本质上还是”一问一答”的模式。

市场上大部分所谓的”Agent”其实停留在这一层。它们可能用了最新的大语言模型,可能有精美的对话界面,但核心能力还是”回答问题”,而不是”解决问题”。

第二层:任务自动化(Task Automation)

这一层的Agent能够完成特定任务,比如”帮我订一张去上海的机票”、”筛选出符合条件的求职者”、”生成一份周报”。

这需要Agent能够理解任务、拆解步骤、调用工具、处理结果。技术难度比第一层高很多,但还是在相对固定的流程框架内运行。

Ezra的招聘Agent基本属于这一层。它能够和求职者进行多轮对话、收集信息、评估匹配度、生成报告。这已经是一个完整的任务自动化流程,而不仅仅是回答问题。

第三层:自主决策(Autonomous Agent)

这是真正意义上的Agent。它不仅能完成任务,还能自主制定计划、应对突发情况、优化执行策略、甚至发起主动行动。

比如一个销售Agent,不是等着你告诉它”给客户发邮件”,而是自己分析客户数据,判断哪些客户最有可能成交,主动发起联系,根据客户反馈调整话术,最终完成交易。

这一层的Agent目前基本停留在实验室和demo阶段。技术挑战极大,可靠性、安全性、可控性都是大问题。

现实很残酷:市场上90%的”Agent”都在第一层,顶多10%做到第二层,做到第三层的基本为零。

但融资材料上,大家都说自己在做第三层。这就是炒作和现实的第一道鸿沟。


从Demo到生产:99%的项目死在这道坎

即使是做到第二层的Agent,从demo到生产环境也有一道巨大的鸿沟。我见过太多这样的场景:

Demo阶段:创始人在投资人面前演示,AI流畅对话、精准理解、完美执行。投资人很兴奋,写了支票。

生产环境:客户部署后一周,投诉电话打爆。AI理解错误率30%、任务失败率50%、偶尔还会给出荒唐的回答。客户要求退款,投资人开始质疑。

这道鸿沟到底在哪里?

问题1:真实世界的复杂性

Demo环境是理想化的:用户说话清晰、提问标准、背景信息完整。但真实世界完全不是这样。

一个求职者可能带着浓重的地方口音,可能说话断断续续,可能前言不搭后语。AI需要能听懂这些”不标准”的输入,而这远比demo中的标准普通话难得多。

一个客服对话可能从咨询商品开始,中途突然抱怨物流,然后又跳到退货政策,最后问了一个完全不相关的问题。AI需要能跟上这种混乱的逻辑跳跃,而不是被带偏或崩溃。

问题2:边缘情况的处理

Demo展示的是”正常路径”:用户按照预期流程一步步走下来。但真实世界充满了”边缘情况”。

用户可能在对话中途突然沉默,可能说”我要想想”然后挂断,可能问一些完全超出系统能力范围的问题。一个robust(健壮)的Agent需要优雅地处理这些情况,而不是直接报错或给出荒唐答案。

我见过一个客服Agent的真实案例:用户问”你们送货到火星吗”,AI回答”可以,预计配送时间3-5个工作日”。这在demo中不会出现,但在生产环境中,这种荒唐回答会直接毁掉品牌信誉。

问题3:性能和成本的平衡

Demo可以用最强的模型、最贵的算力,反正只是演示几次。但生产环境要考虑成本。

一个客服Agent如果每次对话都调用GPT-4,成本可能是每次对话几美分到几毛钱。如果一天有10万次对话,成本就是几千到几万美元。这对大部分公司来说是不可承受的。

所以真实的Agent系统需要做大量优化:什么时候用大模型、什么时候用小模型、什么时候用规则引擎、什么时候缓存结果。这些工程优化在demo中完全看不到,但在生产环境中至关重要。

问题4:与现有系统的集成

Demo是独立运行的,但生产环境中的Agent需要和客户现有的系统集成:CRM、订单系统、库存系统、支付系统、邮件系统等等。

每一个集成都可能出问题:API接口变更、数据格式不匹配、权限认证失败、网络超时。一个真正可用的Agent需要处理这些集成问题,而这往往占据了50%以上的开发时间。

Ezra的招聘Agent能够快速部署,很大程度上是因为他们设计了简洁的集成方案:不需要深度对接客户的HR系统,只需要一个API接口就能开始工作。这种”轻集成”策略大大降低了落地难度。


价值证明的困境:ROI在哪里?

即使Agent成功部署到生产环境,还有一个更大的挑战:如何证明价值?

这是我和很多Agent创业者聊天时发现的共同痛点。他们的产品可能真的很好用,但很难向客户证明”到底节省了多少钱、创造了多少价值”。

招聘Agent的价值相对好证明

传统流程中,一个HR筛选100份简历可能需要2-3小时。用Ezra的Agent,这个时间可以压缩到几分钟。如果一家公司每月招聘100人,每年能节省数百小时的HR时间,按照HR的时薪计算,ROI很容易算出来。

而且招聘有明确的结果指标:招聘周期、候选人质量、offer接受率、新员工留存率。如果Agent能在这些指标上有明显改善,价值就很好证明。

客服Agent的价值证明就复杂得多

表面上看,用AI替代人工客服能节省人力成本。但实际情况是:

  • AI可能只能处理30%-50%的咨询,剩下的还需要转人工
  • AI的回答质量可能不如人工,导致客户满意度下降
  • AI出错可能造成更大的损失(比如误导客户、给出错误信息)

所以很多公司部署客服Agent后发现,总成本并没有显著下降,因为你还得保留原来的人工客服团队作为备份。AI更多是”锦上添花”而不是”雪中送炭”。

销售Agent的价值证明最困难

销售是一个复杂的人际互动过程,很难归因于某个单一因素。如果你部署了一个销售AI,这个月业绩上涨了10%,你能说这10%是AI的功劳吗?可能是市场好、可能是产品改进、可能是销售团队更努力,AI只是众多因素之一。

而且销售是高度情感化的过程。很多客户更愿意和”真人”交流,而不是和AI。强行推AI可能反而降低成交率。

这就是为什么,我们看到招聘、客服这些”低情感、高重复”的场景中Agent落地较快,而销售、咨询这些”高情感、低重复”的场景中Agent还在挣扎。


三个典型的失败模式

在研究了几十个Agent项目后,我总结出三个典型的失败模式:

失败模式1:技术驱动,忽视场景

很多技术背景的创业者,手里有个强大的模型或算法,然后去找应用场景。结果就是”拿着锤子找钉子”——技术很强,但找不到真正的痛点。

我见过一个团队做了一个”通用Agent框架”,号称能够应用于任何场景。但当我问”你的第一个客户是谁、解决什么问题”,他们答不上来。没有具体场景,再强的技术也落不了地。

失败模式2:过度承诺,交付不足

为了融资或获客,创业者过度承诺Agent的能力:”我们的AI能够完全替代人工”、”准确率达到99%”、”任何问题都能解决”。

但实际部署后,客户发现根本不是那么回事。准确率只有70%,很多问题解决不了,还经常需要人工介入。客户觉得被骗了,口碑彻底毁掉。

失败模式3:缺乏工程化能力

很多AI创业者是研究背景,擅长做模型、写论文、刷榜单,但缺乏工程化能力。他们能做出impressive(令人印象深刻)的demo,但做不出stable(稳定)的产品。

生产环境需要的不是最先进的模型,而是可靠、稳定、可维护的系统。需要监控、告警、日志、回滚、灰度发布、A/B测试等一系列工程能力。缺乏这些能力的团队,很难把Agent从实验室带到客户现场。


什么样的Agent能活下来?

在一片炒作和泡沫中,什么样的Agent项目有机会真正活下来、做大?

基于我的观察,我认为有三个关键成功要素:

要素1:选对场景

不是所有场景都适合Agent。好的Agent场景有几个特征:

  • 高重复性:任务足够标准化,可以通过学习少量案例泛化到大量情况
  • 可衡量价值:能够清晰量化Agent带来的效率提升或成本节省
  • 容错空间:Agent出错的后果相对可控,不会造成灾难性损失
  • 低情感需求:用户不强烈要求和”真人”交互

招聘、客服初筛、数据录入、报告生成这些场景比较符合这些特征。而战略咨询、心理咨询、高端销售这些场景目前还不适合Agent。

要素2:聚焦垂直

通用Agent是个伪命题。一个什么都能做的Agent,往往什么都做不好。

真正成功的Agent都是深耕垂直场景的。Latent专注医疗,Ezra专注招聘,Lance专注酒店。他们不追求大而全,而是在一个细分领域做到极致。

垂直化带来三个优势:

  • 深度理解:对行业的深刻理解能转化为产品设计上的优势
  • 数据积累:在垂直领域积累的数据形成护城河
  • 品牌效应:成为某个细分领域的代名词

要素3:重视工程化

AI能力只是Agent的一部分,更重要的是工程化能力。一个成功的Agent系统需要:

  • 健壮的错误处理:优雅处理各种边缘情况和异常输入
  • 完善的监控告警:实时监控Agent的表现,快速发现和解决问题
  • 持续的优化迭代:基于真实数据不断优化模型和策略
  • 易用的集成接口:降低客户的部署和集成成本

这些”脏活累活”看起来不性感,但决定了Agent能否真正在生产环境中稳定运行。


2026年的现实:炒作退潮,价值显现

回到最初的问题:当所有人都在谈Agent,有多少真的在赚钱?

答案是:很少。但这不意味着Agent没有价值,而是意味着我们正在经历一个从炒作到现实的转折点。

2025年是Agent炒作的高峰期。每个人都在讲故事、描绘愿景、融资。但到了2026年,市场开始冷静下来,投资人和客户都在问同一个问题:”你的Agent到底能不能用?到底值不值?”

这对行业是件好事。炒作退潮后,那些真正解决问题、创造价值的Agent会浮现出来。Ezra、Latent这些公司,虽然现在规模还不大,但他们证明了Agent是可以落地、可以赚钱的。

未来一两年,我预测会有大量的Agent项目死掉——那些只会做PPT、不会做产品的项目。但同时,会有一批真正优秀的Agent公司成长起来,成为各自垂直领域的隐形冠军。

对于创业者,我的建议是:少一些愿景,多一些执行;少一些炒作,多一些价值;少一些demo,多一些客户

对于投资人,我的建议是:不要被demo迷惑,要看生产环境的数据;不要听创始人讲故事,要听客户讲体验;不要只看技术,要看工程化能力

对于行业从业者,我的建议是:保持清醒,不要被炒作裹挟;关注那些真正落地的案例,而不是那些夸夸其谈的项目;相信Agent的价值,但也要承认现实的困难

Agent的时代确实在到来,但不是以我们在2025年想象的那种方式。它不会是一夜之间的革命,而是一个渐进的、务实的、痛苦的落地过程。

那些能够穿越这个过程的公司,将定义AI的下一个十年。


后记:我们需要什么样的Agent?

作为一个长期关注AI落地的观察者,我常常思考:我们到底需要什么样的Agent?

不是那种”无所不能”的通用AI——那在可预见的未来都不会出现。

也不是那种只会聊天、不会做事的对话机器人——那只是旧瓶装新酒。

我们需要的是一种”够用的智能”:在特定场景下,能够稳定、可靠、高效地完成特定任务的Agent。它不需要通过图灵测试,但需要真正为用户创造价值。

Ezra的招聘Agent就是这样一个例子。它不会写诗、不会画画、不会哲学讨论,但它能准确理解求职者的背景和期望,快速完成初筛,为HR节省大量时间。这就够了。

我相信,未来会有成百上千个这样的”够用的Agent”,在各自的垂直领域默默工作,创造价值。它们不会成为头条新闻,但会成为我们日常工作中不可或缺的工具。

这才是Agent真正的未来。


参考信息:

  • Ezra $3.2M种子轮融资,2026-03-22
  • Latent医疗AI融资,2026-03周报道
  • Agent定义和分类基于行业共识
  • 失败案例基于作者观察和行业访谈

数据说明: 文中百分比为基于行业观察的估算,未引用特定研究报告。失败模式总结基于多个案例的共性分析。