当AI查基因组出错率从83%降到0.3%:Anthropic的生物学论文,揭示了科学AI的根本性矛盾
当AI查基因组出错率从83%降到0.3%:Anthropic的生物学论文,揭示了科学AI的根本性矛盾
2026年6月8日,Anthropic在其官网发布了一篇研究论文,标题是《Paving the way for agents in biology》(为AI在生物学中铺路)。
标题听起来是宏大的愿景宣言,但论文的核心发现,恰恰是对”AI在科学领域的能力”的一次清醒纠偏。
核心数据:当AI Agent(包括Claude和其他前沿模型)被要求查询病毒基因组序列时,没有任何工具辅助的情况下,准确率在16.9%到91.3%之间浮动——也就是说,出错率最高可达83%。
加上一个专门设计的确定性检索工具后:准确率提升至99.7%。
这个对比,是整篇论文最重要的发现,也是最值得深思的问题。
一、生物学中的AI:一个充满幻觉的领域
先来理解为什么生物学对AI来说特别困难。
生物学数据的特点是:精确性要求极高,且查询目标通常是具体的、可验证的事实。
一个生物学研究员可能会问AI Agent:”请帮我找到SARS-CoV-2 Omicron BA.4亚型的spike蛋白编码序列。”这个问题有一个完全确定的、可以从NCBI GenBank数据库精确查询的答案。
AI语言模型(包括最好的Claude和GPT-5.5)在这类问题上面临一个根本性的困境:它们的训练数据包含了海量的生物学文献,模型对序列数据有”印象”,但这个”印象”可能是:
- 过时的:病毒基因组数据库在持续更新,训练数据截止日期后的新序列不在模型知识库里
- 混淆的:模型可能混淆相似但不同的序列,特别是当不同变体之间的差异很小时
- 虚构的:模型的生成机制可能产生看起来合理但实际上不存在的序列
在一般性的问答场景(”给我解释一下PCR的原理”),这些问题不严重,因为轻微的不准确不会影响理解。
但在真实的科学研究场景,错误的基因组序列可以导致:
- 实验设计基于错误的靶点
- 药物开发分析建立在错误的蛋白质结构上
- 病原体监测得出错误的流行病学结论
在生物学领域,AI的幻觉不只是令人尴尬,可能是危险的。
二、gget virus:确定性工具的实验
Anthropic的研究团队在论文中描述了他们的解决方案:为Claude等模型添加了一个名为gget virus的工具——一个专门从NCBI Virus数据库检索病毒序列的Python函数。
这个工具的核心特性是确定性(deterministic):它不依赖语言模型的推断,而是直接查询权威数据库,返回完全准确的数据。AI Agent调用这个工具,就像程序调用API一样——输入查询参数,得到确定性的准确结果。
加上这个工具后的实验结果:
- 病毒序列查询准确率:16.9%-91.3%(无工具) → 99.7%(有工具)
这是一个几乎完美的准确率提升。
但论文的贡献不只是”我们让AI查序列的准确率提高了”。更深刻的发现是:这个方法大幅减少了对最新、最昂贵前沿模型的依赖。
在实验中,配备了gget virus工具的旧版模型,在准确率上大幅超越了没有工具的最新前沿模型。用一个更便宜的模型+确定性工具,可以在特定科学任务上完胜更昂贵的模型。
这是一个关于”能力来源”的深刻启示。
三、科学AI的根本性矛盾
这篇论文的核心洞见,可以用一句话概括:科学领域的很多任务不需要”更强的AI”,需要的是”更好的工具接口”。
这与AI领域流行的一种叙事形成了鲜明对比。常见的叙事是:随着前沿模型越来越强大,它们将能够做越来越多的科学工作——从文献综述到实验设计到数据分析。
但Anthropic的论文指出了这个叙事的盲区:科学数据库的质量、规模和更新速度,已经超出了任何语言模型能够通过训练”记住”的范围。NCBI的GenBank数据库包含超过22亿条DNA/RNA序列,每天新增数百万条。没有任何AI训练过程能够跟上这个速度。
解决方案不是等待更强的模型,而是重新设计科学数据基础设施——让它为AI Agent调用而优化。
论文提出了一个概念:Agent-Optimized Scientific Infrastructure(面向Agent优化的科学基础设施)。
这意味着:
- 科学数据库需要提供标准化的、易于机器调用的API接口
- 数据格式需要对AI工具链友好
- 权威数据源需要与AI系统直接集成,而不是让AI自己从文献中”学习”这些数据
这不是一个小改动,这是科学数据基础设施的系统性重设计。
四、谁来做这个基础设施?
这个问题,是论文留下的最重要的开放议题。
目前,科学数据库的建设主要由政府资助的研究机构维护(NCBI、EBI、UniProt等)。这些机构的更新周期和技术栈,是按照传统科研人员(通过命令行工具或网页界面查询)设计的,不是为AI Agent优化的。
让这些机构重新设计基础设施,涉及:
- 巨大的技术改造成本:从支持人类查询到支持机器调用的架构改造
- 标准化协议的制定:哪个机构的API格式成为标准?不同数据库之间如何互通?
- 数据质量和访问权限:AI Agent大规模调用数据库,会增加服务器压力,也引发数据版权问题
Anthropic在论文中承认,这需要”广泛的跨机构合作”,而不是任何单一企业能独立解决的问题。
但这也带来了一个战略机会:谁能够率先建立起这套面向AI的科学数据接入标准,谁就在科学AI赛道占据关键节点。
不是靠”更聪明的模型”,而是靠”更好的数据接口”。
五、更广泛的含义:AI在科学中的边界
Anthropic的这篇论文,发表在一个AI-for-Science(AI赋能科学研究)话题热度极高的时期。2026年,无数初创公司和研究机构正在将AI应用于药物发现、蛋白质结构预测、材料科学等领域,估值动辄数亿美元。
这篇论文是一个清醒的提醒:AI在科学中的价值,高度依赖于底层数据基础设施的质量。
一个AI Agent在文学分析任务上产生的幻觉,可能只是一个有趣的讨论话题。
同一个AI Agent在病毒基因组查询任务上产生的幻觉,可能导致错误的疫情追踪、错误的药物靶点分析,或者更严重的后果。
这种”后果的不对称性”,要求科学AI领域在追求”更强的模型能力”的同时,必须同样重视”更可靠的数据接入”。
在gget virus这个小工具将准确率从16.9%提升到99.7%的对比中,藏着一个关于AI系统设计哲学的深刻洞见:在关键任务中,确定性工具 > 随机性生成。
或者更直白地说:对于需要查询已知事实的任务,检索比生成更可靠。
这不是否定AI的价值,而是在精确划定AI的边界——以及工程系统应该如何弥补这个边界。
结语
Anthropic这篇论文最终想说的,不是”Claude很强”,也不是”AI有局限”,而是一个关于系统设计的洞见:
当工具和模型各司其职,AI在科学领域的潜力才真正开始兑现。
16.9%到99.7%——这个数字的背后,是一个简单却深刻的选择:不要用生成代替检索,不要用推断代替查询,不要用模糊的记忆代替精确的事实。
在生物学里,这个选择的代价可以是生命。在其他科学领域,这个代价同样真实。
科学AI的基础设施重设计,才刚刚开始。