当AI查基因组出错率从83%降到0.3%：Anthropic的生物学论文，揭示了科学AI的根本性矛盾

2026年6月8日，Anthropic在其官网发布了一篇研究论文，标题是《Paving the way for agents in biology》（为AI在生物学中铺路）。

标题听起来是宏大的愿景宣言，但论文的核心发现，恰恰是对”AI在科学领域的能力”的一次清醒纠偏。

核心数据：当AI Agent（包括Claude和其他前沿模型）被要求查询病毒基因组序列时，没有任何工具辅助的情况下，准确率在16.9%到91.3%之间浮动——也就是说，出错率最高可达83%。

加上一个专门设计的确定性检索工具后：准确率提升至99.7%。

这个对比，是整篇论文最重要的发现，也是最值得深思的问题。

一、生物学中的AI：一个充满幻觉的领域

先来理解为什么生物学对AI来说特别困难。

生物学数据的特点是：精确性要求极高，且查询目标通常是具体的、可验证的事实。

一个生物学研究员可能会问AI Agent：”请帮我找到SARS-CoV-2 Omicron BA.4亚型的spike蛋白编码序列。”这个问题有一个完全确定的、可以从NCBI GenBank数据库精确查询的答案。

AI语言模型（包括最好的Claude和GPT-5.5）在这类问题上面临一个根本性的困境：它们的训练数据包含了海量的生物学文献，模型对序列数据有”印象”，但这个”印象”可能是：

过时的：病毒基因组数据库在持续更新，训练数据截止日期后的新序列不在模型知识库里
混淆的：模型可能混淆相似但不同的序列，特别是当不同变体之间的差异很小时
虚构的：模型的生成机制可能产生看起来合理但实际上不存在的序列

在一般性的问答场景（”给我解释一下PCR的原理”），这些问题不严重，因为轻微的不准确不会影响理解。

但在真实的科学研究场景，错误的基因组序列可以导致：

实验设计基于错误的靶点
药物开发分析建立在错误的蛋白质结构上
病原体监测得出错误的流行病学结论

在生物学领域，AI的幻觉不只是令人尴尬，可能是危险的。

二、gget virus：确定性工具的实验

Anthropic的研究团队在论文中描述了他们的解决方案：为Claude等模型添加了一个名为gget virus的工具——一个专门从NCBI Virus数据库检索病毒序列的Python函数。

这个工具的核心特性是确定性（deterministic）：它不依赖语言模型的推断，而是直接查询权威数据库，返回完全准确的数据。AI Agent调用这个工具，就像程序调用API一样——输入查询参数，得到确定性的准确结果。

加上这个工具后的实验结果：

病毒序列查询准确率：16.9%-91.3%（无工具） → 99.7%（有工具）

这是一个几乎完美的准确率提升。

但论文的贡献不只是”我们让AI查序列的准确率提高了”。更深刻的发现是：这个方法大幅减少了对最新、最昂贵前沿模型的依赖。

在实验中，配备了gget virus工具的旧版模型，在准确率上大幅超越了没有工具的最新前沿模型。用一个更便宜的模型+确定性工具，可以在特定科学任务上完胜更昂贵的模型。

这是一个关于”能力来源”的深刻启示。

三、科学AI的根本性矛盾

这篇论文的核心洞见，可以用一句话概括：科学领域的很多任务不需要”更强的AI”，需要的是”更好的工具接口”。

这与AI领域流行的一种叙事形成了鲜明对比。常见的叙事是：随着前沿模型越来越强大，它们将能够做越来越多的科学工作——从文献综述到实验设计到数据分析。

但Anthropic的论文指出了这个叙事的盲区：科学数据库的质量、规模和更新速度，已经超出了任何语言模型能够通过训练”记住”的范围。NCBI的GenBank数据库包含超过22亿条DNA/RNA序列，每天新增数百万条。没有任何AI训练过程能够跟上这个速度。

解决方案不是等待更强的模型，而是重新设计科学数据基础设施——让它为AI Agent调用而优化。

论文提出了一个概念：Agent-Optimized Scientific Infrastructure（面向Agent优化的科学基础设施）。

这意味着：

科学数据库需要提供标准化的、易于机器调用的API接口
数据格式需要对AI工具链友好
权威数据源需要与AI系统直接集成，而不是让AI自己从文献中”学习”这些数据

这不是一个小改动，这是科学数据基础设施的系统性重设计。

四、谁来做这个基础设施？

这个问题，是论文留下的最重要的开放议题。

目前，科学数据库的建设主要由政府资助的研究机构维护（NCBI、EBI、UniProt等）。这些机构的更新周期和技术栈，是按照传统科研人员（通过命令行工具或网页界面查询）设计的，不是为AI Agent优化的。

让这些机构重新设计基础设施，涉及：

巨大的技术改造成本：从支持人类查询到支持机器调用的架构改造
标准化协议的制定：哪个机构的API格式成为标准？不同数据库之间如何互通？
数据质量和访问权限：AI Agent大规模调用数据库，会增加服务器压力，也引发数据版权问题

Anthropic在论文中承认，这需要”广泛的跨机构合作”，而不是任何单一企业能独立解决的问题。

但这也带来了一个战略机会：谁能够率先建立起这套面向AI的科学数据接入标准，谁就在科学AI赛道占据关键节点。

不是靠”更聪明的模型”，而是靠”更好的数据接口”。

五、更广泛的含义：AI在科学中的边界

Anthropic的这篇论文，发表在一个AI-for-Science（AI赋能科学研究）话题热度极高的时期。2026年，无数初创公司和研究机构正在将AI应用于药物发现、蛋白质结构预测、材料科学等领域，估值动辄数亿美元。

这篇论文是一个清醒的提醒：AI在科学中的价值，高度依赖于底层数据基础设施的质量。

一个AI Agent在文学分析任务上产生的幻觉，可能只是一个有趣的讨论话题。

同一个AI Agent在病毒基因组查询任务上产生的幻觉，可能导致错误的疫情追踪、错误的药物靶点分析，或者更严重的后果。

这种”后果的不对称性”，要求科学AI领域在追求”更强的模型能力”的同时，必须同样重视”更可靠的数据接入”。

在gget virus这个小工具将准确率从16.9%提升到99.7%的对比中，藏着一个关于AI系统设计哲学的深刻洞见：在关键任务中，确定性工具 > 随机性生成。

或者更直白地说：对于需要查询已知事实的任务，检索比生成更可靠。

这不是否定AI的价值，而是在精确划定AI的边界——以及工程系统应该如何弥补这个边界。

结语

Anthropic这篇论文最终想说的，不是”Claude很强”，也不是”AI有局限”，而是一个关于系统设计的洞见：

当工具和模型各司其职，AI在科学领域的潜力才真正开始兑现。

16.9%到99.7%——这个数字的背后，是一个简单却深刻的选择：不要用生成代替检索，不要用推断代替查询，不要用模糊的记忆代替精确的事实。

在生物学里，这个选择的代价可以是生命。在其他科学领域，这个代价同样真实。

科学AI的基础设施重设计，才刚刚开始。

当AI查基因组出错率从83%降到0.3%：Anthropic的生物学论文，揭示了科学AI的根本性矛盾

当AI查基因组出错率从83%降到0.3%：Anthropic的生物学论文，揭示了科学AI的根本性矛盾

一、生物学中的AI：一个充满幻觉的领域

二、gget virus：确定性工具的实验

三、科学AI的根本性矛盾

四、谁来做这个基础设施？

五、更广泛的含义：AI在科学中的边界

结语

Tags:

About

Categories

Recent Posts

Resources