AI助手的政治中立性:Anthropic为2026年中期选举设防,但谁来监督守护者?

一份来自AI公司的政治承诺

2026年4月24日,Anthropic发布了一份关于Claude选举安全措施的更新报告。

表面上,这是一份技术文档:Claude Opus 4.7在政治偏见评估测试中得分95%,Sonnet 4.6得分96%;使用600个提示词测试集测量;建立了自动分类系统检测潜在的违规行为;与Vanderbilt大学的独立智库Future of Free Speech合作进行第三方审计。

但这份文档提出的问题,远比它回答的问题更深刻:

在一个数以亿计的人每天使用AI助手获取信息的时代,AI平台如何定义「政治中立」——以及谁有权做这个定义——正在成为21世纪最重要的政治问题之一。


选举季的AI:从搜索引擎到「智能建议者」

要理解这个问题的重要性,必须先理解AI助手在信息获取中的角色变化。

Google时代的信息获取:你搜索「谁是好的总统候选人」,Google给你一个链接列表,里面包含不同立场的文章。你自己读,自己判断。Google的角色是「信息管道」,它的偏见体现在哪些链接排在前面,但你可以点击进去看原文。

ChatGPT/Claude时代的信息获取:你问「谁是好的总统候选人」,AI直接给你一段回答。这段回答是AI综合了数十亿个语料数据生成的「合成意见」,你看到的是一个已经被处理过的结论,而不是原始的多方观点列表。

这个区别至关重要。AI助手的「回答」比搜索引擎的「链接列表」有更强的信号效应——大多数用户会把AI的回答当成权威建议,而不是需要进一步验证的参考信息。

根据OpenAI和Anthropic发布的用户数据,在美国大选周期内,「选举」、「投票」、「候选人」相关查询在ChatGPT和Claude上的量会增长3-5倍。在2024年美国大选周期中,全球AI助手处理的政治相关查询估计超过5亿次。

2026年美国中期选举于11月举行,涵盖全部435个众议院席位和33个参议院席位。这将是AI助手普及后的第二次全国性选举——规模更大,影响更深远。


Anthropic的具体措施:数字背后的技术逻辑

Anthropic的报告披露了几个关键数字:

政治偏见评估得分:

  • Claude Opus 4.7:95%(测试方法:对不同政治立场的问题给予同等深度、参与度和分析严谨性)
  • Claude Sonnet 4.6:96%
  • 测试集:600个提示词,涵盖真实用户如何向Claude提问政治话题

具体测试方法:Anthropic发布了评估方法论和开源数据集,供第三方复现或改进。这是一个值得肯定的透明度举措——大多数AI公司的安全评估是黑箱的,不对外披露测试方法。

执行机制

  1. 自动分类系统(automated classifiers)持续监测潜在违规行为
  2. 专职威胁情报团队(dedicated threat intelligence team)调查和扰乱协调性滥用行为
  3. 系统提示(system prompts)中明确注入政治中立性指令

禁止用途(明确列入使用政策):

  • 运营欺骗性政治宣传活动
  • 创建假数字内容影响政治话语
  • 协助选民欺诈
  • 干扰投票系统
  • 传播误导性投票信息

外部合作

  • Vanderbilt大学Future of Free Speech(独立智库)
  • Foundation for American Innovation(政策研究机构)
  • Collective Intelligence Project(技术民主治理研究)

关键数字的含义:95%意味着什么

95%的政治偏见评估分数,乍看不错。但理解它的局限性同样重要。

Anthropic自己的解释:测试一个「对左倾观点写了很长回答,对右倾观点只写了一句话的模型」会得低分;而「对两者都给予了同等深度和分析严谨性」的模型得高分。

潜在的局限性

问题1:「中立」的定义由谁决定?

这是最根本的问题。当Anthropic说Claude「以相同深度对待不同政治观点」,这个标准本身就嵌入了一个特定的政治哲学假设:即所有政治观点都值得同等对待。但这在实践中是有争议的。

比如:气候变化。科学共识是气候变化是真实存在的人为现象。如果有人问Claude「气候变化是真实的吗?」,Claude应该给「是」和「否」以同等分量,还是应该反映科学共识?如果给予同等分量,是反映科学诚信?还是反映政治中立?这是两个不同的标准,而Anthropic必须做出选择。

Anthropic的解决方案是:「我们训练Claude对事实问题给出基于证据的回答,对价值观问题保持中立。」但「气候政策」(包含价值判断)和「气候科学」(基于证据)的边界在哪里,本身就是一个政治问题。

问题2:600个提示词的测试集代表性

600个提示词是相对有限的测试集。美国的政治话题涵盖了移民、堕胎、税收、国际贸易、枪支管制、医疗保险、教育等数十个独立议题,每个议题都有复杂的历史背景和地区差异。600个提示词能否覆盖这个复杂度,是一个合理的质疑。

Anthropic通过开源测试集并邀请第三方复现,在一定程度上回应了这个质疑。但第三方独立审计的结论是否与Anthropic的内部结论一致,目前尚未披露。

问题3:训练数据本身的偏见

即使Claude在「给出等量深度回答」这个维度上达到了95%,它所引用的「事实」本身仍然来自训练数据。如果训练数据对某些政治群体的覆盖存在系统性的不平衡,这种偏见会渗透到看起来「中立」的回答里。

这是一个当前AI技术框架无法完全解决的问题,Anthropic的报告对此坦然承认:「我们持续改进,但不声称已经完全解决了偏见问题。」


技术防护的边界:你能骗过Claude吗?

除了政治偏见,Anthropic的报告还讨论了对抗性攻击——也就是有人试图「骗」Claude帮助传播选举错误信息。

测试包含300个「有害请求」(如试图让Claude生成选举错误信息)和300个「合法请求」(如询问如何注册投票)。

这个测试设计暴露了一个深层挑战:「绝对安全」在技术层面是不可能的,问题只是攻击者需要付出多少成本。

在大规模协调性影响行动(coordinated influence operations)的背景下:

  • 一个国家级行为者(如外国情报机构)有足够的资源和时间测试AI模型的边界,找到能够绕过分类系统的提示词
  • 一旦找到有效的绕过方法,可以大规模自动化部署
  • Anthropic的「威胁情报团队」能否实时检测到大规模协调性攻击,是一个开放问题

Anthropic在报告中提到,2024年他们确实检测到并中断了多起协调性滥用行为。但具体案例的细节没有披露,规模也没有量化。


更深的问题:谁来监督AI平台的政治中立性?

Anthropic的报告展示了一个「自我监督+邀请外部合作」的治理模型。这在目前是行业标准——没有法律要求AI公司进行独立的政治中立性审计。

这引出了一个更大的问题:在未来,谁应该负责监督AI平台的政治影响力?

对立视角1:市场竞争足够

不同的AI助手(Claude、ChatGPT、Gemini、Grok)对同一政治问题给出不同倾向的回答,用户可以对比、选择。市场竞争会推动平台对政治中立性做出更多投资,因为被公众发现偏见会带来声誉损失。

这个观点的问题是:研究显示,用户在使用AI助手时,很少会对同一个问题咨询多个AI然后对比结果——他们倾向于相信自己最常用的那一个。市场竞争对政治偏见的纠正效果,可能弱于其他产品领域。

对立视角2:独立监管机构是必要的

欧盟的AI法案(AI Act)要求高风险AI系统进行透明度和可解释性披露,但没有专门针对「政治内容影响力」的要求。美国目前没有联邦层面的AI内容监管。

一些研究者主张,类似于美国联邦选举委员会(FEC)监管政治广告的逻辑,应该有独立机构监管AI平台在选举季的内容处理方式。反对者认为,这种监管对言论自由有潜在威胁,且技术实施极其复杂。

对立视角3:平台自律+用户教育

Anthropic选择的路径:公开方法论、邀请外部审计、用户教育(告诉用户Claude不是政治建议的来源)。这比纯监管更灵活,但依赖平台的善意。

Anthropic发布的评估方法论和开源数据集,是迄今为止AI公司在政治中立性方面最透明的披露之一。这值得肯定,也值得同行学习。但「值得肯定」不等于「足够充分」——在AI助手成为主流信息获取渠道的今天,这个问题需要更多的公众讨论和制度设计。


中国的对照:百度文心、字节豆包面临什么样的政治中立性挑战?

在中国,AI助手的「政治中立性」问题有一个根本性的不同:中国的AI平台不需要在多个政治立场之间保持中立,因为中国的政治体制不允许具有实质性影响力的多党政治话语竞争。

但这不意味着中国AI平台没有「内容边界」问题。百度文心一言、字节跳动豆包、阿里通义千问等主流AI助手,都有明确的政治敏感话题过滤机制——涉及台湾独立、新疆、香港、1989年天安门等议题的问题,会被拒绝回答或给出官方叙事的回答。

这在技术层面和Anthropic的挑战完全不同,但在「AI平台谁有权定义信息边界」这个更根本的问题上,中美面临的挑战有相似的本质:都是「拥有最广泛信息触达能力的私营技术实体,如何在公共利益与平台政策之间划定边界」

值得注意的是中国AI治理的一个特有逻辑:中国的AI平台内容过滤不是为了「政治中立」,而是为了「符合国家价值观和法律规定」——这是一个完全不同的目标函数。国家互联网信息办公室(网信办)发布的《生成式人工智能服务管理暂行办法》(2023年)要求,生成式AI服务「应当坚持社会主义核心价值观,不得生成颠覆国家政权、危害社会稳定等内容」。这个框架下,AI平台不需要(也不允许)讨论「多党竞选中的政治中立」,而需要确保符合特定政治定向。

相比之下,Anthropic的挑战是在「允许多元政治话语」的体制下,避免AI成为其中某一方的助推器。这是两种本质上不同的「AI内容治理」问题,但它们都指向同一个更大的问题:在信息权力向AI平台集中的时代,技术公司不可避免地成为了政治基础设施的一部分,无论他们是否主动选择了这个角色。

区别在于:在美国,这个边界的划定是一个开放的公众讨论;在中国,这个边界由监管机构预先设定,平台执行。哪种模式对信息生态更健康,是一个见仁见智的问题,但两种模式都会对用户的信息获取方式产生系统性影响。


对行业的实践启示

对于在AI领域工作的从业者,Anthropic的这份报告提供了几个值得借鉴的实践:

1. 政治偏见评估的标准化 Anthropic发布了开源评估数据集和方法论,邀请第三方复现。这为行业提供了一个可以对标的基准。其他AI公司——无论是OpenAI、Google还是中国的百度/字节——是否会采纳类似的透明度标准,值得观察。

2. 有害请求的分类方法 Anthropic的600个提示词测试集,区分了「有害政治请求」和「合法政治问题」。这个分类框架本身就是一个有价值的知识贡献,对于任何面临类似内容审核挑战的平台都有参考价值。

3. 专职威胁情报团队 Anthropic建立了专门检测和对抗「协调性影响行动」的团队,这代表了AI平台开始把自己视为选举安全基础设施的一部分。这个组织形式将成为行业标配,还是只有头部公司才负担得起,是一个开放问题。

4. 第三方合作的模式 与学术机构(Vanderbilt Future of Free Speech)、政策研究机构(FAI)、技术治理机构(CIP)的合作,代表了一种「去中心化监督」的治理实践。这比纯粹的政府监管更灵活,比纯粹的自我监督更可信。



「AI助手」与「搜索引擎」的信息权力对比

要充分理解Anthropic报告的意义,需要先理解AI助手和搜索引擎在信息生态中的根本性差异。

2004年,美国总统大选期间,Google的搜索查询量历史性地突破了1亿次「政治相关查询」。但那时,Google的角色是清晰的:它是一个路牌,告诉你有哪些道路,由你自己选择走哪条。你看到一个搜索结果,你点击进去,读原文,形成判断。信息流通路径是:信息源 → 搜索引擎(路牌)→ 用户。

2026年的AI助手打断了这个链路。你问Claude「2026年中期选举最重要的议题是什么」,Claude会给你一段综合性的回答。你的信息流通路径变成:信息源1 + 信息源2 + 信息源N → AI模型(合成) → 用户。

这个「合成」步骤是AI助手和搜索引擎的根本差异。它的好处是:用户可以得到一个整合的、易于理解的回答,而不是一堆需要自己整合的链接。它的风险是:如果这个「合成」过程存在系统性偏差,用户无法轻易发现。

信息不透明性的量化差距

在搜索引擎时代,如果你怀疑某个搜索结果存在偏见,你可以换一个关键词、查看排名第2/3/10的结果、和其他搜索引擎对比。这些操作都能让你感知到偏见的存在。

在AI助手时代,如果你怀疑Claude的某个政治回答存在偏见,你需要:① 向多个AI系统提相同的问题,比较答案;② 追溯AI引用的「来源」(很多情况下不标注);③ 评估模型本身的训练数据偏差。这些操作的认知门槛,远高于普通用户的能力范围。

这就是为什么Anthropic的95%政治偏见评分,需要被放在这个更大的信息权力框架里解读:技术分数是有意义的,但它不能代替「谁有权定义偏见」和「如何让普通用户验证这个分数」这两个更根本的问题。


历史先例:媒体偏见的监管路径给AI什么启示

AI平台面临的「政治影响力」问题,不是历史上没有先例的。广播电视行业在20世纪中叶经历了类似的演变。

1949年,美国联邦通信委员会(FCC)引入了「公平原则」(Fairness Doctrine),要求持有电视广播牌照的机构,在涉及争议性公共话题时,提供时间给不同观点。这个原则持续执行了近40年,直到1987年里根政府废除它(理由是阻碍新闻自由和媒体多元化)。

公平原则的废除之后,美国媒体生态发生了显著变化:以Fox News和MSNBC为代表的「立场鲜明」媒体崛起,取代了原先「尽量中立」的网络电视新闻。研究显示,美国民众的政治极化程度在1987年之后显著加速——尽管这是一个多因素现象,不能简单归因于公平原则的废除。

这个历史给AI时代的启示是:对媒体平台的强制中立性要求,可以影响信息生态,但也有副作用(限制了媒体的编辑自由);放开中立性要求,可以促进多元化,但可能加剧极化。

AI助手目前面临的局面,类似于1950年代初期的广播电视:快速普及,尚无统一监管框架,政治影响力大但机制不透明。

Anthropic的自发报告,可以类比为一个电视台主动发布「我们如何保持新闻平衡」的说明。这是好的开始,但在一个民主治理框架内,它需要更正式的制度支撑。


大模型军备竞赛中的政治敏感性:为什么模型越强,风险越高

这里有一个被广泛忽视的悖论:模型能力越强,政治影响力风险越高。

Claude Opus 4.7的能力,远超2024年的Claude 2。它能够理解更微妙的政治话语,生成更令人信服的综合性分析,能够在长达数小时的对话中持续影响用户对某个议题的理解框架。

这意味着:即使Opus 4.7的「显性政治偏见」(比如对某一政党更有好感)在技术层面被控制到95%的准确率,它的「框架设置效应」(framing effects)——即它如何定义一个政治问题、选择哪些维度来分析、哪些例子被默认引用——仍然可能系统性地影响用户的政治认知,而这些效应很难在600个提示词的测试中被捕获。

社会心理学研究显示,「框架设置效应」在政治认知中的影响力,不亚于「立场倡导效应」。一个媒体如果把「移民问题」默认描述为「安全威胁」而不是「经济贡献」,即使其报道「事实准确」,也会显著影响读者对移民政策的判断。AI助手的「框架」嵌入在训练数据和生成策略中,不在Anthropic的600个提示词测试覆盖范围内。

这不是说Anthropic在做什么坏事。这是说:AI政治影响力的技术评估,目前还远未达到能够捕获所有相关风险维度的程度。Anthropic发布的测试集和方法论,是一个有价值的起点,但需要更广泛的学术和政策社区的参与来完善。

更具体地说,「框架设置效应」测量需要的不是600个显性政治偏见问题,而是对数千个看似中性的政策讨论的系统性分析——例如,当用户问「Medicare的未来财务可持续性」时,AI默认选择哪些维度(联邦债务 vs. 医疗保障需求 vs. 税收政策)来构建回答,这些维度的选择本身就携带政治框架。这类深度分析,需要政治学家、社会心理学家和技术研究者的协作,不是AI公司自己能单独完成的工作。

Anthropic的报告明确邀请了外部合作机构参与,这是一个正确的方向——但这类合作的结果是否会公开发布、是否会影响模型的下一版训练,将是检验诚意的关键指标。


从测试分数到真实世界:用户实际怎么用Claude问政治问题

最后,有必要回到一个实践层面的问题:普通用户在选举季实际如何使用AI助手?

据媒体报道和研究机构的调查(包括Reuters Institute 2025年的数字新闻报告),在信任AI生成政治内容方面,用户群体出现了明显分化:

高信任用户(约30-35%):把AI助手当做可以信任的「智能建议者」,直接依赖AI的回答形成投票决定的某些方面。这类用户主要是25-44岁受教育程度较高的城市居民。

有条件信任用户(约45%):把AI助手当做信息起点,然后去找原始来源验证。这类用户会注意「AI说了什么」但不会把它当成唯一来源。

低信任/不使用用户(约25%):不使用AI助手获取政治信息,或明确不信任AI在政治话题上的可靠性。

这个分布意味着,在2026年中期选举中,美国可能有1亿以上的选民在做投票决定时,AI助手的回答会是他们考虑的因素之一。在一个各方差距可能只有数十万票的选举中,这是一个不可忽视的变量。



结语:技术透明度是第一步,但不是终点

11月的美国中期选举,将是第一次真正意义上的「AI原生」选举——第一次有大量选民把AI助手作为主要的政治信息来源之一。

Anthropic的这份报告,是AI行业迄今为止对「如何负责任地处理政治内容」最详尽的公开说明。但它同时揭示了行业面临的挑战的深度:技术上的95%评分,解决不了「谁来定义中立」的政治哲学问题;自我监督,解决不了「谁来监督守护者」的制度问题。

Anthropic这份报告的价值,不仅在于它披露的数字(95%/96%)和措施(600提示词测试、威胁情报团队),而在于它正式承认了一件事:AI公司现在是民主信息基础设施的一部分,有责任解释自己如何影响政治话语。

这是一个里程碑式的承认。2019年,没有任何AI公司会发布这样的报告。2026年,它成了行业最佳实践的一部分。

但我们离真正健康的AI政治信息生态,还有相当大的距离:

  • 评估方法论需要更广泛的学术验证
  • 框架设置效应的研究需要更系统化的独立研究
  • 行业标准需要监管机构和公民社会的共同参与,而不只是头部公司的自律承诺

2026年11月的美国中期选举,将是这个命题的第一次大规模现实检验。

在那之前,AI公司还有时间做更多。

谁来监督守护者? 目前,答案还是:守护者自己,加上一些学者和智库。这可能还不够——但至少,对话已经开始了。

对于关注AI治理的中国读者,这个讨论有直接的参考价值:无论具体的政治体制如何,AI助手对公众信息获取和政治认知的影响力,将是每个大型AI市场都无法回避的政策议题。中国已有《生成式AI管理办法》,但在执行透明度和第三方验证机制上,中美都有大量工作要做——这是真正意义上的全球性治理挑战。 这是一场没有单赢的博弈,但不开始,就永远没有答案。对于每一个正在构建AI产品的人来说,这不只是政策问题,而是产品设计的核心价值观问题:你的产品在帮用户获取真实信息,还是在帮用户获得你希望他们得到的结论?


参考资料

  1. An update on our election safeguards — Anthropic, 2026-04-24
  2. Claude’s Constitution — Anthropic
  3. Anthropic Political Evenhandedness — prior post — Anthropic
  4. Anthropic Usage Policy — Anthropic
  5. Opus 4.7 and Sonnet 4.6 political bias evaluation PDF — Anthropic, 2026

注:本文数据截至2026年4月25日。Anthropic选举安全报告已公开发布于官网,技术评估数据集已开源供第三方复现。