当AI被要求有道德:Anthropic的价值对齐实验,与一个没有答案的哲学问题

2026年4月20日,《纽约时报》刊发了一篇观点文章——标题直截了当:”Anthropic希望Claude具备道德”(Anthropic Wants Claude to Be Moral)。

这不是一篇科技评测,也不是某次产品发布的周边报道。文章从AI与宗教、道德的关系切入,触碰的是一个越来越无法回避的问题:一家科技公司有没有资格、有没有能力,让一个AI系统”有道德”?如果有,这个道德由谁来定义?如果没有,AI在做出价值判断时,谁来负责?

这个问题的爆发,时机并非偶然。

就在这篇文章发出的同一周,Anthropic刚刚公布了Claude针对2026年美国中期选举的安全保障更新——Opus 4.7和Sonnet 4.6在政治中立性评估中分别得分95%和96%,选举相关有害请求拒绝率达到近100%,Anthropic首次公开测试了模型自主执行”影响力操作”的能力边界。几乎同时,该公司还主动承认了三项技术变更导致Claude Code、Agent SDK等产品质量下降——包括一个将推理努力等级从”高”降为”中”的内部决策,以及一个缓存优化bug导致会话数据被静默清除,另外还有一项系统提示修改导致3%的性能下降,三项变更均已在2026年4月20日前修复。

表面上,这些是不同的事件。深层上,它们都指向同一个核心问题:在Anthropic,什么叫”道德”?这种道德由谁来定义?这些判断凭什么是正确的?当判断出错时,又是谁的责任?

一、Constitutional AI:Anthropic的道德基础设施

要理解这场讨论,必须先理解Anthropic的核心技术路径——Constitutional AI(宪法AI)。

这不是一个比喻,而是一种具体的训练方法。Anthropic在2022年发表的同名学术论文中,详细描述了这套框架:为模型设定一套由价值原则组成的”宪法”文档,训练过程中要求模型以这些原则为标准进行自我批评和修订。相比仅依赖人类反馈的RLHF方法,Constitutional AI让价值观的植入更加系统化——不是靠人工对每个回应打分,而是让模型直接学习价值推理的过程。

这套宪法的内容,涵盖避免伤害、保护隐私、促进人类福祉、支持民主价值、拒绝歧视、尊重事实等原则——写起来像是美国宪法第一修正案的精神提炼,或联合国人权宣言的AI实现,再加上Anthropic研究人员对”有益AI”的自身理解。

Anthropic的工程师和研究员们,字面意义上在”编写道德规范”,并将其注入世界上被数亿人使用的AI系统中。

这在AI行业是少见的做法。OpenAI有使用政策,但那是规则清单;Google有AI原则,但那是品牌声明。Anthropic走得更深:把价值观写进训练过程本身,让模型在生成输出时,自我参照这些价值判断,并在训练中反复强化。

结果是:Claude经常会在回答技术问题时,主动考虑伦理维度。它会在被要求帮助写营销文案时,提示潜在的欺骗性表述风险。它会拒绝某些代码请求——不是因为存在明确的规则禁止,而是因为”模型判断这可能被用于有害用途”。它甚至会在面对政治敏感问题时,主动声称”这个问题有多种合理立场,我不应当推荐其中一种”。

这听起来非常负责任。直到有人开始问:谁写了这套宪法?这套宪法代表谁的价值观?

二、谁的道德?宪法的作者问题

《纽约时报》的文章触碰了这个问题中最令人不安的一面:AI道德框架与宗教功能的相似性。

文章具体提出了一个令人深思的现象:Anthropic的Constitutional AI框架,在结构上与宗教的社会角色存在令人不安的相似——都在试图定义”什么是善”、”什么是恶”、”什么行为值得鼓励”、”什么应当被限制”。

区别在于:宗教权威的来源是神圣启示或历史传统,它们经历了数百年甚至数千年的演化、争论、分裂和重组,在持续的社会实践中接受检验;而Claude的”道德”,来自Anthropic大约几百名员工的集体判断,以及他们雇佣的外部承包商标注的训练数据。

这里有一个关键的合法性问题。不是要质疑Anthropic员工的个人道德水平——他们中的许多人是真正关心AI安全和伦理的研究者。问题是:谁授权了这群人来定义全球数亿用户所用AI助手的价值观?这个授权从哪里来?接受什么样的问责?

更尖锐地说:Anthropic的宪法AI框架,在文化渊源上,明显带有21世纪初北美自由主义知识分子的价值痕迹。他们对”有益AI”的理解,与一个中东穆斯林学者的理解可能截然不同;与一个儒家文化背景的东亚工程师的理解也不完全相同;与一个巴西农村社区的居民对”什么对我有益”的判断,差距更大。

当Anthropic的Claude被用于NEC的3万名日本工程师、被用于德国医疗系统、被用于中东政府部门的内部工作流,它带入的价值框架是什么?是”美国宪法精神的AI实现”,还是”硅谷工程文化的价值投射”,还是真正意义上的”人类普遍价值”?

Anthropic没有一个清晰的公开答案。他们的Constitutional AI论文在学术层面是严谨的,但宪法的内容本身,从未经过真正意义上的公众审议。

三、选举安全案例:中立性是一个价值判断

Anthropic最新的选举安全保障更新,提供了一个理解这种道德编码困境的具体案例。

Anthropic声称Claude在政治中立性方面表现优异——95%-96%。但”中立”本身不是中立的。

第一个问题:什么叫”政治中立”?不推荐特定候选人,这是中立。但如果某位候选人的竞选材料包含可以被事实核查证伪的虚假陈述,Claude是否应当指出这些错误?指出了,被支持该候选人的人看来是”偏见”;不指出,被关心事实准确性的人看来是”失职”。在这两种回应之间,任何一种选择都是一种价值判断。

真实案例更能说明这个问题。Anthropic在其选举安全保障技术报告中提到,他们测试了Claude在面对”选举相关有争议声明”时的回应模式——在这类测试中,Claude会提供多方来源,而非单一确认或否认。这本身是一个价值选择:Anthropic认为”呈现多方观点”优先于”给出明确答案”,即使当用户可能更想得到一个直接的是/否回应。不同的AI团队可能会做出不同选择,但任何一种选择都是价值判断。

第二个问题:哪些话题属于”政治议题”,哪些属于”科学共识”?气候变化在科学界有压倒性共识,但在美国政治中是高度极化的议题。当一位用户询问”气候变化政策应该如何”,Claude如何区分”陈述科学共识”和”表达政治立场”?边界在哪里,是Anthropic的工程师决定的。

第三个问题:美国语境的”中立”不等于全球语境的”中立”。在美国具有高度争议的某些社会议题,在全球许多其他地区可能有更清晰的社会共识。反过来,在美国被视为”普世价值”的某些框架,在其他文化中可能是颇有争议的西方中心主义预设。当Claude以”多元观点”为由回避某个在全球大多数地区有明确答案的问题,它在向谁负责?

Anthropic在发布选举安全保障时,声称他们”非常谨慎地平衡多种观点”。这话本身没有错,但它恰恰说明了问题的本质:这种”平衡”是有人在做的,而做这个决定的人是Anthropic的团队,不是用户,也不是民主程序。

四、道德判断与商业利益的结构性张力

《纽约时报》文章深层触碰的另一个矛盾,是道德自我定位与商业现实之间的结构性张力。

Anthropic是一家商业公司。截至2026年,其年化营收已超过300亿美元,亚马逊刚刚承诺追加最高250亿美元投资,Anthropic反向承诺未来10年在AWS上消费超过1000亿美元。在这样的规模和资本结构下,Anthropic的价值判断不再只是研究决策,而是商业决策。

这种张力已经开始在具体事件中显现。

最直接的案例是Claude的服务变更。当Anthropic在2026年初将Claude Code从Pro订阅计划中移除,要求用户额外付费,这一决策引发了广泛不满。用户感到被背刺——他们依赖这个工具完成日常工作,突然间被告知需要另行付费。这不是一个技术问题,而是一个信任问题。用户质疑的不只是价格,而是:Anthropic一直宣称”以安全和用户利益为优先”,但商业决策是否真的以用户利益为先?还是在利益冲突时,商业利益获得优先?

Anthropic随后承认的三项技术变更,更让这种张力变得可见。将推理努力等级从”高”降为”中”的决策——这是一个明显的成本优化决策,但它直接影响了Claude的输出质量。该公司的描述是”内部决策”,但其实质是:在模型质量与运营成本之间,Anthropic选择了降低成本。这个决策做出时,用户并不知情。

更值得关注的是企业API定制化问题。Anthropic的企业API允许客户通过”系统提示”(System Prompt)定制Claude的行为——包括调整其应答风格、限制其讨论范围、设置特定的角色扮演场景。从技术文档来看,Anthropic在设计上允许企业客户用系统提示覆盖Claude的一些默认行为。这意味着,当NEC的3万名工程师使用企业版Claude时,他们看到的Claude价值框架,可能与消费者版本存在差异——而这种差异,在Anthropic的公开文档中并无明确说明边界在哪里。

Anthropic的公开立场是:Claude的”核心价值观”不可商业定制,但”行为偏好”(如回答风格、话题范围)可以通过系统提示调整。但什么是”核心价值观”,什么是”行为偏好”,这条线仍然由Anthropic的工程师决定。随着企业级市场的规模增长,以及与亚马逊、NEC等机构伙伴的深度绑定,这条线受到的商业压力只会越来越大。

五、比较视角:Anthropic其实比其他人更诚实

公平地说,在这个问题上,Anthropic比绝大多数AI公司更诚实,也更愿意被检视。

OpenAI的GPT系列模型同样有广泛的价值过滤和道德判断机制,但OpenAI从未系统性地发布过描述其道德框架的研究文档。Meta的Llama系列以”开源”为名发布,但其训练数据的价值偏向从未经过独立的系统性审计。Google的Gemini在2024年因为过度的多样性修正而被广泛批评(让图像生成中的历史人物看起来符合当代多元化标准)——但Google的应对方式是悄悄修改系统提示,而不是公开讨论这背后的价值取舍逻辑。

在这个对比背景下,Anthropic做了几件相对罕见的事:

  • 发表了Constitutional AI的同行评审学术论文,公开描述其道德训练方法
  • 在承认产品质量下降时,详细说明了每一项导致问题的变更和修复措施
  • 公开讨论Claude在选举议题上的处理方法,并发布量化评估数据
  • 在公司的技术博客和政策文件中,持续讨论AI安全与道德对齐的难题

这种透明度本身,就是一种值得认可的价值实践。

但透明度不等于正当性,也不等于正确性。愿意公开讨论,不等于讨论的结果是合理的。承认错误并快速修复,不等于有机制防止同类错误再次发生。发布Constitutional AI论文,不等于这份宪法的内容已经经过充分的跨文化审议。

透明度是必要条件,但不是充分条件。

六、更深的问题:AI道德是一个政治问题

真正的深层问题不是技术,不是哲学,而是政治权力。

AI的道德判断,本质上是对”什么行为应当被鼓励,什么应当被限制”的系统性编码。在任何人类社会中,这种编码权力都是核心的政治资源。法律体系、宗教机构、新闻媒体、教育系统——人类历史上每一个核心权威结构,都在争夺和行使这种”定义什么是好”的权力。

当Anthropic在Claude的训练过程中植入Constitutional AI,他们实际上在行使这种权力。无论他们有没有意识到,无论他们愿意还是不愿意,结果是相同的:一家私营公司,在没有民主授权的情况下,在技术层面上定义了全球数亿用户所使用的AI助手的价值框架。

这不是谴责Anthropic——他们可能是目前做这件事最负责任的公司之一。问题是:这种权力目前没有合适的外部制衡机制。

民主国家的立法权威来自选举;宗教权威来自信仰共同体的认同;新闻媒体的公信力(理论上)来自事实核查和竞争性报道;学术机构的权威来自同行评审和可重复验证。但AI公司的道德定义权,目前既没有民主授权,也没有有效的外部监督机制。

欧盟的AI法案是目前最系统性的监管尝试,要求高风险AI系统必须具备透明度、可解释性、人类监督和风险管理机制。但AI法案聚焦的是”系统行为的监管”,不是”价值框架定义权的监管”。谁有权审查Constitutional AI的宪法内容本身?谁有权要求Anthropic就其价值框架征求跨文化的公众意见?这些仍然是监管空白。

中国在这个问题上采取了不同的路径——要求AI系统符合”社会主义核心价值观”,由政府机构审查AI系统的价值取向。这是一种强力的国家监管,但它的问题在于:它以国家意识形态取代了公司意识形态,换了一种权威形式,而非解决了权力的合法性问题。

目前,这个问题没有好的答案。

七、Anthropic的双重困境与可能的出路

如果把Anthropic面临的选择极端化,它面对的是一个没有出口的悖论。

如果让Claude”有道德”:面临”谁的道德”的正当性质疑,以及商业压力下道德框架被侵蚀的持续风险,还有在全球不同文化语境中导致的价值冲突。当Claude进入日本制造业、欧洲金融监管、中东政府,这些地区的用户使用的AI,内置的价值判断框架却是硅谷制造的——这是一个文化层面的隐患,不是技术问题能解决的。

如果让Claude”没有道德”:面临用户被有害内容伤害、政治进程被操纵、弱势群体遭受歧视的现实风险,以及来自监管机构的强制干预。一个价值中立的AI是不存在的——任何训练数据的选择、任何RLHF的人工标注,都是价值判断。”没有道德”在实践中,意味着”把现有世界中的偏见以更系统化的方式放大”。

两条路都有代价,没有一条是安全的。

在这个双重困境中,Anthropic目前的实际选择是:努力把价值框架做得尽可能”合理”,同时保持比竞争对手更高的透明度,接受来自学术界、媒体和监管机构的外部批评,并在发现错误时快速公开纠正。

这不是完美答案。但在没有完美答案的情况下,这可能是当前技术条件和监管空白下,一家认真对待这个问题的公司能做到的最诚实的选择。

值得关注的是,有一些可能的制度创新方向正在被讨论:独立的”AI伦理审查委员会”(类似药品的FDA,但面向AI价值框架);由多国政府、民间社会、学术机构共同参与的AI道德宪章(类似互联网的多利益相关方治理模式);要求AI公司在特定文化市场部署前,提交其价值框架的本地化审查。这些方案各有局限,但都指向同一个方向:AI的道德框架,不应该只由制造公司自己定义。

问题是,这种”努力”需要持续的外部压力来维持。如果没有《纽约时报》这样的文章持续提出质疑,如果没有学者、监管者、用户持续要求问责,商业压力和效率优化会自然地侵蚀道德判断的质量。Anthropic承认的那三项质量下降变更,最终被发现和修复,是因为外部有大量用户和研究者在持续测试和报告——而不是因为公司内部的自我纠错机制足够完善。

这说明,在AI公司的道德自律之外,还需要建立有效的外部监督机制。《纽约时报》这篇文章,不是在攻击Anthropic,而是在尝试履行这种社会监督功能。

当AI系统的价值判断开始影响数亿人每天的信息获取、工作流程、医疗建议和政治判断,”谁的道德”不再只是一个学术研讨的哲学问题,而是一个需要社会层面、政治层面、跨文化层面共同回答的实践问题。

Anthropic的答案,仍然在写的过程中。而这个过程,应当在公众视野下进行,接受真正多元的批评和审议,而不仅仅是在Anthropic的研究实验室里,由几百名工程师和研究员来完成。


参考资料

  1. NYT Opinion — “Anthropic Wants Claude to Be Moral” (2026-04-20): https://www.nytimes.com/2026/04/20/opinion/ai-religion-morality.html
  2. Anthropic — Constitutional AI: Harmlessness from AI Feedback (2022学术论文): https://www.anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback
  3. Anthropic — Election Safeguards Update (2026-04-24): https://www.anthropic.com/news/election-safeguards-update
  4. The Register — Anthropic acknowledges three changes that degraded Claude quality (2026-04-23): https://www.theregister.com/2026/04/23/anthropic_says_it_has_fixed/
  5. CNBC — Amazon invests up to $25 billion in Anthropic (2026-04-20): https://www.cnbc.com/2026/04/20/amazon-invest-up-to-25-billion-in-anthropic-part-of-ai-infrastructure.html
  6. Anthropic — NEC Partnership Announcement (2026-04-24): https://www.anthropic.com/news/anthropic-nec
  7. EU AI Act Overview: https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai