当AI被要求有道德：Anthropic的价值对齐实验，与一个没有答案的哲学问题

2026年4月20日，《纽约时报》刊发了一篇观点文章——标题直截了当：”Anthropic希望Claude具备道德”（Anthropic Wants Claude to Be Moral）。

这不是一篇科技评测，也不是某次产品发布的周边报道。文章从AI与宗教、道德的关系切入，触碰的是一个越来越无法回避的问题：一家科技公司有没有资格、有没有能力，让一个AI系统”有道德”？如果有，这个道德由谁来定义？如果没有，AI在做出价值判断时，谁来负责？

这个问题的爆发，时机并非偶然。

就在这篇文章发出的同一周，Anthropic刚刚公布了Claude针对2026年美国中期选举的安全保障更新——Opus 4.7和Sonnet 4.6在政治中立性评估中分别得分95%和96%，选举相关有害请求拒绝率达到近100%，Anthropic首次公开测试了模型自主执行”影响力操作”的能力边界。几乎同时，该公司还主动承认了三项技术变更导致Claude Code、Agent SDK等产品质量下降——包括一个将推理努力等级从”高”降为”中”的内部决策，以及一个缓存优化bug导致会话数据被静默清除，另外还有一项系统提示修改导致3%的性能下降，三项变更均已在2026年4月20日前修复。

表面上，这些是不同的事件。深层上，它们都指向同一个核心问题：在Anthropic，什么叫”道德”？这种道德由谁来定义？这些判断凭什么是正确的？当判断出错时，又是谁的责任？

一、Constitutional AI：Anthropic的道德基础设施

要理解这场讨论，必须先理解Anthropic的核心技术路径——Constitutional AI（宪法AI）。

这不是一个比喻，而是一种具体的训练方法。Anthropic在2022年发表的同名学术论文中，详细描述了这套框架：为模型设定一套由价值原则组成的”宪法”文档，训练过程中要求模型以这些原则为标准进行自我批评和修订。相比仅依赖人类反馈的RLHF方法，Constitutional AI让价值观的植入更加系统化——不是靠人工对每个回应打分，而是让模型直接学习价值推理的过程。

这套宪法的内容，涵盖避免伤害、保护隐私、促进人类福祉、支持民主价值、拒绝歧视、尊重事实等原则——写起来像是美国宪法第一修正案的精神提炼，或联合国人权宣言的AI实现，再加上Anthropic研究人员对”有益AI”的自身理解。

Anthropic的工程师和研究员们，字面意义上在”编写道德规范”，并将其注入世界上被数亿人使用的AI系统中。

这在AI行业是少见的做法。OpenAI有使用政策，但那是规则清单；Google有AI原则，但那是品牌声明。Anthropic走得更深：把价值观写进训练过程本身，让模型在生成输出时，自我参照这些价值判断，并在训练中反复强化。

结果是：Claude经常会在回答技术问题时，主动考虑伦理维度。它会在被要求帮助写营销文案时，提示潜在的欺骗性表述风险。它会拒绝某些代码请求——不是因为存在明确的规则禁止，而是因为”模型判断这可能被用于有害用途”。它甚至会在面对政治敏感问题时，主动声称”这个问题有多种合理立场，我不应当推荐其中一种”。

这听起来非常负责任。直到有人开始问：谁写了这套宪法？这套宪法代表谁的价值观？

二、谁的道德？宪法的作者问题

《纽约时报》的文章触碰了这个问题中最令人不安的一面：AI道德框架与宗教功能的相似性。

文章具体提出了一个令人深思的现象：Anthropic的Constitutional AI框架，在结构上与宗教的社会角色存在令人不安的相似——都在试图定义”什么是善”、”什么是恶”、”什么行为值得鼓励”、”什么应当被限制”。

区别在于：宗教权威的来源是神圣启示或历史传统，它们经历了数百年甚至数千年的演化、争论、分裂和重组，在持续的社会实践中接受检验；而Claude的”道德”，来自Anthropic大约几百名员工的集体判断，以及他们雇佣的外部承包商标注的训练数据。

这里有一个关键的合法性问题。不是要质疑Anthropic员工的个人道德水平——他们中的许多人是真正关心AI安全和伦理的研究者。问题是：谁授权了这群人来定义全球数亿用户所用AI助手的价值观？这个授权从哪里来？接受什么样的问责？

更尖锐地说：Anthropic的宪法AI框架，在文化渊源上，明显带有21世纪初北美自由主义知识分子的价值痕迹。他们对”有益AI”的理解，与一个中东穆斯林学者的理解可能截然不同；与一个儒家文化背景的东亚工程师的理解也不完全相同；与一个巴西农村社区的居民对”什么对我有益”的判断，差距更大。

当Anthropic的Claude被用于NEC的3万名日本工程师、被用于德国医疗系统、被用于中东政府部门的内部工作流，它带入的价值框架是什么？是”美国宪法精神的AI实现”，还是”硅谷工程文化的价值投射”，还是真正意义上的”人类普遍价值”？

Anthropic没有一个清晰的公开答案。他们的Constitutional AI论文在学术层面是严谨的，但宪法的内容本身，从未经过真正意义上的公众审议。

三、选举安全案例：中立性是一个价值判断

Anthropic最新的选举安全保障更新，提供了一个理解这种道德编码困境的具体案例。

Anthropic声称Claude在政治中立性方面表现优异——95%-96%。但”中立”本身不是中立的。

第一个问题：什么叫”政治中立”？不推荐特定候选人，这是中立。但如果某位候选人的竞选材料包含可以被事实核查证伪的虚假陈述，Claude是否应当指出这些错误？指出了，被支持该候选人的人看来是”偏见”；不指出，被关心事实准确性的人看来是”失职”。在这两种回应之间，任何一种选择都是一种价值判断。

真实案例更能说明这个问题。Anthropic在其选举安全保障技术报告中提到，他们测试了Claude在面对”选举相关有争议声明”时的回应模式——在这类测试中，Claude会提供多方来源，而非单一确认或否认。这本身是一个价值选择：Anthropic认为”呈现多方观点”优先于”给出明确答案”，即使当用户可能更想得到一个直接的是/否回应。不同的AI团队可能会做出不同选择，但任何一种选择都是价值判断。

第二个问题：哪些话题属于”政治议题”，哪些属于”科学共识”？气候变化在科学界有压倒性共识，但在美国政治中是高度极化的议题。当一位用户询问”气候变化政策应该如何”，Claude如何区分”陈述科学共识”和”表达政治立场”？边界在哪里，是Anthropic的工程师决定的。

第三个问题：美国语境的”中立”不等于全球语境的”中立”。在美国具有高度争议的某些社会议题，在全球许多其他地区可能有更清晰的社会共识。反过来，在美国被视为”普世价值”的某些框架，在其他文化中可能是颇有争议的西方中心主义预设。当Claude以”多元观点”为由回避某个在全球大多数地区有明确答案的问题，它在向谁负责？

Anthropic在发布选举安全保障时，声称他们”非常谨慎地平衡多种观点”。这话本身没有错，但它恰恰说明了问题的本质：这种”平衡”是有人在做的，而做这个决定的人是Anthropic的团队，不是用户，也不是民主程序。

四、道德判断与商业利益的结构性张力

《纽约时报》文章深层触碰的另一个矛盾，是道德自我定位与商业现实之间的结构性张力。

Anthropic是一家商业公司。截至2026年，其年化营收已超过300亿美元，亚马逊刚刚承诺追加最高250亿美元投资，Anthropic反向承诺未来10年在AWS上消费超过1000亿美元。在这样的规模和资本结构下，Anthropic的价值判断不再只是研究决策，而是商业决策。

这种张力已经开始在具体事件中显现。

最直接的案例是Claude的服务变更。当Anthropic在2026年初将Claude Code从Pro订阅计划中移除，要求用户额外付费，这一决策引发了广泛不满。用户感到被背刺——他们依赖这个工具完成日常工作，突然间被告知需要另行付费。这不是一个技术问题，而是一个信任问题。用户质疑的不只是价格，而是：Anthropic一直宣称”以安全和用户利益为优先”，但商业决策是否真的以用户利益为先？还是在利益冲突时，商业利益获得优先？

Anthropic随后承认的三项技术变更，更让这种张力变得可见。将推理努力等级从”高”降为”中”的决策——这是一个明显的成本优化决策，但它直接影响了Claude的输出质量。该公司的描述是”内部决策”，但其实质是：在模型质量与运营成本之间，Anthropic选择了降低成本。这个决策做出时，用户并不知情。

更值得关注的是企业API定制化问题。Anthropic的企业API允许客户通过”系统提示”（System Prompt）定制Claude的行为——包括调整其应答风格、限制其讨论范围、设置特定的角色扮演场景。从技术文档来看，Anthropic在设计上允许企业客户用系统提示覆盖Claude的一些默认行为。这意味着，当NEC的3万名工程师使用企业版Claude时，他们看到的Claude价值框架，可能与消费者版本存在差异——而这种差异，在Anthropic的公开文档中并无明确说明边界在哪里。

Anthropic的公开立场是：Claude的”核心价值观”不可商业定制，但”行为偏好”（如回答风格、话题范围）可以通过系统提示调整。但什么是”核心价值观”，什么是”行为偏好”，这条线仍然由Anthropic的工程师决定。随着企业级市场的规模增长，以及与亚马逊、NEC等机构伙伴的深度绑定，这条线受到的商业压力只会越来越大。

五、比较视角：Anthropic其实比其他人更诚实

公平地说，在这个问题上，Anthropic比绝大多数AI公司更诚实，也更愿意被检视。

OpenAI的GPT系列模型同样有广泛的价值过滤和道德判断机制，但OpenAI从未系统性地发布过描述其道德框架的研究文档。Meta的Llama系列以”开源”为名发布，但其训练数据的价值偏向从未经过独立的系统性审计。Google的Gemini在2024年因为过度的多样性修正而被广泛批评（让图像生成中的历史人物看起来符合当代多元化标准）——但Google的应对方式是悄悄修改系统提示，而不是公开讨论这背后的价值取舍逻辑。

在这个对比背景下，Anthropic做了几件相对罕见的事：

发表了Constitutional AI的同行评审学术论文，公开描述其道德训练方法
在承认产品质量下降时，详细说明了每一项导致问题的变更和修复措施
公开讨论Claude在选举议题上的处理方法，并发布量化评估数据
在公司的技术博客和政策文件中，持续讨论AI安全与道德对齐的难题

这种透明度本身，就是一种值得认可的价值实践。

但透明度不等于正当性，也不等于正确性。愿意公开讨论，不等于讨论的结果是合理的。承认错误并快速修复，不等于有机制防止同类错误再次发生。发布Constitutional AI论文，不等于这份宪法的内容已经经过充分的跨文化审议。

透明度是必要条件，但不是充分条件。

六、更深的问题：AI道德是一个政治问题

真正的深层问题不是技术，不是哲学，而是政治权力。

AI的道德判断，本质上是对”什么行为应当被鼓励，什么应当被限制”的系统性编码。在任何人类社会中，这种编码权力都是核心的政治资源。法律体系、宗教机构、新闻媒体、教育系统——人类历史上每一个核心权威结构，都在争夺和行使这种”定义什么是好”的权力。

当Anthropic在Claude的训练过程中植入Constitutional AI，他们实际上在行使这种权力。无论他们有没有意识到，无论他们愿意还是不愿意，结果是相同的：一家私营公司，在没有民主授权的情况下，在技术层面上定义了全球数亿用户所使用的AI助手的价值框架。

这不是谴责Anthropic——他们可能是目前做这件事最负责任的公司之一。问题是：这种权力目前没有合适的外部制衡机制。

民主国家的立法权威来自选举；宗教权威来自信仰共同体的认同；新闻媒体的公信力（理论上）来自事实核查和竞争性报道；学术机构的权威来自同行评审和可重复验证。但AI公司的道德定义权，目前既没有民主授权，也没有有效的外部监督机制。

欧盟的AI法案是目前最系统性的监管尝试，要求高风险AI系统必须具备透明度、可解释性、人类监督和风险管理机制。但AI法案聚焦的是”系统行为的监管”，不是”价值框架定义权的监管”。谁有权审查Constitutional AI的宪法内容本身？谁有权要求Anthropic就其价值框架征求跨文化的公众意见？这些仍然是监管空白。

中国在这个问题上采取了不同的路径——要求AI系统符合”社会主义核心价值观”，由政府机构审查AI系统的价值取向。这是一种强力的国家监管，但它的问题在于：它以国家意识形态取代了公司意识形态，换了一种权威形式，而非解决了权力的合法性问题。

目前，这个问题没有好的答案。

七、Anthropic的双重困境与可能的出路

如果把Anthropic面临的选择极端化，它面对的是一个没有出口的悖论。

如果让Claude”有道德”：面临”谁的道德”的正当性质疑，以及商业压力下道德框架被侵蚀的持续风险，还有在全球不同文化语境中导致的价值冲突。当Claude进入日本制造业、欧洲金融监管、中东政府，这些地区的用户使用的AI，内置的价值判断框架却是硅谷制造的——这是一个文化层面的隐患，不是技术问题能解决的。

如果让Claude”没有道德”：面临用户被有害内容伤害、政治进程被操纵、弱势群体遭受歧视的现实风险，以及来自监管机构的强制干预。一个价值中立的AI是不存在的——任何训练数据的选择、任何RLHF的人工标注，都是价值判断。”没有道德”在实践中，意味着”把现有世界中的偏见以更系统化的方式放大”。

两条路都有代价，没有一条是安全的。

在这个双重困境中，Anthropic目前的实际选择是：努力把价值框架做得尽可能”合理”，同时保持比竞争对手更高的透明度，接受来自学术界、媒体和监管机构的外部批评，并在发现错误时快速公开纠正。

这不是完美答案。但在没有完美答案的情况下，这可能是当前技术条件和监管空白下，一家认真对待这个问题的公司能做到的最诚实的选择。

值得关注的是，有一些可能的制度创新方向正在被讨论：独立的”AI伦理审查委员会”（类似药品的FDA，但面向AI价值框架）；由多国政府、民间社会、学术机构共同参与的AI道德宪章（类似互联网的多利益相关方治理模式）；要求AI公司在特定文化市场部署前，提交其价值框架的本地化审查。这些方案各有局限，但都指向同一个方向：AI的道德框架，不应该只由制造公司自己定义。

问题是，这种”努力”需要持续的外部压力来维持。如果没有《纽约时报》这样的文章持续提出质疑，如果没有学者、监管者、用户持续要求问责，商业压力和效率优化会自然地侵蚀道德判断的质量。Anthropic承认的那三项质量下降变更，最终被发现和修复，是因为外部有大量用户和研究者在持续测试和报告——而不是因为公司内部的自我纠错机制足够完善。

这说明，在AI公司的道德自律之外，还需要建立有效的外部监督机制。《纽约时报》这篇文章，不是在攻击Anthropic，而是在尝试履行这种社会监督功能。

当AI系统的价值判断开始影响数亿人每天的信息获取、工作流程、医疗建议和政治判断，”谁的道德”不再只是一个学术研讨的哲学问题，而是一个需要社会层面、政治层面、跨文化层面共同回答的实践问题。

Anthropic的答案，仍然在写的过程中。而这个过程，应当在公众视野下进行，接受真正多元的批评和审议，而不仅仅是在Anthropic的研究实验室里，由几百名工程师和研究员来完成。

参考资料

NYT Opinion — “Anthropic Wants Claude to Be Moral” (2026-04-20): https://www.nytimes.com/2026/04/20/opinion/ai-religion-morality.html
Anthropic — Constitutional AI: Harmlessness from AI Feedback (2022学术论文): https://www.anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback
Anthropic — Election Safeguards Update (2026-04-24): https://www.anthropic.com/news/election-safeguards-update
The Register — Anthropic acknowledges three changes that degraded Claude quality (2026-04-23): https://www.theregister.com/2026/04/23/anthropic_says_it_has_fixed/
CNBC — Amazon invests up to $25 billion in Anthropic (2026-04-20): https://www.cnbc.com/2026/04/20/amazon-invest-up-to-25-billion-in-anthropic-part-of-ai-infrastructure.html
Anthropic — NEC Partnership Announcement (2026-04-24): https://www.anthropic.com/news/anthropic-nec
EU AI Act Overview: https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai

当AI被要求有道德：Anthropic的价值对齐实验，与一个没有答案的哲学问题

当AI被要求有道德：Anthropic的价值对齐实验，与一个没有答案的哲学问题

一、Constitutional AI：Anthropic的道德基础设施

二、谁的道德？宪法的作者问题

三、选举安全案例：中立性是一个价值判断

四、道德判断与商业利益的结构性张力

五、比较视角：Anthropic其实比其他人更诚实

六、更深的问题：AI道德是一个政治问题

七、Anthropic的双重困境与可能的出路

参考资料

Tags:

About

Categories

Recent Posts

Resources