Anthropic PBC 今日推出了 Claude 宪章的更新版本,这份文件阐述了大型语言模型系列在应对提示时应遵循的方式。
公司在2023年5月推出了这份文件的最初版本,其中涵盖了用于避免Claude生成有害或无价值输出的相关指令。由于Anthropic察觉到这些指令存在某些局限,所以决定重新制定一份新的宪法。
其中一个主要挑战是Claude难以将人类学的指导方针应用于新情境。如果LLM安全指令未明确说明应如何回答某个提示,模型可能会生成错误的响应。
Anthropic表示,他们的新章程不仅给Claude模型下达了指令,还阐述了“我们为何期望它们以特定方式运行”。对于大型语言模型而言,这样的阐述更有助于它们应对不熟悉的任务。
更新后的章程围绕四项核心指令展开。第一,Claude 应做到“真正有帮助”,确保输出内容契合用户的实际需求。例如,章程明确要求LLM系列不得生成开发者未要求的编程语言代码。
文件的后续部分清晰说明,Claude需做到“大体安全”。按照Anthropic的解释,这表示模型不能实施用户不允许的行为。同时,Claude还被要求在决策过程中保持透明。
宪法还有两个核心的优先考量,一是要保证Claude“整体符合道德准则”,二是使其遵循Anthropic给出的“更为具体的指导原则”。这些指导原则里,有些清晰界定了LLM系列应如何防范越狱攻击;另有一些则为Claude提供了与第三方应用进行交互的操作指引。
这个架构属于Claude训练数据集的范畴。除此之外,该系列的大型语言模型还借助这份文档来生成更多的合成训练文件。Claude生成合成数据的方法之一,就是模拟那些适用章程里指导方针的聊天对话。
Anthropic称,这份文件另有其他用途。其客户能够借助它来判断即时回复是否符合Claude的规则。要是不符合,客户可以向Anthropic进行反馈。
公司借助知识共享CC0 1.0协议对外发布了这份章程,公众可免费对其加以使用。Anthropic的主要竞争者OpenAI集团PBC,在自身AI宪法的许可选择上也与该公司一致。这份文档涉及诸多和Claude指南相重合的主题,并且已被纳入GPT-5的训练数据集之中。