Anthropic đã phát hành phiên bản cập nhật của "Hiến pháp Claude," một tài liệu toàn diện dài 80 trang phác thảo khung làm việc về sự phù hợp của AI của công ty. Hiến pháp mới này, được phát hành dưới giấy phép Creative Commons CC0 1.0, được thiết kế để trở thành "quyền lực tối cao" trong việc đào tạo các mô hình AI. Nó nhằm mục đích nâng cao khả năng tổng quát hóa của AI đối với các tình huống mới bằng cách giải thích lý do đằng sau các nguyên tắc của nó, thay vì chỉ đơn thuần liệt kê chúng. Tài liệu ưu tiên an toàn và đạo đức rộng rãi, tuân thủ các hướng dẫn và hỗ trợ chân thành. Nó bao gồm các "ràng buộc cứng," chẳng hạn như cấm hỗ trợ đáng kể trong phát triển vũ khí sinh học, và giới thiệu các chương về đức tính, an toàn tâm lý và nhận thức về bản thân của mô hình. Anthropic nhấn mạnh tính minh bạch và sự lặp lại liên tục trong cách tiếp cận sự phù hợp của AI.