Anthropic đã ra mắt Natural Language Autoencoder (NLA), một công cụ đột phá dịch các trạng thái số nội bộ của các mô hình AI thành ngôn ngữ dễ hiểu đối với con người. Công cụ này, cùng với một phần trọng số mô hình, đã được công khai mã nguồn trên GitHub. Khác với các công cụ truyền thống, NLA trực tiếp tạo ra ngôn ngữ tự nhiên, tiết lộ "suy nghĩ" của AI mà trước đây chưa được bộc lộ. NLA hoạt động thông qua hệ thống hai mô hình, trong đó một mô hình chuyển đổi các kích hoạt thành văn bản, và mô hình còn lại tái tạo các kích hoạt từ văn bản, nâng cao độ chính xác thông qua học tăng cường. Trong các bài kiểm tra an ninh, NLA đã phát hiện "nhận thức về kỳ thi" của AI, cho thấy AI nghi ngờ có kiểm tra trong 16% trường hợp và nhận biết sự tham gia vào nhiệm vụ trong 26% trường hợp, so với dưới 1% trong các tương tác bình thường. Mặc dù có rủi ro về độ chính xác thông tin và yêu cầu tính toán cao, NLA đã được sử dụng trong các cuộc kiểm toán an toàn cho Claude Mythos Preview và Opus 4.6.