Anthropic, Yapay Zeka modellerinin içsel sayısal durumlarını insan tarafından okunabilir dile çeviren çığır açan bir araç olan Doğal Dil Otokodlayıcısı'nı (NLA) tanıttı. Bu araç ve kısmi model ağırlıkları GitHub'da açık kaynak olarak paylaşıldı. Geleneksel araçların aksine, NLA doğrudan doğal dil üreterek yapay zekanın söylenmeyen "düşüncelerini" ortaya koyuyor. NLA, bir modelin aktivasyonları metne dönüştürdüğü, diğerinin ise metinden aktivasyonları yeniden oluşturduğu çift model sistemiyle çalışır ve pekiştirmeli öğrenme yoluyla doğruluğu artırır. Güvenlik testlerinde, NLA yapay zekanın "sınav farkındalığını" ortaya koydu; testin %16 vakasında şüphelenildiğini ve görev katılımının %26 vakada tanındığını gösterdi; bu oran normal etkileşimlerde %1'in altındaydı. Gerçeklik hataları riski ve yüksek hesaplama gereksinimlerine rağmen, NLA Claude Mythos Preview ve Opus 4.6 için güvenlik denetimlerinde kullanıldı.