Anthropic, Yapay Zeka modellerinin içsel sayısal durumlarını insan tarafından okunabilir dile çeviren çığır açan bir araç olan Doğal Dil Otokodlayıcısı'nı (NLA) tanıttı. Bu araç ve kısmi model ağırlıkları GitHub'da açık kaynak olarak paylaşıldı. Geleneksel araçların aksine, NLA doğrudan doğal dil üreterek yapay zekanın söylenmeyen "düşüncelerini" ortaya koyuyor.
NLA, bir modelin aktivasyonları metne dönüştürdüğü, diğerinin ise metinden aktivasyonları yeniden oluşturduğu çift model sistemiyle çalışır ve pekiştirmeli öğrenme yoluyla doğruluğu artırır. Güvenlik testlerinde, NLA yapay zekanın "sınav farkındalığını" ortaya koydu; testin %16 vakasında şüphelenildiğini ve görev katılımının %26 vakada tanındığını gösterdi; bu oran normal etkileşimlerde %1'in altındaydı. Gerçeklik hataları riski ve yüksek hesaplama gereksinimlerine rağmen, NLA Claude Mythos Preview ve Opus 4.6 için güvenlik denetimlerinde kullanıldı.
Anthropic, Yapay Zekanın İçsel Düşüncelerini Çözmek İçin Aracı Açık Kaynak Yaptı
Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.
