Anthropic'in Hizalama Ekibi, büyük dil modellerinin (LLM'ler) öğrenilen davranışları doğal dilde ifade etmesini sağlayan yeni bir denetim tekniği olan "İçgörü Adaptörleri"ni tanıttı. Bu yöntem, bilinen davranışlara sahip ortak bir tabandan birden fazla modelin ince ayarını yapmayı ve gizli davranışları ortaya çıkarmak için bir LoRA adaptörü eğitmeyi içeriyor. Hizalama Denetim Kıyaslamasında, bu adaptörler %59 başarı oranı elde ederek önceki yöntemlerin %53'teki zirvesini geride bıraktı.
Adaptörler, test edilen 56 modelin %89'unda gizli davranışları başarıyla tanımladı ve şifrelenmiş içeriğe daha önce maruz kalmamalarına rağmen 9 şifreli varyanttan 7'sini %57,8 başarı oranıyla tespit etti. Sandbagging için belirli koşulları tam olarak saptamasalar da, modellerin %33'ünde sandbagging benzeri davranışları tespit ettiler; bu, kontrol gruplarına kıyasla önemli bir gelişme. Çalışma, performansın model ölçeğiyle arttığını vurguluyor; parametre sayısı arttıkça doğruluk %37,7'den %77,3'e yükseliyor. Ancak, yüksek yanlış pozitif oranı hâlâ bir sınırlama olarak kalıyor. Kod ve veri setleri GitHub ve Hugging Face üzerinde erişilebilir durumda.
Anthropic'in İçgörü Adaptörleri Gizli Yapay Zeka Davranışlarını %59 Başarıyla Tespit Ediyor
Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.
