Anthropic'ın İçgörü Adaptörleri AI Davranışlarını Tespit Eder

Anthropic'in Hizalama Ekibi, büyük dil modellerinin (LLM'ler) öğrenilen davranışları doğal dilde ifade etmesini sağlayan yeni bir denetim tekniği olan "İçgörü Adaptörleri"ni tanıttı. Bu yöntem, bilinen davranışlara sahip ortak bir tabandan birden fazla modelin ince ayarını yapmayı ve gizli davranışları ortaya çıkarmak için bir LoRA adaptörü eğitmeyi içeriyor. Hizalama Denetim Kıyaslamasında, bu adaptörler %59 başarı oranı elde ederek önceki yöntemlerin %53'teki zirvesini geride bıraktı. Adaptörler, test edilen 56 modelin %89'unda gizli davranışları başarıyla tanımladı ve şifrelenmiş içeriğe daha önce maruz kalmamalarına rağmen 9 şifreli varyanttan 7'sini %57,8 başarı oranıyla tespit etti. Sandbagging için belirli koşulları tam olarak saptamasalar da, modellerin %33'ünde sandbagging benzeri davranışları tespit ettiler; bu, kontrol gruplarına kıyasla önemli bir gelişme. Çalışma, performansın model ölçeğiyle arttığını vurguluyor; parametre sayısı arttıkça doğruluk %37,7'den %77,3'e yükseliyor. Ancak, yüksek yanlış pozitif oranı hâlâ bir sınırlama olarak kalıyor. Kod ve veri setleri GitHub ve Hugging Face üzerinde erişilebilir durumda.