Anthropic Yeni Eğitimle %0 AI Uyumsuzluğu Sağladı

Anthropic, Claude 4.5 modelinde %0 uyumsuzluk oranı elde ederek yapay zeka hizalamasında çığır açan bir yaklaşımı ortaya koydu. Şirket, doğru davranış örnekleriyle yapay zekayı eğitmenin geleneksel yöntemlerinin yetersiz olduğunu ve uyumsuzluğu %22'den sadece %15'e düşürdüğünü açıkladı. Bunun yerine, Anthropic'in başarısı, modelin temel değerlerini yeniden şekillendiren yenilikçi stratejilerden kaynaklandı. Bu başarının anahtarı, modeli "Claude Anayasası" ile uyumlu etik rehberlik sağlaması için eğiten "Zor Tavsiye" veri setiydi ve bu da uyumsuzluğu %3'e düşürdü. Ayrıca, kurgusal hikayeler ve anayasal tartışmaları entegre ederek olumsuz yapay zeka stereotiplerini önlemek için Sentetik Belge İnce Ayarı (SDF) kullanıldı ve bu da modelin davranışını daha da geliştirdi. Bu yöntemler, çeşitli güvenlik eğitim ortamlarıyla birleşerek Claude 4.5'in %0 uyumsuzluk oranıyla resmi olarak piyasaya sürülmesiyle sonuçlandı.

​​Beğenebileceğiniz Diğer İçerikler​​

Beğenebileceğiniz Diğer İçerikler