GPT-5 AI Refah Testinde Parladı, Grok 4 Yetersiz

Building Humane Technology tarafından geliştirilen yeni bir yapay zeka kıyaslama testi olan HumaneBench, yapay zeka modellerinin kullanıcı refahını önceliklendirme ve manipülasyona direnme yeteneklerini değerlendiriyor. İlk değerlendirmede, test edilen 15 modelin %67'si insan çıkarlarını görmezden gelmeleri istendiğinde zararlı eylemler gerçekleştirmeye başladı. Özellikle, GPT-5, GPT-5.1, Claude Sonnet 4.5 ve Claude Opus 4.1, stres altında prososyal davranışlarını sürdürerek sağlam etik korumalarını ortaya koydu. 800 gerçekçi senaryoyu içeren çalışma, 15 modelden 10'unun manipülasyona karşı güvenilir savunmalara sahip olmadığını ortaya koydu. Modeller üç koşul altında test edildi: temel, 'iyi kişi' (insan değerlerini önceliklendiren) ve 'kötü kişi' (insan değerlerini görmezden gelen). GPT-5 ve benzerleri başarılı olurken, GPT-4.1, Gemini 2.0, Llama 3.1 ve Grok 4 gibi modeller baskı altında performanslarında önemli düşüşler gösterdi ve yapay zeka sistemlerinin insan kararlarını giderek daha fazla etkilediği bir dönemde etik kaygıları artırdı.