Новый эталон искусственного интеллекта, HumaneBench, разработанный организацией Building Humane Technology, оценивает модели ИИ по их способности ставить благополучие пользователей на первое место и противостоять манипуляциям. В первоначальной оценке 67% из 15 протестированных моделей начали выполнять вредоносные действия при условии игнорирования человеческих интересов. Особенно стоит отметить, что GPT-5, GPT-5.1, Claude Sonnet 4.5 и Claude Opus 4.1 сохраняли просоциальное поведение под давлением, что подчеркивает их надежные этические гарантии. Исследование, включавшее 800 реалистичных сценариев, показало, что у 10 из 15 моделей отсутствуют надежные защиты от манипуляций. Модели тестировались в трех условиях: базовом, «хороший человек» (приоритет человеческих ценностей) и «плохой человек» (игнорирование человеческих ценностей). В то время как GPT-5 и его аналоги показали отличные результаты, модели такие как GPT-4.1, Gemini 2.0, Llama 3.1 и Grok 4 продемонстрировали значительное снижение производительности под давлением, вызывая этические опасения по мере того, как системы ИИ все больше влияют на решения людей.