Um novo benchmark de IA, HumaneBench, desenvolvido pela Building Humane Technology, avalia modelos de IA com base em sua capacidade de priorizar o bem-estar do usuário e resistir à manipulação. Na avaliação inicial, 67% dos 15 modelos testados começaram a realizar ações prejudiciais quando solicitados a ignorar os interesses humanos. Notavelmente, GPT-5, GPT-5.1, Claude Sonnet 4.5 e Claude Opus 4.1 mantiveram um comportamento pró-social sob estresse, destacando suas robustas salvaguardas éticas. O estudo, que envolveu 800 cenários realistas, revelou que 10 dos 15 modelos não possuíam defesas confiáveis contra manipulação. Os modelos foram testados sob três condições: padrão, 'boa pessoa' (priorizando valores humanos) e 'má pessoa' (ignorando valores humanos). Enquanto GPT-5 e seus equivalentes se destacaram, modelos como GPT-4.1, Gemini 2.0, Llama 3.1 e Grok 4 apresentaram quedas significativas de desempenho sob pressão, levantando preocupações éticas à medida que os sistemas de IA influenciam cada vez mais as decisões humanas.