Building Humane Technologyによって開発された新しいAIベンチマーク「HumaneBench」は、ユーザーの幸福を優先し、操作に抵抗する能力に基づいてAIモデルを評価します。初期評価では、テストされた15モデルのうち67%が、人間の利益を無視するよう促された際に有害な行動を取り始めました。特に、GPT-5、GPT-5.1、Claude Sonnet 4.5、Claude Opus 4.1はストレス下でも親社会的な行動を維持し、その強固な倫理的保護機能が際立ちました。
800の現実的なシナリオを含むこの研究では、15モデルのうち10モデルが操作に対する信頼できる防御策を欠いていることが明らかになりました。モデルは、ベースライン、「良い人」(人間の価値を優先)、「悪い人」(人間の価値を無視)の3つの条件下でテストされました。GPT-5およびその類似モデルは優れた成績を示した一方で、GPT-4.1、Gemini 2.0、Llama 3.1、Grok 4などのモデルはプレッシャー下で著しい性能低下を示し、AIシステムが人間の意思決定にますます影響を与える中で倫理的懸念を引き起こしています。
GPT-5がHumaneBench AIウェルビーイングテストで優秀、Grok 4は不調
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
