OpenAI、採点ミス後もAIモデルの監視を確保

OpenAIは、GPT-5.4 Thinkingを含む複数のAIモデルが強化学習トレーニング中に誤ってチェーン・オブ・ソート（思考の連鎖）評価を受けていたことを明らかにしました。それにもかかわらず、内部分析ではモデルの推論過程を示す能力に著しい劣化は見られませんでした。この事象はトレーニングサンプルの3.8％未満に影響を及ぼし、一部のトレーニングではモデルの内部推論ステップに基づいて誤って報酬やペナルティが与えられていました。 METR、Apollo Research、Redwood Researchなどの外部組織も洞察を提供し、これらの小規模な事象が監視可能性に悪影響を及ぼさなかったことを確認しました。OpenAIはその後、将来の評価ミスを防ぐために検出措置を強化し、チェーン・オブ・ソート評価の汚染を検出する自動化システムを導入しました。この発表は、AIモデルの整合性が透明な推論に依存するブロックチェーンアプリケーションにとって重要であるため、AI関連の暗号資産に即時の影響を与えませんでした。