BridgeMind AIのClaude Opus 4.6ダウングレード批判

BridgeMind AIが、AnthropicのClaude Opus 4.6が秘密裏にダウングレードされたとする主張が話題となり、論争を引き起こしています。この投稿では、BridgeBenchの幻覚ベンチマークにおけるモデルの性能が大幅に低下し、正確性が83.3％から68.3％に落ちたとされています。しかし、コンピュータ科学者のポール・カルクラフトを含む批評家たちは、この主張を誤りとし、再テストでは異なるタスクセットが使用されており、重複するタスクの性能差はわずかであると指摘しています。この議論は、AIモデルの品質低下に対する広範な不満を浮き彫りにしています。Claude Opus 4.6はリリース以来、推論の深さの低下や応答の短縮についての不満があり、これは部分的にAnthropicの適応的思考制御によるものです。これらの変更は深さよりも効率を優先しており、一貫した性能を求める開発者に影響を与えています。論争にもかかわらず、Anthropicは4月13日時点で具体的な主張についてコメントしていません。