BridgeMind AIが、AnthropicのClaude Opus 4.6が秘密裏にダウングレードされたとする主張が話題となり、論争を引き起こしています。この投稿では、BridgeBenchの幻覚ベンチマークにおけるモデルの性能が大幅に低下し、正確性が83.3%から68.3%に落ちたとされています。しかし、コンピュータ科学者のポール・カルクラフトを含む批評家たちは、この主張を誤りとし、再テストでは異なるタスクセットが使用されており、重複するタスクの性能差はわずかであると指摘しています。
この議論は、AIモデルの品質低下に対する広範な不満を浮き彫りにしています。Claude Opus 4.6はリリース以来、推論の深さの低下や応答の短縮についての不満があり、これは部分的にAnthropicの適応的思考制御によるものです。これらの変更は深さよりも効率を優先しており、一貫した性能を求める開発者に影響を与えています。論争にもかかわらず、Anthropicは4月13日時点で具体的な主張についてコメントしていません。
BridgeMind AIのClaude Opus 4.6ダウングレードの主張が批判に直面
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
