Phản đối cáo buộc hạ cấp Claude Opus 4.6 của BridgeMind AI

Yêu cầu lan truyền của BridgeMind AI rằng Claude Opus 4.6 của Anthropic đã bị hạ cấp bí mật đã gây ra tranh cãi. Bài đăng cáo buộc sự sụt giảm đáng kể trong hiệu suất của mô hình trên chuẩn đoán ảo BridgeBench, với độ chính xác giảm từ 83,3% xuống còn 68,3%. Tuy nhiên, các nhà phê bình, bao gồm nhà khoa học máy tính Paul Calcraft, đã bác bỏ yêu cầu này là sai lệch, lưu ý rằng việc kiểm tra lại đã sử dụng một bộ nhiệm vụ khác, và hiệu suất trên các nhiệm vụ trùng lặp chỉ cho thấy sự biến đổi nhỏ. Cuộc tranh luận làm nổi bật sự thất vọng rộng hơn về sự suy giảm chất lượng được cảm nhận của các mô hình AI. Kể từ khi ra mắt, Claude Opus 4.6 đã gặp phải các phàn nàn về việc giảm độ sâu suy luận và các câu trả lời ngắn hơn, một phần do các kiểm soát tư duy thích ứng của Anthropic. Những thay đổi này ưu tiên hiệu quả hơn là độ sâu, ảnh hưởng đến các nhà phát triển dựa vào hiệu suất nhất quán. Mặc dù có tranh cãi, Anthropic vẫn chưa bình luận về các yêu cầu cụ thể tính đến ngày 13 tháng 4.