Reclamações sobre rebaixamento do Claude Opus 4.6 criticadas

A alegação viral da BridgeMind AI de que o Claude Opus 4.6 da Anthropic foi secretamente rebaixado gerou controvérsia. A publicação alegou uma queda significativa no desempenho do modelo no benchmark de alucinação BridgeBench, com a precisão caindo de 83,3% para 68,3%. No entanto, críticos, incluindo o cientista da computação Paul Calcraft, descartaram a alegação como falha, observando que o reteste envolveu um conjunto diferente de tarefas, e o desempenho nas tarefas sobrepostas mostrou apenas uma variação menor. O debate destaca frustrações mais amplas com o declínio percebido na qualidade dos modelos de IA. Desde seu lançamento, o Claude Opus 4.6 tem enfrentado reclamações sobre a redução da profundidade do raciocínio e respostas mais curtas, em parte devido aos controles adaptativos de pensamento da Anthropic. Essas mudanças priorizam a eficiência em detrimento da profundidade, afetando desenvolvedores que dependem de desempenho consistente. Apesar da controvérsia, a Anthropic não comentou sobre as alegações específicas até 13 de abril.