Críticas a reclamos de degradación de Claude Opus 4.6 de BridgeMind AI

La afirmación viral de BridgeMind AI de que Claude Opus 4.6 de Anthropic fue degradado en secreto ha generado controversia. La publicación alegaba una caída significativa en el rendimiento del modelo en el benchmark de alucinaciones BridgeBench, con una precisión que bajó del 83.3% al 68.3%. Sin embargo, críticos, incluido el científico informático Paul Calcraft, han descartado la afirmación como errónea, señalando que la nueva prueba involucró un conjunto diferente de tareas, y el rendimiento en las tareas superpuestas mostró solo una variación menor. El debate resalta frustraciones más amplias con la percepción de un declive en la calidad de los modelos de IA. Desde su lanzamiento, Claude Opus 4.6 ha recibido quejas sobre una reducción en la profundidad del razonamiento y respuestas más cortas, en parte debido a los controles adaptativos de pensamiento de Anthropic. Estos cambios priorizan la eficiencia sobre la profundidad, afectando a los desarrolladores que dependen de un rendimiento consistente. A pesar de la controversia, Anthropic no ha comentado sobre las afirmaciones específicas hasta el 13 de abril.