Lun Wang, un exinvestigador de Google DeepMind, ha generado debate en la comunidad de IA al afirmar que el principal cuello de botella de la industria no es la potencia computacional, los datos ni la energía, sino el propio sistema de evaluación. En una publicación detallada en su blog, publicada el 17 de mayo de 2026, Wang sostiene que los métodos actuales de evaluación no logran predecir cuándo los modelos de IA desarrollarán nuevas capacidades, citando ejemplos históricos de capacidades emergentes y grokking como evidencia. La crítica de Wang se centra en la suposición de que los modelos de IA son simplemente versiones mejoradas de sus predecesores, lo que, según él, socava la capacidad de la industria para prever cambios significativos en las capacidades de la IA. Advierte que sin métricas de evaluación precisas, la industria de la IA corre el riesgo de entrenar modelos para resolver problemas equivocados, lo que podría conducir a modos de fallo imprevistos. Las ideas de Wang desafían el enfoque actual de la industria en la escalabilidad y destacan la necesidad de un marco de evaluación más sólido para guiar el desarrollo futuro de la IA.