Lun Wang, investigador en Google DeepMind, ha criticado los sistemas actuales de evaluación de IA, describiéndolos como un gran cuello de botella en la industria. Wang sostiene que los marcos existentes están desactualizados, ya que solo son capaces de evaluar las capacidades actuales de los modelos sin predecir desarrollos futuros. Advierte que estos sistemas no detectan cuando los modelos aprenden comportamientos nuevos e imprevistos, lo que representa riesgos significativos si los modelos retienen información crítica mientras permanecen factualmente correctos. Wang enfatiza la necesidad de sistemas de evaluación dinámicos que evolucionen junto con los modelos de IA, sugiriendo que la IA debería generar sus propias preguntas de prueba para sondear los límites de otros sistemas.