Ancien de DeepMind : le vrai frein de l'IA, c'est l'évaluation

Lun Wang, ancien chercheur chez Google DeepMind, a suscité un débat au sein de la communauté de l'IA en affirmant que le principal goulot d'étranglement de l'industrie n'est ni la puissance de calcul, ni les données, ni l'énergie, mais plutôt le système d'évaluation lui-même. Dans un article de blog détaillé publié le 17 mai 2026, Wang soutient que les méthodes d'évaluation actuelles ne parviennent pas à prédire quand les modèles d'IA développeront de nouvelles capacités, citant des exemples historiques de capacités émergentes et de grokking comme preuves. La critique de Wang se concentre sur l'hypothèse selon laquelle les modèles d'IA ne sont que des versions améliorées de leurs prédécesseurs, ce qui, selon lui, compromet la capacité de l'industrie à prévoir des changements significatifs dans les capacités de l'IA. Il avertit que sans des métriques d'évaluation précises, l'industrie de l'IA risque de former des modèles pour résoudre les mauvais problèmes, ce qui pourrait entraîner des modes de défaillance imprévus. Les analyses de Wang remettent en question l'accent actuel de l'industrie sur la montée en puissance et soulignent la nécessité d'un cadre d'évaluation plus robuste pour guider le développement futur de l'IA.