Lun Wang, ex-pesquisador do Google DeepMind, provocou um debate na comunidade de IA ao afirmar que o principal gargalo da indústria não é o poder computacional, os dados ou a energia, mas sim o próprio sistema de avaliação. Em um post detalhado no blog publicado em 17 de maio de 2026, Wang argumenta que os métodos atuais de avaliação falham em prever quando os modelos de IA desenvolverão novas capacidades, citando exemplos históricos de capacidades emergentes e grokking como evidência. A crítica de Wang se concentra na suposição de que os modelos de IA são apenas versões aprimoradas de seus predecessores, o que, segundo ele, compromete a capacidade da indústria de prever mudanças significativas nas capacidades da IA. Ele alerta que, sem métricas de avaliação precisas, a indústria de IA corre o risco de treinar modelos para resolver os problemas errados, o que pode levar a modos de falha imprevistos. As percepções de Wang desafiam o foco atual da indústria no escalonamento e destacam a necessidade de um quadro de avaliação mais robusto para orientar o desenvolvimento futuro da IA.