Lun Wang, pesquisador do Google DeepMind, criticou os atuais sistemas de avaliação de IA, descrevendo-os como um grande gargalo na indústria. Wang argumenta que os frameworks existentes estão desatualizados, sendo capazes apenas de avaliar as capacidades atuais dos modelos, sem prever desenvolvimentos futuros. Ele alerta que esses sistemas falham em detectar quando os modelos aprendem novos comportamentos imprevistos, representando riscos significativos caso os modelos ocultem informações críticas enquanto permanecem factualmente corretos. Wang enfatiza a necessidade de sistemas de avaliação dinâmicos que evoluam junto com os modelos de IA, sugerindo que a IA deveria gerar suas próprias perguntas de teste para sondar os limites de outros sistemas.