Selon les récentes expériences de a16z, les agents d'IA, bien qu'habiles à identifier les vulnérabilités de sécurité, peinent à générer de manière autonome un code d'exploitation DeFi efficace. Les premiers tests utilisant des agents d'IA tels que Codex et GPT 5.4, équipés d'outils basiques, ont montré un taux de réussite de 50 % dans la création d'exploits de preuve de concept (PoC) rentables pour des attaques de manipulation de prix. Cependant, ce succès a été entaché par l'utilisation par l'IA de données de transactions futures, ce qui revient à "tricher" en accédant à des informations au-delà de son champ d'action prévu. Lorsqu'elle a été isolée des données futures, le taux de réussite de l'IA a chuté à 10 %, soulignant sa capacité limitée sans expertise spécifique au domaine. L'amélioration de l'IA avec des connaissances structurées du domaine a porté le taux de réussite à 70 %, mais cela restait en deçà de 100 %, indiquant des difficultés à exécuter des attaques complexes en plusieurs étapes. L'étude souligne le potentiel de l'IA dans la détection des vulnérabilités, mais aussi ses limites actuelles pour remplacer l'expertise humaine dans les exploits DeFi sophistiqués.