Vitalik Buterin a présenté un plan pour déployer des grands modèles de langage (LLM) localisés et privés, en mettant l'accent sur la confidentialité et la sécurité. L'initiative vise à minimiser les risques de fuite de données et d'accès non autorisé en évitant les modèles distants et les services externes. Les stratégies clés incluent l'inférence locale, le stockage des fichiers sur l'appareil et l'isolation en bac à sable. Les tests matériels de Buterin ont impliqué un ordinateur portable équipé d'un GPU NVIDIA 5090, un appareil AMD Ryzen AI Max Pro avec 128 Go de mémoire unifiée, et le DGX Spark. Les résultats de performance ont montré que l'ordinateur portable 5090 atteignait 90 tokens par seconde avec le modèle Qwen3.5 35B, tandis que l'appareil AMD et le DGX Spark atteignaient respectivement 51 et 60 tokens par seconde. Buterin privilégie les ordinateurs portables haute performance pour construire des environnements d'IA locaux, en utilisant des outils comme llama-server, llama-swap et NixOS.