Un passionné chinois d'IA, APFrisco, a réussi à faire fonctionner Kimi K2.5 de Moonshot AI, un modèle à un trillion de paramètres, sur un seul GPU Nvidia RTX 3060 associé à 768 Go de mémoire persistante Intel Optane. Malgré le GPU de milieu de gamme, la configuration a atteint environ quatre tokens par seconde, démontrant le potentiel des configurations matérielles non conventionnelles. Kimi K2.5, un modèle Mixture-of-Experts, n'active que 32 milliards de paramètres par token, ce qui lui permet de fonctionner sur du matériel grand public. La taille totale du modèle est d'environ 630 Go, avec des versions quantifiées à 381 Go, nécessitant l'utilisation de la mémoire Optane en raison de son rapport coût-efficacité par rapport à la DRAM traditionnelle. Cette démonstration met en lumière l'accessibilité des modèles d'IA avancés, puisque Kimi K2.5 est open-weight, permettant aux passionnés d'expérimenter l'IA à grande échelle sans infrastructure d'entreprise.