Un entusiasta chino de la IA, APFrisco, logró ejecutar con éxito Kimi K2.5 de Moonshot AI, un modelo de un billón de parámetros, en una sola GPU Nvidia RTX 3060 combinada con 768 GB de memoria persistente Intel Optane. A pesar de la GPU de gama media, la configuración alcanzó aproximadamente cuatro tokens por segundo, demostrando el potencial de configuraciones de hardware no convencionales. Kimi K2.5, un modelo Mixture-of-Experts, activa solo 32 mil millones de parámetros por token, lo que le permite funcionar en hardware de consumo. El tamaño completo del modelo es de aproximadamente 630 GB, con versiones cuantificadas de 381 GB, lo que requiere el uso de memoria Optane debido a su rentabilidad en comparación con la DRAM tradicional. Esta demostración resalta la accesibilidad de modelos avanzados de IA, ya que Kimi K2.5 es de peso abierto, lo que permite a los entusiastas experimentar con IA a gran escala sin infraestructura empresarial.