Um entusiasta chinês de IA, APFrisco, executou com sucesso o Kimi K2.5 da Moonshot AI, um modelo com um trilhão de parâmetros, em uma única GPU Nvidia RTX 3060 combinada com 768 GB de Memória Persistente Intel Optane. Apesar da GPU de médio alcance, a configuração alcançou aproximadamente quatro tokens por segundo, demonstrando o potencial de configurações de hardware não convencionais. O Kimi K2.5, um modelo Mixture-of-Experts, ativa apenas 32 bilhões de parâmetros por token, permitindo que ele funcione em hardware de nível consumidor. O tamanho total do modelo é cerca de 630 GB, com versões quantizadas em 381 GB, exigindo o uso da memória Optane devido à sua relação custo-benefício em comparação com a DRAM tradicional. Esta demonstração destaca a acessibilidade de modelos avançados de IA, já que o Kimi K2.5 é de peso aberto, permitindo que entusiastas experimentem com IA em grande escala sem infraestrutura empresarial.