中国のAI愛好家であるAPFrisco氏は、Moonshot AIのKimi K2.5という1兆パラメータモデルを、単一のNvidia RTX 3060 GPUと768GBのIntel Optane Persistent Memoryを組み合わせた環境で成功裏に動作させました。ミッドレンジのGPUでありながら、このセットアップは1秒あたり約4トークンの処理速度を達成し、従来とは異なるハードウェア構成の可能性を示しました。 Kimi K2.5はMixture-of-Expertsモデルであり、1トークンあたりわずか320億パラメータのみを活性化するため、一般消費者向けのハードウェアでも動作可能です。モデルのフルサイズは約630GBで、量子化バージョンは381GBとなっており、従来のDRAMに比べてコスト効率が高いOptaneメモリの使用が必要です。このデモンストレーションは、Kimi K2.5がオープンウェイトであるため、エンタープライズインフラなしで大規模AIを試すことができるという、先進的なAIモデルのアクセスのしやすさを強調しています。