Perplexity AI Open-Source pplx-garden pour inférence Multi-GPU

Perplexity AI a rendu open source pplx-garden, une boîte à outils d'inférence haute performance conçue pour améliorer les opérations multi-GPU. Au cœur de cette sortie se trouve fabric-lib, une bibliothèque de communication basée sur Rust qui contourne les protocoles propriétaires de NVIDIA, permettant aux développeurs d'exécuter efficacement des modèles à des milliers de milliards de paramètres sur divers clusters GPU sans dépendances matérielles coûteuses. Cette innovation prend en charge à la fois les cartes réseau NVIDIA ConnectX-7 et AWS EFA Ethernet, atteignant des débits réseau allant jusqu'à 400 Gbps. La boîte à outils introduit le mécanisme de synchronisation ImmCounter pour un transfert de données efficace et inclut un algorithme de distribution des données optimisé pour les modèles Mixture-of-Experts. Dans les applications pratiques, pplx-garden réduit significativement la latence lors des processus d'inférence et d'entraînement, complétant la synchronisation des poids en seulement 1,3 seconde. De plus, le tokenizer pplx-unigram open source réduit l'utilisation du CPU jusqu'à six fois, traitant efficacement les goulets d'étranglement liés à la tokenisation.

Vous pourriez aussi aimer