Perplexity AI a rendu open source pplx-garden, une boîte à outils d'inférence haute performance conçue pour améliorer les opérations multi-GPU. Au cœur de cette sortie se trouve fabric-lib, une bibliothèque de communication basée sur Rust qui contourne les protocoles propriétaires de NVIDIA, permettant aux développeurs d'exécuter efficacement des modèles à des milliers de milliards de paramètres sur divers clusters GPU sans dépendances matérielles coûteuses. Cette innovation prend en charge à la fois les cartes réseau NVIDIA ConnectX-7 et AWS EFA Ethernet, atteignant des débits réseau allant jusqu'à 400 Gbps.
La boîte à outils introduit le mécanisme de synchronisation ImmCounter pour un transfert de données efficace et inclut un algorithme de distribution des données optimisé pour les modèles Mixture-of-Experts. Dans les applications pratiques, pplx-garden réduit significativement la latence lors des processus d'inférence et d'entraînement, complétant la synchronisation des poids en seulement 1,3 seconde. De plus, le tokenizer pplx-unigram open source réduit l'utilisation du CPU jusqu'à six fois, traitant efficacement les goulets d'étranglement liés à la tokenisation.
Perplexity AI publie en open source pplx-garden pour l'inférence multi-GPU à haute vitesse
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
