Perplexity AI veröffentlicht pplx-garden für Multi-GPU-Inferenz

Perplexity AI hat pplx-garden als Open Source veröffentlicht, ein leistungsstarkes Inferenz-Toolkit, das darauf ausgelegt ist, Multi-GPU-Operationen zu verbessern. Im Mittelpunkt dieser Veröffentlichung steht fabric-lib, eine auf Rust basierende Kommunikationsbibliothek, die die proprietären Protokolle von NVIDIA umgeht und es Entwicklern ermöglicht, Billionen-Parameter-Modelle effizient über verschiedene GPU-Cluster hinweg ohne teure Hardwareabhängigkeiten auszuführen. Diese Innovation unterstützt sowohl NVIDIA ConnectX-7 als auch AWS EFA Ethernet-NICs und erreicht Netzwerkbandbreiten von bis zu 400 Gbps. Das Toolkit führt den ImmCounter-Synchronisationsmechanismus für effizienten Datentransfer ein und beinhaltet einen für Mixture-of-Experts-Modelle optimierten Datenverteilungsalgorithmus. In der praktischen Anwendung reduziert pplx-garden die Latenz bei Inferenz- und Trainingsprozessen erheblich und schließt die Gewichtssynchronisation in nur 1,3 Sekunden ab. Zusätzlich senkt der als Open Source verfügbare pplx-unigram Tokenizer die CPU-Auslastung um das bis zu Sechsfache und behebt so effektiv Engpässe bei der Tokenisierung.

Das könnte Ihnen auch gefallen