Perplexity AI libera pplx-garden para inferencia Multi-GPU

Perplexity AI ha abierto el código de pplx-garden, un conjunto de herramientas de inferencia de alto rendimiento diseñado para mejorar las operaciones con múltiples GPU. En el centro de esta versión se encuentra fabric-lib, una biblioteca de comunicación basada en Rust que evita los protocolos propietarios de NVIDIA, permitiendo a los desarrolladores ejecutar modelos con billones de parámetros de manera eficiente en diversos clústeres de GPU sin depender de hardware costoso. Esta innovación es compatible tanto con NVIDIA ConnectX-7 como con las tarjetas de red Ethernet AWS EFA, alcanzando anchos de banda de red de hasta 400 Gbps. El conjunto de herramientas introduce el mecanismo de sincronización ImmCounter para una transferencia de datos eficiente e incluye un algoritmo de distribución de datos optimizado para modelos de Mezcla de Expertos. En aplicaciones prácticas, pplx-garden reduce significativamente la latencia en los procesos de inferencia y entrenamiento, completando la sincronización de pesos en solo 1.3 segundos. Además, el tokenizador pplx-unigram, también de código abierto, reduce el uso de CPU hasta seis veces, abordando eficazmente los cuellos de botella en la tokenización.

También te podría gustar