Perplexity AI libera pplx-garden para inferência Multi-GPU

A Perplexity AI tornou open-source o pplx-garden, um kit de ferramentas de inferência de alto desempenho projetado para aprimorar operações multi-GPU. O elemento central deste lançamento é o fabric-lib, uma biblioteca de comunicação baseada em Rust que contorna os protocolos proprietários da NVIDIA, permitindo que desenvolvedores executem modelos com trilhões de parâmetros de forma eficiente em diversos clusters de GPU, sem dependências caras de hardware. Essa inovação suporta tanto as placas NVIDIA ConnectX-7 quanto as NICs Ethernet AWS EFA, alcançando larguras de banda de rede de até 400 Gbps. O kit de ferramentas introduz o mecanismo de sincronização ImmCounter para transferência eficiente de dados e inclui um algoritmo de distribuição de dados otimizado para modelos Mixture-of-Experts. Em aplicações práticas, o pplx-garden reduz significativamente a latência nos processos de inferência e treinamento, completando a sincronização de pesos em apenas 1,3 segundos. Além disso, o tokenizador pplx-unigram, também open-source, reduz o uso da CPU em até seis vezes, abordando eficazmente os gargalos de tokenização.

Você também pode gostar