Perplexity AI опубликовала с открытым исходным кодом pplx-garden — высокопроизводительный набор инструментов для инференса, разработанный для улучшения работы с несколькими GPU. В центре этого релиза находится fabric-lib — библиотека коммуникаций на языке Rust, которая обходит проприетарные протоколы NVIDIA, позволяя разработчикам эффективно запускать модели с триллионом параметров на различных кластерах GPU без дорогостоящих аппаратных зависимостей. Эта инновация поддерживает как NVIDIA ConnectX-7, так и сетевые карты AWS EFA Ethernet, обеспечивая пропускную способность сети до 400 Гбит/с. Набор инструментов вводит механизм синхронизации ImmCounter для эффективной передачи данных и включает алгоритм распределения данных, оптимизированный для моделей Mixture-of-Experts. На практике pplx-garden значительно снижает задержки в процессах инференса и обучения, завершая синхронизацию весов всего за 1,3 секунды. Кроме того, опубликованный с открытым исходным кодом токенизатор pplx-unigram сокращает использование CPU до шести раз, эффективно решая проблемы с токенизацией.