Sakana AI в сотрудничестве с NVIDIA представила TwELL — открытый формат разреженных данных и ускоряющие ядра, которые повышают эффективность работы GPU за счёт пропуска неэффективных вычислений. Эта инновация увеличивает скорость вывода на H100 до 30% и скорость обучения до 24% без ущерба для точности модели. TwELL решает проблему неэффективности в слоях прямого распространения больших моделей, где более 80% нейронов остаются неактивными во время генерации текста. TwELL оптимизирует работу GPU, разбивая данные на небольшие блоки, что позволяет GPU эффективно их обрабатывать и устраняет дорогостоящие операции с глобальной памятью. Тесты на модели с 1,5 миллиарда параметров показали, что вычисления требуются только для 2% нейронов, при этом производительность сохраняется на нескольких задачах. По мере масштабирования моделей эта оптимизация может привести к ещё большим улучшениям производительности, при этом в больших моделях наблюдается значительное снижение доли активных нейронов.