Lighthouse Attention от Nous Research ускоряет GPU в 17 раз

Исследовательская группа Nous Research открыла исходный код Lighthouse Attention — нового механизма предварительного обучения, который значительно ускоряет вычисления на графических процессорах B200. Этот подход обеспечивает увеличение скорости обработки текста длиной 512 тысяч символов в 17 раз по сравнению с традиционными методами. Кроме того, он предлагает ускорение обучения в 1,4–1,7 раза для последовательностей длиной 98 тысяч символов. Lighthouse Attention использует двухэтапный процесс: сначала сканируются сжатые текстовые резюме для выбора ключевых сегментов, которые затем обрабатываются с помощью FlashAttention. Этот метод исключает необходимость низкоуровневого программирования и дополнительных целей обучения, преодолевая ограничения предыдущих методов ускорения. Тесты на модели с 530 миллионами параметров, обученной на 50 миллиардах токенов, показали сокращение времени обучения при сохранении или превышении базовой производительности.