Исследовательская группа Nous Research открыла исходный код Lighthouse Attention — нового механизма предварительного обучения, который значительно ускоряет вычисления на графических процессорах B200. Этот подход обеспечивает увеличение скорости обработки текста длиной 512 тысяч символов в 17 раз по сравнению с традиционными методами. Кроме того, он предлагает ускорение обучения в 1,4–1,7 раза для последовательностей длиной 98 тысяч символов. Lighthouse Attention использует двухэтапный процесс: сначала сканируются сжатые текстовые резюме для выбора ключевых сегментов, которые затем обрабатываются с помощью FlashAttention. Этот метод исключает необходимость низкоуровневого программирования и дополнительных целей обучения, преодолевая ограничения предыдущих методов ускорения. Тесты на модели с 530 миллионами параметров, обученной на 50 миллиардах токенов, показали сокращение времени обучения при сохранении или превышении базовой производительности.
Исследование Nous представило Lighthouse Attention, увеличивающее скорость GPU в 17 раз
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
