Nous Research hat Lighthouse Attention als Open Source veröffentlicht, einen neuartigen Pretraining-Mechanismus, der die Berechnung auf B200-GPUs erheblich beschleunigt. Dieser Ansatz erreicht eine 17-fache Geschwindigkeitssteigerung bei der Verarbeitung von Texten mit einer Länge von 512K im Vergleich zu herkömmlichen Methoden. Zusätzlich bietet er eine 1,4- bis 1,7-fache Trainingsbeschleunigung für Sequenzen mit einer Länge von 98K. Lighthouse Attention verwendet einen zweistufigen Prozess, bei dem zunächst komprimierte Textzusammenfassungen gescannt werden, um Schlüsselabschnitte auszuwählen, die dann mit FlashAttention verarbeitet werden. Diese Methode vermeidet die Notwendigkeit von Low-Level-Codierung und zusätzlichen Trainingszielen und überwindet so die Einschränkungen früherer Beschleunigungstechniken. Tests an einem Modell mit 530 Millionen Parametern, das mit 50 Milliarden Tokens trainiert wurde, zeigten verkürzte Trainingszeiten bei gleichbleibender oder überlegener Basisleistung.