Nous Research는 B200 GPU에서 계산 속도를 크게 향상시키는 새로운 사전 학습 메커니즘인 Lighthouse Attention을 오픈 소스로 공개했습니다. 이 접근법은 512K 길이의 텍스트를 처리할 때 기존 방법에 비해 17배 빠른 속도를 달성합니다. 또한 98K 길이 시퀀스에 대해 1.4배에서 1.7배의 훈련 가속을 제공합니다. Lighthouse Attention은 두 단계 프로세스를 사용하며, 처음에는 압축된 텍스트 요약을 스캔하여 주요 구간을 선택하고, 이후 FlashAttention을 사용해 처리합니다. 이 방법은 저수준 코딩과 추가 훈련 목표가 필요 없으며, 이전 가속화 기술의 한계를 극복합니다. 530백만 매개변수 모델을 500억 토큰으로 훈련한 테스트에서 훈련 시간이 단축되었으며, 기준 성능을 유지하거나 초과하는 결과를 보였습니다.