Nous Research ha abierto el código de Lighthouse Attention, un novedoso mecanismo de preentrenamiento que acelera significativamente el cálculo en GPUs B200. Este enfoque logra un aumento de velocidad de 17 veces al procesar textos de longitud 512K en comparación con los métodos tradicionales. Además, ofrece una aceleración de entrenamiento de 1.4 a 1.7 veces para secuencias de 98K de longitud. Lighthouse Attention emplea un proceso de dos etapas, escaneando inicialmente resúmenes de texto comprimido para seleccionar segmentos clave, que luego se procesan usando FlashAttention. Este método evita la necesidad de codificación a bajo nivel y objetivos de entrenamiento adicionales, superando las limitaciones de técnicas de aceleración previas. Las pruebas en un modelo de 530 millones de parámetros entrenado con 50 mil millones de tokens demostraron tiempos de entrenamiento reducidos mientras se mantenía o superaba el rendimiento base.