Nous Research a rendu open source Lighthouse Attention, un nouveau mécanisme de préentraînement qui accélère considérablement le calcul sur les GPU B200. Cette approche permet une augmentation de la vitesse de 17 fois lors du traitement de textes de 512 000 caractères par rapport aux méthodes traditionnelles. De plus, elle offre une accélération de l'entraînement de 1,4 à 1,7 fois pour des séquences de 98 000 caractères. Lighthouse Attention utilise un processus en deux étapes, scannant d'abord des résumés compressés de texte pour sélectionner les segments clés, qui sont ensuite traités à l'aide de FlashAttention. Cette méthode évite la nécessité de coder à bas niveau et d'ajouter des objectifs d'entraînement supplémentaires, surmontant ainsi les limites des techniques d'accélération précédentes. Des tests sur un modèle de 530 millions de paramètres entraîné sur 50 milliards de tokens ont démontré une réduction des temps d'entraînement tout en maintenant ou dépassant les performances de référence.
Nous Research dévoile Lighthouse Attention, augmentant la vitesse des GPU par 17 fois
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
