Nous Research a introduit une nouvelle méthode de préentraînement pour les grands modèles, appelée Token Stacking Training (TST), qui vise à réduire le temps de préentraînement en compressant les tokens adjacents en paquets. Cette méthode, validée sur des modèles allant jusqu'à 10 milliards de paramètres, accélère l'entraînement de 2 à 3 fois avec le même budget computationnel. Cependant, une controverse a éclaté car le mécanisme du TST ressemble étroitement à une publication de 2024, ce qui a conduit à des accusations de plagiat.
Suite à la publication de leur article, Nous Research a reconnu les similitudes avec le travail antérieur, qualifiant cela de « cas malheureux de recherche convergente ». Ils se sont engagés à mettre à jour leur article avec les citations appropriées pour répondre à ces préoccupations. La méthode TST, bien qu'innovante, pourrait rencontrer des limites si les corpus textuels de haute qualité deviennent rares, en raison de sa nature gourmande en données.
La méthode d'entraînement Token Stacking de Nous Research fait face à des accusations de plagiat
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
