Wang Guan, ancien élève de l'Université Tsinghua, et son équipe ont présenté HRM-Text, une nouvelle approche de préentraînement qui remet en question les paradigmes traditionnels des grands modèles. Utilisant un Modèle Récurrent Hiérarchique (HRM), HRM-Text atteint des performances de pointe tout en réduisant considérablement les ressources informatiques. Le modèle utilise entre 100 et 900 fois moins de tokens d'entraînement et entre 96 et 432 fois moins de puissance de calcul comparé aux modèles de 2 à 7 milliards de paramètres, tout en maintenant des résultats compétitifs sur des benchmarks tels que MMLU et ARC-C.
L'architecture de HRM-Text se caractérise par un modèle à double échelle temporelle, divisant le calcul en modules lents et rapides, permettant plusieurs mises à jour récursives par token. Cette conception, combinée à des objectifs d'entraînement ciblés, améliore l'efficacité du préentraînement. Le coût d'entraînement du modèle est d'environ 1 500 dollars, démontrant son rapport coût-efficacité. Malgré ses succès, les développeurs de HRM-Text reconnaissent la nécessité de poursuivre les recherches pour dissocier la connaissance du raisonnement et explorer des mécanismes de temps de calcul adaptatif.
HRM-Text de Tsinghua réalise une percée dans le pré-entraînement efficace des modèles
Avertissement : Le contenu proposé sur Phemex News est à titre informatif uniquement. Nous ne garantissons pas la qualité, l'exactitude ou l'exhaustivité des informations provenant d'articles tiers. Ce contenu ne constitue pas un conseil financier ou d'investissement. Nous vous recommandons vivement d'effectuer vos propres recherches et de consulter un conseiller financier qualifié avant toute décision d'investissement.
