El exalumno de la Universidad de Tsinghua, Wang Guan, y su equipo han presentado HRM-Text, un novedoso enfoque de preentrenamiento que desafía los paradigmas tradicionales de los grandes modelos. Utilizando un Modelo Recurrente Jerárquico (HRM), HRM-Text alcanza un rendimiento de vanguardia con recursos computacionales significativamente reducidos. El modelo utiliza entre 100 y 900 veces menos tokens de entrenamiento y entre 96 y 432 veces menos capacidad de cómputo en comparación con modelos de 2 a 7 mil millones de parámetros, manteniendo resultados competitivos en benchmarks como MMLU y ARC-C.
La arquitectura de HRM-Text presenta un modelo de doble escala temporal, dividiendo el cómputo en módulos lentos y rápidos, lo que permite múltiples actualizaciones recursivas por token. Este diseño, combinado con objetivos de entrenamiento específicos, mejora la eficiencia del preentrenamiento. El costo de entrenamiento del modelo es aproximadamente de $1,500, demostrando su rentabilidad. A pesar de sus logros, los desarrolladores de HRM-Text reconocen la necesidad de más investigaciones para desacoplar el conocimiento del razonamiento y explorar mecanismos de tiempo de cómputo adaptativo.
HRM-Text de Tsinghua logra un avance en el preentrenamiento eficiente de modelos
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
