HRM-Text de Tsinghua: Nuevo estándar de eficiencia

El exalumno de la Universidad de Tsinghua, Wang Guan, y su equipo han presentado HRM-Text, un novedoso enfoque de preentrenamiento que desafía los paradigmas tradicionales de los grandes modelos. Utilizando un Modelo Recurrente Jerárquico (HRM), HRM-Text alcanza un rendimiento de vanguardia con recursos computacionales significativamente reducidos. El modelo utiliza entre 100 y 900 veces menos tokens de entrenamiento y entre 96 y 432 veces menos capacidad de cómputo en comparación con modelos de 2 a 7 mil millones de parámetros, manteniendo resultados competitivos en benchmarks como MMLU y ARC-C. La arquitectura de HRM-Text presenta un modelo de doble escala temporal, dividiendo el cómputo en módulos lentos y rápidos, lo que permite múltiples actualizaciones recursivas por token. Este diseño, combinado con objetivos de entrenamiento específicos, mejora la eficiencia del preentrenamiento. El costo de entrenamiento del modelo es aproximadamente de $1,500, demostrando su rentabilidad. A pesar de sus logros, los desarrolladores de HRM-Text reconocen la necesidad de más investigaciones para desacoplar el conocimiento del razonamiento y explorar mecanismos de tiempo de cómputo adaptativo.

También te podría gustar