Sapient libera modelo HRM de texto con 1B parámetros

Sapient Intelligence ha abierto el código de su modelo HRM-Text, un modelo de generación de texto con 1.000 millones de parámetros basado en la arquitectura del Modelo de Razonamiento Jerárquico (HRM). Este modelo innovador reduce significativamente los costos de preentrenamiento entre 130 y 600 veces en comparación con los modelos tradicionales, logrando el entrenamiento con solo 40 mil millones de tokens estructurados. El modelo puede entrenarse desde cero en aproximadamente 46 horas utilizando dos servidores H100 con 8 GPU cada uno, con un costo aproximado de 1.472 dólares. El modelo HRM-Text presenta un diseño recurrente de doble escala temporal, que utiliza dos conjuntos de módulos Transformer que alternan sobre el mismo lote de entrada, permitiendo una extensión dinámica de la profundidad computacional. Este diseño facilita la validación de teorías del modelo a bajo costo, algo que antes estaba limitado por los altos gastos computacionales. La versión de código abierto incluye el marco completo de ingeniería, aunque los pesos del modelo están preentrenados y no alineados, lo que limita su uso a tareas de continuación de prefijos.