Sapient Intelligence ha abierto el código de su modelo HRM-Text, un modelo de generación de texto con 1.000 millones de parámetros basado en la arquitectura del Modelo de Razonamiento Jerárquico (HRM). Este modelo innovador reduce significativamente los costos de preentrenamiento entre 130 y 600 veces en comparación con los modelos tradicionales, logrando el entrenamiento con solo 40 mil millones de tokens estructurados. El modelo puede entrenarse desde cero en aproximadamente 46 horas utilizando dos servidores H100 con 8 GPU cada uno, con un costo aproximado de 1.472 dólares.
El modelo HRM-Text presenta un diseño recurrente de doble escala temporal, que utiliza dos conjuntos de módulos Transformer que alternan sobre el mismo lote de entrada, permitiendo una extensión dinámica de la profundidad computacional. Este diseño facilita la validación de teorías del modelo a bajo costo, algo que antes estaba limitado por los altos gastos computacionales. La versión de código abierto incluye el marco completo de ingeniería, aunque los pesos del modelo están preentrenados y no alineados, lo que limita su uso a tareas de continuación de prefijos.
Sapient publica como código abierto un modelo de texto HRM de 1.000 millones de parámetros rentable
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
