Sapient libera modelo de texto HRM com 1B parâmetros

A Sapient Intelligence tornou open-source seu modelo HRM-Text, um modelo de geração de texto com 1 bilhão de parâmetros baseado na arquitetura Hierarchical Reasoning Model (HRM). Este modelo inovador reduz significativamente os custos de pré-treinamento em 130 a 600 vezes em comparação com modelos tradicionais, alcançando o treinamento com apenas 40 bilhões de tokens estruturados. O modelo pode ser treinado do zero em cerca de 46 horas usando dois servidores H100 com 8 GPUs, custando aproximadamente US$ 1.472. O modelo HRM-Text apresenta um design recorrente de dupla escala temporal, utilizando dois conjuntos de módulos Transformer que alternam no mesmo lote de entrada, permitindo a extensão dinâmica da profundidade computacional. Esse design facilita a validação de teorias do modelo a baixo custo, anteriormente dificultada por altos custos computacionais. O lançamento open-source inclui o framework completo de engenharia, embora os pesos do modelo sejam pré-treinados e desalinhados, limitando seu uso a tarefas de continuação de prefixo.