A Sapient Intelligence tornou open-source seu modelo HRM-Text, um modelo de geração de texto com 1 bilhão de parâmetros baseado na arquitetura Hierarchical Reasoning Model (HRM). Este modelo inovador reduz significativamente os custos de pré-treinamento em 130 a 600 vezes em comparação com modelos tradicionais, alcançando o treinamento com apenas 40 bilhões de tokens estruturados. O modelo pode ser treinado do zero em cerca de 46 horas usando dois servidores H100 com 8 GPUs, custando aproximadamente US$ 1.472.
O modelo HRM-Text apresenta um design recorrente de dupla escala temporal, utilizando dois conjuntos de módulos Transformer que alternam no mesmo lote de entrada, permitindo a extensão dinâmica da profundidade computacional. Esse design facilita a validação de teorias do modelo a baixo custo, anteriormente dificultada por altos custos computacionais. O lançamento open-source inclui o framework completo de engenharia, embora os pesos do modelo sejam pré-treinados e desalinhados, limitando seu uso a tarefas de continuação de prefixo.
Sapient Torna Público Modelo de Texto HRM de 1 Bilhão de Parâmetros e Custo-Efetivo
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
