Sapient Intelligence, Hiyerarşik Akıl Yürütme Modeli (HRM) mimarisine dayanan 1 milyar parametreli metin üretim modeli HRM-Text'i açık kaynak yaptı. Bu yenilikçi model, geleneksel modellere kıyasla ön eğitim maliyetlerini 130 ila 600 kat azaltarak yalnızca 40 milyar yapılandırılmış token ile eğitim gerçekleştirebiliyor. Model, iki adet 8-GPU H100 sunucusu kullanılarak sıfırdan yaklaşık 46 saatte eğitilebiliyor ve maliyeti yaklaşık 1.472 dolar. HRM-Text modeli, aynı giriş partisi üzerinde dönüşümlü olarak çalışan iki set Transformer modülünü kullanan çift zaman ölçekli tekrarlayan bir tasarıma sahip olup, dinamik hesaplama derinliği genişletilmesine olanak tanıyor. Bu tasarım, daha önce yüksek hesaplama maliyetleri nedeniyle engellenen model teorilerinin düşük maliyetle doğrulanmasını sağlıyor. Açık kaynak sürümü, modelin ağırlıkları önceden eğitilmiş ve hizalanmamış olmasına rağmen, tam mühendislik çerçevesini içeriyor ve kullanımını sadece önek devamı görevleriyle sınırlıyor.