Tsinghua Üniversitesi mezunu Wang Guan ve ekibi, geleneksel büyük model paradigmalarını zorlayan yeni bir ön eğitim yaklaşımı olan HRM-Text'i tanıttı. Hiyerarşik Tekrarlayan Model (HRM) kullanan HRM-Text, önemli ölçüde azaltılmış hesaplama kaynaklarıyla en son teknoloji performansına ulaşıyor. Model, 2 milyar ila 7 milyar parametreye sahip modellere kıyasla 100–900 kat daha az eğitim token'ı ve 96–432 kat daha az hesaplama kullanırken, MMLU ve ARC-C gibi kıyaslama testlerinde rekabetçi sonuçlar elde ediyor.
HRM-Text'in mimarisi, hesaplamayı yavaş ve hızlı modüllere ayıran çift zaman ölçekli bir model içeriyor ve her token için birden fazla özyinelemeli güncellemeye izin veriyor. Bu tasarım, hedeflenmiş eğitim amaçlarıyla birleşerek ön eğitim verimliliğini artırıyor. Modelin eğitim maliyeti yaklaşık 1.500 dolar olup, maliyet etkinliğini gösteriyor. Başarılarına rağmen, HRM-Text geliştiricileri, bilgiyi muhakemeden ayırmak ve uyarlanabilir hesaplama zamanı mekanizmalarını keşfetmek için daha fazla araştırma yapılması gerektiğini kabul ediyorlar.
Tsinghua'nın HRM-Text'i Verimli Model Ön Eğitimi Alanında Çığır Açtı
Sorumluluk Reddi: Phemex Haberler'de sunulan içerik yalnızca bilgilendirme amaçlıdır. Üçüncü taraf makalelerden alınan bilgilerin kalitesi, doğruluğu veya eksiksizliğini garanti etmiyoruz. Bu sayfadaki içerik finansal veya yatırım tavsiyesi niteliği taşımaz. Yatırım kararları vermeden önce kendi araştırmanızı yapmanızı ve nitelikli bir finans danışmanına başvurmanızı şiddetle tavsiye ederiz.
