Tsinghua HRM-Metin Modelinde Yeni Verimlilik Standardı

Tsinghua Üniversitesi mezunu Wang Guan ve ekibi, geleneksel büyük model paradigmalarını zorlayan yeni bir ön eğitim yaklaşımı olan HRM-Text'i tanıttı. Hiyerarşik Tekrarlayan Model (HRM) kullanan HRM-Text, önemli ölçüde azaltılmış hesaplama kaynaklarıyla en son teknoloji performansına ulaşıyor. Model, 2 milyar ila 7 milyar parametreye sahip modellere kıyasla 100–900 kat daha az eğitim token'ı ve 96–432 kat daha az hesaplama kullanırken, MMLU ve ARC-C gibi kıyaslama testlerinde rekabetçi sonuçlar elde ediyor. HRM-Text'in mimarisi, hesaplamayı yavaş ve hızlı modüllere ayıran çift zaman ölçekli bir model içeriyor ve her token için birden fazla özyinelemeli güncellemeye izin veriyor. Bu tasarım, hedeflenmiş eğitim amaçlarıyla birleşerek ön eğitim verimliliğini artırıyor. Modelin eğitim maliyeti yaklaşık 1.500 dolar olup, maliyet etkinliğini gösteriyor. Başarılarına rağmen, HRM-Text geliştiricileri, bilgiyi muhakemeden ayırmak ve uyarlanabilir hesaplama zamanı mekanizmalarını keşfetmek için daha fazla araştırma yapılması gerektiğini kabul ediyorlar.

​​Beğenebileceğiniz Diğer İçerikler​​

Beğenebileceğiniz Diğer İçerikler