칭화대학교 동문 왕관과 그의 팀은 전통적인 대형 모델 패러다임에 도전하는 새로운 사전 학습 접근법인 HRM-Text를 소개했습니다. 계층적 순환 모델(HRM)을 활용한 HRM-Text는 계산 자원을 크게 줄이면서 최첨단 성능을 달성합니다. 이 모델은 20억에서 70억 매개변수를 가진 모델과 비교해 100~900배 적은 학습 토큰과 96~432배 적은 계산량을 사용하면서도 MMLU와 ARC-C와 같은 벤치마크에서 경쟁력 있는 결과를 유지합니다. HRM-Text의 아키텍처는 이중 시간 척도 모델을 특징으로 하며, 계산을 느린 모듈과 빠른 모듈로 분할하여 각 토큰에 대해 여러 번의 재귀 업데이트를 가능하게 합니다. 이러한 설계는 목표 지향적 학습 목표와 결합되어 사전 학습 효율성을 향상시킵니다. 이 모델의 학습 비용은 약 1,500달러로 비용 효율성을 입증합니다. 성과에도 불구하고 HRM-Text 개발자들은 지식과 추론을 분리하고 적응형 계산 시간 메커니즘을 탐구하기 위한 추가 연구의 필요성을 인정합니다.