칭화대학교 동문 왕관과 그의 팀은 전통적인 대형 모델 패러다임에 도전하는 새로운 사전 학습 접근법인 HRM-Text를 소개했습니다. 계층적 순환 모델(HRM)을 활용한 HRM-Text는 계산 자원을 크게 줄이면서 최첨단 성능을 달성합니다. 이 모델은 20억에서 70억 매개변수를 가진 모델과 비교해 100~900배 적은 학습 토큰과 96~432배 적은 계산량을 사용하면서도 MMLU와 ARC-C와 같은 벤치마크에서 경쟁력 있는 결과를 유지합니다.
HRM-Text의 아키텍처는 이중 시간 척도 모델을 특징으로 하며, 계산을 느린 모듈과 빠른 모듈로 분할하여 각 토큰에 대해 여러 번의 재귀 업데이트를 가능하게 합니다. 이러한 설계는 목표 지향적 학습 목표와 결합되어 사전 학습 효율성을 향상시킵니다. 이 모델의 학습 비용은 약 1,500달러로 비용 효율성을 입증합니다. 성과에도 불구하고 HRM-Text 개발자들은 지식과 추론을 분리하고 적응형 계산 시간 메커니즘을 탐구하기 위한 추가 연구의 필요성을 인정합니다.
칭화대 HRM-텍스트, 효율적인 모델 사전학습에서 돌파구 마련
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
