Sapient Intelligence는 계층적 추론 모델(HRM) 아키텍처를 기반으로 한 10억 매개변수 텍스트 생성 모델인 HRM-Text 모델을 오픈소스로 공개했습니다. 이 혁신적인 모델은 기존 모델에 비해 사전 학습 비용을 130배에서 600배까지 크게 줄였으며, 400억 개의 구조화된 토큰만으로 학습을 달성했습니다. 이 모델은 두 대의 8-GPU H100 서버를 사용해 약 46시간 만에 처음부터 학습할 수 있으며, 비용은 약 1,472달러입니다.
HRM-Text 모델은 이중 시간 척도 순환 설계를 특징으로 하며, 동일한 입력 배치에서 교대로 작동하는 두 세트의 트랜스포머 모듈을 활용하여 동적 계산 깊이 확장을 가능하게 합니다. 이 설계는 높은 계산 비용으로 인해 이전에 어려웠던 모델 이론의 저비용 검증을 용이하게 합니다. 오픈소스 공개에는 완전한 엔지니어링 프레임워크가 포함되어 있지만, 모델의 가중치는 사전 학습되어 정렬되지 않아 접두사 연속 작업에만 제한적으로 사용됩니다.
사피언트, 비용 효율적인 10억 매개변수 HRM-텍스트 모델 오픈소스 공개
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
