DeepSeek V4: 1.6T 파라미터, 고급 아키텍처 공개

DeepSeek V4의 기술 사양이 공개되었으며, 1.6조 개의 파라미터와 정교한 아키텍처를 갖춘 모델이 소개되었습니다. 프린스턴 대학 박사과정 학생인 이판 장(Yifan Zhang)이 이 세부 사항을 공개했으며, 이 모델이 DeepSeek Sparse Attention(DSA)과 새로운 Native Sparse Attention(NSA)를 통합한 DSA2를 사용하고 있음을 강조했습니다. 모델은 512의 헤드 차원, Sparse MQA, SWA를 특징으로 하며, MoE 레이어에는 384명의 전문가가 포함되어 있고, 토큰당 6명이 활성화됩니다. 또한, 2850억 개의 파라미터를 가진 경량 버전인 V4-Lite도 소개되었습니다. 훈련 세부 사항으로는 Muon 옵티마이저, 32K의 사전 학습 컨텍스트 길이, 최종 컨텍스트 길이 1M이 포함됩니다. 이 모델은 텍스트 전용 애플리케이션을 위해 설계되었습니다. 이러한 공개에도 불구하고, DeepSeek는 회사와 관련이 없는 장 씨가 공유한 정보에 대해 별도의 입장을 밝히지 않았습니다.