DeepSeek V4의 기술 사양이 공개되었으며, 1.6조 개의 파라미터와 정교한 아키텍처를 갖춘 모델이 소개되었습니다. 프린스턴 대학 박사과정 학생인 이판 장(Yifan Zhang)이 이 세부 사항을 공개했으며, 이 모델이 DeepSeek Sparse Attention(DSA)과 새로운 Native Sparse Attention(NSA)를 통합한 DSA2를 사용하고 있음을 강조했습니다. 모델은 512의 헤드 차원, Sparse MQA, SWA를 특징으로 하며, MoE 레이어에는 384명의 전문가가 포함되어 있고, 토큰당 6명이 활성화됩니다.
또한, 2850억 개의 파라미터를 가진 경량 버전인 V4-Lite도 소개되었습니다. 훈련 세부 사항으로는 Muon 옵티마이저, 32K의 사전 학습 컨텍스트 길이, 최종 컨텍스트 길이 1M이 포함됩니다. 이 모델은 텍스트 전용 애플리케이션을 위해 설계되었습니다. 이러한 공개에도 불구하고, DeepSeek는 회사와 관련이 없는 장 씨가 공유한 정보에 대해 별도의 입장을 밝히지 않았습니다.
DeepSeek V4 공개: 1.6조 파라미터와 첨단 아키텍처
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
