DeepSeek의 V4 모델 카드가 TileKernels 라이브러리의 오픈 소스 공개에 이어 아키텍처의 세 가지 핵심 구성 요소를 확인했습니다. 이 모델은 매니폴드 제약 하이퍼 커넥션(mHC), Top-k 전문가 라우팅을 사용하는 전문가 혼합(MoE) 아키텍처, 그리고 가중치 저장을 위한 FP4+FP8 혼합 정밀도를 사용합니다. 이 요소들은 TileKernels 라이브러리에서 정확하게 추론되었습니다.
하지만 모델 카드에는 이전에 추측되었으나 아직 확인되지 않은 Engram 조건부 메모리 모듈에 대한 언급이 없습니다. 또한 카드에는 TileKernels에 포함되지 않은 새로운 기능들이 소개되었는데, 여기에는 장기 문맥 효율성을 크게 향상시키는 하이브리드 어텐션 메커니즘(CSA + HCA)이 포함되어 있으며, 이는 추론 FLOPs를 V3.2의 1백만 문맥 기준 대비 27%, KV 캐시를 10%로 줄여줍니다. 훈련 과정에서는 이제 Muon 옵티마이저가 사용됩니다.
DeepSeek V4 모델 카드, 주요 구성 요소 확인했으나 인그램은 누락
면책 조항: Phemex 뉴스에서 제공하는 콘텐츠는 정보 제공 목적으로만 제공됩니다. 제3자 기사에서 출처를 얻은 정보의 품질, 정확성 또는 완전성을 보장하지 않습니다.이 페이지의 콘텐츠는 재무 또는 투자 조언이 아닙니다.투자 결정을 내리기 전에 반드시 스스로 조사하고 자격을 갖춘 재무 전문가와 상담하시기 바랍니다.
