분산형 추측 디코딩(DSD)은 분산 네트워크에서 대형 언어 모델(LLM) 추론을 향상시키기 위한 획기적인 프레임워크로 등장했습니다. Parallax에 통합된 DSD는 전통적으로 토큰 생성을 지연시키는 노드 간 통신 지연 문제를 해결합니다. 지연 시간을 추가 계산 대역폭으로 전환함으로써 DSD는 정확도를 유지하면서 처리량을 2.6배 증가시키고 통신량을 37% 감소시킵니다. DSD는 두 가지 주요 혁신을 도입했습니다: 배치 정산 디코딩과 적응형 검증입니다. 배치 정산 디코딩은 여러 토큰을 하나의 검증 주기로 묶어 동기화 병목 현상을 줄이고, 적응형 검증은 토큰의 중요도에 따라 검증을 최적화하여 품질 저하 없이 속도를 15-20% 향상시킵니다. 이러한 발전은 처리량을 높이고 WAN 지연 의존도를 줄여, 원격 클러스터에서 에이전트 추론 및 코드 생성과 같은 작업에 DSD를 강력한 도구로 만듭니다.