자이프라 AMD 확산 모델, 속도 7.7배 향상

Zyphra는 AMD 하드웨어 생태계에서 중요한 진전을 나타내는 확산 언어 모델인 ZAYA1-8B-Diffusion-Preview를 출시했습니다. 이 모델은 전문가 혼합(MoE) 확산 모델로, 자기회귀 대형 언어 모델에서 파생되었으며 AMD 프레임워크 내에서 최초의 모델이라고 주장합니다. 유사한 모델들이 다른 팀에 의해 소개되었지만, ZAYA1은 확산 아키텍처를 활용하여 엔지니어링 효율성을 향상시킨다는 점에서 차별화됩니다. ZAYA1 모델은 순차적 토큰 생성과 물리적 속도 제한으로 인해 제약을 받는 전통적인 자기회귀 모델의 한계를 해결합니다. TiDAR 방식을 채택함으로써 ZAYA1은 단일 순방향 패스에서 16개의 토큰 후보를 병렬로 디노이징할 수 있어, 메모리 대역폭 제약을 계산 병목 현상으로 효과적으로 전환합니다. 실제 테스트 결과, ZAYA1의 독자적인 CCA 어텐션 메커니즘과 표준 무손실 샘플러의 결합은 토큰 수신 속도를 4.6배 향상시켰습니다. 혼합 로짓 샘플러를 사용할 경우 이 속도는 7.7배로 증가하여 지연 시간이 중요한 대규모 추론 작업의 비용을 크게 절감합니다.