PyTorch 팀은 NVIDIA H100 및 B200 GPU에서 LayerNorm과 RMSNorm의 성능을 최적화했습니다. 4월 8일에 발표된 이번 개선 사항은 torch.compile을 활용한 자동 융합을 통해 커널 수준에서 거의 최첨단 성능에 도달하는 것을 목표로 합니다. 이 개발은 해당 GPU를 사용하는 사용자들의 계산 효율성을 향상시킬 것으로 기대됩니다.