PyTorchチームは、NVIDIAのH100およびB200 GPU上でのLayerNormとRMSNormのパフォーマンスを最適化しました。4月8日に発表されたこれらの改善は、torch.compileを活用した自動融合により、カーネルレベルでほぼ最先端の性能を達成することを目指しています。この開発により、これらのGPUを使用するユーザーの計算効率が向上すると期待されています。