L'équipe PyTorch a optimisé les performances de LayerNorm et RMSNorm sur les GPU NVIDIA H100 et B200. Annoncées le 8 avril, ces améliorations visent à atteindre des performances proches de l'état de l'art au niveau du noyau, en tirant parti de torch.compile pour une fusion automatique. Ce développement devrait améliorer l'efficacité computationnelle pour les utilisateurs de ces GPU.