Команда PyTorch оптимизировала производительность LayerNorm и RMSNorm на графических процессорах NVIDIA H100 и B200. Объявленные 8 апреля, эти улучшения направлены на достижение почти передового уровня производительности на уровне ядра, используя torch.compile для автоматического слияния. Ожидается, что это развитие повысит вычислительную эффективность для пользователей, использующих эти GPU.