A equipe do PyTorch otimizou o desempenho do LayerNorm e do RMSNorm nas GPUs NVIDIA H100 e B200. Anunciadas em 8 de abril, essas melhorias visam alcançar um desempenho próximo ao estado da arte no nível do kernel, aproveitando o torch.compile para fusão automática. Espera-se que esse desenvolvimento aumente a eficiência computacional para os usuários que utilizam essas GPUs.