Nhóm PyTorch đã tối ưu hóa hiệu suất của LayerNorm và RMSNorm trên các GPU NVIDIA H100 và B200. Được công bố vào ngày 8 tháng 4, những cải tiến này nhằm đạt được hiệu suất gần như tiên tiến nhất ở cấp độ kernel, tận dụng torch.compile để tự động hợp nhất. Phát triển này dự kiến sẽ nâng cao hiệu quả tính toán cho người dùng sử dụng các GPU này.