Доклад AMD: Структурные ошибки вызывают сбои обучения FP4

Недавняя статья AMD и Университета штата Пенсильвания показывает, что нестабильность при обучении в формате FP4 связана со структурными ошибками масштабирования, а не с недостаточной случайностью. В исследовании, в котором успешно была предварительно обучена модель Llama 3.1-8B на графическом процессоре AMD Instinct MI355X с использованием формата MXFP4, был достигнут прирост скорости на 9–10% по сравнению с FP8 при увеличении накладных расходов на токены всего на 8–9%. Это первый полный эксперимент по предварительному обучению крупной модели на нативном оборудовании FP4. В исследовании подчеркивается, что нестабильность возникает из-за накопления структурных ошибок вдоль чувствительных путей градиентов, особенно при вычислениях градиентов весов. Традиционные методы, вводившие случайность, не смогли стабилизировать обучение, тогда как детерминированное вращение Хадамара эффективно снизило накладные расходы на токены и сохранило качество сходимости, близкое к FP8. Этот прорыв свидетельствует о том, что FP4 может быть жизнеспособным для обучения, потенциально удваивая вычислительные ресурсы для обучения на существующем оборудовании.

Вам также может понравиться