Недавняя статья AMD и Университета штата Пенсильвания показывает, что нестабильность при обучении в формате FP4 связана со структурными ошибками масштабирования, а не с недостаточной случайностью. В исследовании, в котором успешно была предварительно обучена модель Llama 3.1-8B на графическом процессоре AMD Instinct MI355X с использованием формата MXFP4, был достигнут прирост скорости на 9–10% по сравнению с FP8 при увеличении накладных расходов на токены всего на 8–9%. Это первый полный эксперимент по предварительному обучению крупной модели на нативном оборудовании FP4.
В исследовании подчеркивается, что нестабильность возникает из-за накопления структурных ошибок вдоль чувствительных путей градиентов, особенно при вычислениях градиентов весов. Традиционные методы, вводившие случайность, не смогли стабилизировать обучение, тогда как детерминированное вращение Хадамара эффективно снизило накладные расходы на токены и сохранило качество сходимости, близкое к FP8. Этот прорыв свидетельствует о том, что FP4 может быть жизнеспособным для обучения, потенциально удваивая вычислительные ресурсы для обучения на существующем оборудовании.
Доклад AMD выявляет структурные ошибки как причину нестабильности обучения FP4
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
