Команда LongCat компании Meituan открыла исходный код фреймворка LongCat-Video-Avatar 1.5, который включает усовершенствованную систему генерации портретного видео на основе аудио. В новой версии вместо Wav2Vec2 используется аудиоэнкодер Whisper-Large, что улучшает согласованность идентичности и обобщение стиля в длинных видео. Фреймворк теперь применяет 8-ступенчатый процесс вывода, повышая эффективность и качество изображения.
Улучшения фреймворка включают более точную синхронизацию губ и динамику лица, достигнутые с помощью аудиоэнкодера Whisper-large-v3. Также повышена временная стабильность благодаря многофрагментному скользящему выводу. Оценка проводилась на основе 508 пар изображений и аудио, а также отзывов 770 оценщиков, что подчеркнуло преимущества по сравнению с конкурентами, такими как HeyGen и Kling Avatar 2.0. Фреймворк поддерживает различные стили, включая аниме и животных, и доступен под лицензией MIT только для академического использования.
Meituan выпускает фреймворк LongCat-Video-Avatar 1.5 с расширенными возможностями
Отказ от ответственности: Контент, представленный на сайте Phemex News, предназначен исключительно для информационных целей.Мы не гарантируем качество, точность и полноту информации, полученной из статей третьих лиц.Содержание этой страницы не является финансовым или инвестиционным советом.Мы настоятельно рекомендуем вам провести собственное исследование и проконсультироваться с квалифицированным финансовым консультантом, прежде чем принимать какие-либо инвестиционные решения.
