Команда LongCat компании Meituan открыла исходный код фреймворка LongCat-Video-Avatar 1.5, который включает усовершенствованную систему генерации портретного видео на основе аудио. В новой версии вместо Wav2Vec2 используется аудиоэнкодер Whisper-Large, что улучшает согласованность идентичности и обобщение стиля в длинных видео. Фреймворк теперь применяет 8-ступенчатый процесс вывода, повышая эффективность и качество изображения. Улучшения фреймворка включают более точную синхронизацию губ и динамику лица, достигнутые с помощью аудиоэнкодера Whisper-large-v3. Также повышена временная стабильность благодаря многофрагментному скользящему выводу. Оценка проводилась на основе 508 пар изображений и аудио, а также отзывов 770 оценщиков, что подчеркнуло преимущества по сравнению с конкурентами, такими как HeyGen и Kling Avatar 2.0. Фреймворк поддерживает различные стили, включая аниме и животных, и доступен под лицензией MIT только для академического использования.