A equipe LongCat da Meituan tornou público o framework LongCat-Video-Avatar 1.5, que apresenta um sistema aprimorado de geração de vídeo de retrato impulsionado por áudio. A nova versão substitui o Wav2Vec2 pelo codificador de áudio Whisper-Large, melhorando a consistência de identidade e a generalização de estilo em vídeos de longa duração. O framework agora utiliza um processo de inferência em 8 etapas, aumentando a eficiência e a fidelidade da imagem. As melhorias do framework incluem melhor sincronização labial e dinâmica facial, alcançadas por meio do codificador de áudio Whisper-large-v3. Também aprimora a estabilidade temporal usando inferência rolante de múltiplos segmentos. As avaliações envolveram 508 pares de imagem-áudio e feedback de 770 avaliadores, destacando avanços em relação a concorrentes como HeyGen e Kling Avatar 2.0. O framework suporta vários estilos, incluindo anime e animal, e está disponível sob a licença MIT apenas para uso acadêmico.