A equipe LongCat da Meituan tornou público o framework LongCat-Video-Avatar 1.5, que apresenta um sistema aprimorado de geração de vídeo de retrato impulsionado por áudio. A nova versão substitui o Wav2Vec2 pelo codificador de áudio Whisper-Large, melhorando a consistência de identidade e a generalização de estilo em vídeos de longa duração. O framework agora utiliza um processo de inferência em 8 etapas, aumentando a eficiência e a fidelidade da imagem.
As melhorias do framework incluem melhor sincronização labial e dinâmica facial, alcançadas por meio do codificador de áudio Whisper-large-v3. Também aprimora a estabilidade temporal usando inferência rolante de múltiplos segmentos. As avaliações envolveram 508 pares de imagem-áudio e feedback de 770 avaliadores, destacando avanços em relação a concorrentes como HeyGen e Kling Avatar 2.0. O framework suporta vários estilos, incluindo anime e animal, e está disponível sob a licença MIT apenas para uso acadêmico.
Meituan Lança o Framework LongCat-Video-Avatar 1.5 com Recursos Aprimorados
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
