MeituanのLongCatチームは、アップグレードされた音声駆動のポートレートビデオ生成システムを特徴とするLongCat-Video-Avatar 1.5フレームワークをオープンソース化しました。新バージョンではWav2Vec2をWhisper-Large音声エンコーダーに置き換え、長尺動画におけるアイデンティティの一貫性とスタイルの一般化を向上させています。フレームワークは現在、8ステップの推論プロセスを採用し、効率性と画像の忠実度を改善しています。
このフレームワークの改良点には、Whisper-large-v3音声エンコーダーによって実現されたより良いリップシンクと顔の動的表現が含まれます。また、マルチセグメントローリング推論を用いて時間的安定性も強化しています。評価は508組の画像と音声ペア、および770人の評価者からのフィードバックを含み、HeyGenやKling Avatar 2.0などの競合他社に対する進歩を際立たせています。フレームワークはアニメや動物など様々なスタイルをサポートしており、学術利用のみを対象としたMITライセンスで提供されています。
美団、機能強化されたLongCat-Video-Avatar 1.5フレームワークをリリース
免責事項: Phemexニュースで提供されるコンテンツは、あくまで情報提供を目的としたものであり、第三者の記事から取得した情報の正確性・完全性・信頼性について保証するものではありません。本コンテンツは金融または投資の助言を目的としたものではなく、投資に関する最終判断はご自身での調査と、信頼できる専門家への相談を踏まえて行ってください。
