微軟推出 VASA-1 AI 框架，可即時生成 512x512 40FPS 逼真對口型人像視頻

2024/4/21 18:20:39 來源：IT之家作者：漾仔責編：漾仔

評論：

IT之家 4 月 21 日消息，據(jù)微軟官方新聞稿，微軟今天公布了一項圖生視頻的 VASA-1 框架，該 AI 框架只需使用一張真人肖像照片和一段個人語音音頻，就能夠生成精確逼真的對口型視頻（生成念稿子的視頻），據(jù)稱在表情和頭部動作方面特別自然。

IT之家獲悉，目前業(yè)界相關許多研究都集中在對口型上，而面部動態(tài)行為及頭部運動情況通常被忽視，因此生成的面部也會顯得僵硬、缺乏說服力且存在恐怖谷現(xiàn)象。

而微軟的 VASA-1 框架克服了以往面部生成技術的限制，研究人員利用了擴散 Transformer 模型，在整體面部動態(tài)和頭部運動方面進行訓練，該模型將所有可能的面部動態(tài)，包括嘴唇動作、表情、眼睛注視和眨眼等行為均視為單一潛在變量（即一次生成整個具有高度細節(jié)的人臉），號稱能夠即時生成 512×512 分辨率 40 FPS 的視頻。

微軟推出 VASA-1 AI 框架，可即時生成 512x512 40FPS 逼真對口型人像視頻

IT之家同時注意到，微軟還利用了 3D 技術輔助標記人臉面部特征，并額外設計了損失函數(shù)，號稱能夠讓 VASA-1 不僅能夠生成高品質的面部視頻，還能夠有效地捕捉和重現(xiàn)面部 3D 結構。

廣告聲明：文內(nèi)含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：微軟，AI

微軟推出 VASA-1 AI 框架，可即時生成 512x512 40FPS 逼真對口型人像視頻

相關文章