IT之家 4 月 21 日消息,據(jù)微軟官方新聞稿,微軟今天公布了一項圖生視頻的 VASA-1 框架,該 AI 框架只需使用一張真人肖像照片和一段個人語音音頻,就能夠生成精確逼真的對口型視頻(生成念稿子的視頻),據(jù)稱在表情和頭部動作方面特別自然。
IT之家獲悉,目前業(yè)界相關許多研究都集中在對口型上,而面部動態(tài)行為及頭部運動情況通常被忽視,因此生成的面部也會顯得僵硬、缺乏說服力且存在恐怖谷現(xiàn)象。
而微軟的 VASA-1 框架克服了以往面部生成技術的限制,研究人員利用了擴散 Transformer 模型,在整體面部動態(tài)和頭部運動方面進行訓練,該模型將所有可能的面部動態(tài),包括嘴唇動作、表情、眼睛注視和眨眼等行為均視為單一潛在變量(即一次生成整個具有高度細節(jié)的人臉),號稱能夠即時生成 512×512 分辨率 40 FPS 的視頻。
IT之家同時注意到,微軟還利用了 3D 技術輔助標記人臉面部特征,并額外設計了損失函數(shù),號稱能夠讓 VASA-1 不僅能夠生成高品質的面部視頻,還能夠有效地捕捉和重現(xiàn)面部 3D 結構。
廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。