設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色
刘强东称“京东外卖利润率不许高于 5%”    《流浪地球 3》官宣开机

微軟推出 VASA-1 AI 框架,可即時生成 512x512 40FPS 逼真對口型人像視頻

2024/4/21 18:20:39 來源:IT之家 作者:漾仔 責編:漾仔

IT之家 4 月 21 日消息,據(jù)微軟官方新聞稿,微軟今天公布了一項圖生視頻的 VASA-1 框架,該 AI 框架只需使用一張真人肖像照片和一段個人語音音頻,就能夠生成精確逼真的對口型視頻(生成念稿子的視頻),據(jù)稱在表情和頭部動作方面特別自然。

IT之家獲悉,目前業(yè)界相關許多研究都集中在對口型上,而面部動態(tài)行為及頭部運動情況通常被忽視,因此生成的面部也會顯得僵硬、缺乏說服力且存在恐怖谷現(xiàn)象。

而微軟的 VASA-1 框架克服了以往面部生成技術的限制,研究人員利用了擴散 Transformer 模型,在整體面部動態(tài)和頭部運動方面進行訓練,該模型將所有可能的面部動態(tài),包括嘴唇動作、表情、眼睛注視和眨眼等行為均視為單一潛在變量(即一次生成整個具有高度細節(jié)的人臉),號稱能夠即時生成 512×512 分辨率 40 FPS 的視頻。

IT之家同時注意到,微軟還利用了 3D 技術輔助標記人臉面部特征,并額外設計了損失函數(shù),號稱能夠讓 VASA-1 不僅能夠生成高品質的面部視頻,還能夠有效地捕捉和重現(xiàn)面部 3D 結構。

廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:微軟AI
  • 日榜
  • 周榜
  • 月榜

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知