設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

微軟推出 VASA-1 AI 框架,可即時(shí)生成 512x512 40FPS 逼真對口型人像視頻

2024/4/21 18:20:39 來源:IT之家 作者:漾仔 責(zé)編:漾仔

IT之家 4 月 21 日消息,據(jù)微軟官方新聞稿,微軟今天公布了一項(xiàng)圖生視頻的 VASA-1 框架,該 AI 框架只需使用一張真人肖像照片和一段個(gè)人語音音頻,就能夠生成精確逼真的對口型視頻(生成念稿子的視頻),據(jù)稱在表情和頭部動(dòng)作方面特別自然。

IT之家獲悉,目前業(yè)界相關(guān)許多研究都集中在對口型上,而面部動(dòng)態(tài)行為及頭部運(yùn)動(dòng)情況通常被忽視,因此生成的面部也會顯得僵硬、缺乏說服力且存在恐怖谷現(xiàn)象。

而微軟的 VASA-1 框架克服了以往面部生成技術(shù)的限制,研究人員利用了擴(kuò)散 Transformer 模型,在整體面部動(dòng)態(tài)和頭部運(yùn)動(dòng)方面進(jìn)行訓(xùn)練,該模型將所有可能的面部動(dòng)態(tài),包括嘴唇動(dòng)作、表情、眼睛注視和眨眼等行為均視為單一潛在變量(即一次生成整個(gè)具有高度細(xì)節(jié)的人臉),號稱能夠即時(shí)生成 512×512 分辨率 40 FPS 的視頻。

IT之家同時(shí)注意到,微軟還利用了 3D 技術(shù)輔助標(biāo)記人臉面部特征,并額外設(shè)計(jì)了損失函數(shù),號稱能夠讓 VASA-1 不僅能夠生成高品質(zhì)的面部視頻,還能夠有效地捕捉和重現(xiàn)面部 3D 結(jié)構(gòu)。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:微軟,AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知