設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色
苹果 iOS 19 设计图泄露    宇树科技回应已盈利至少 5 年:属实

讓蒙娜麗莎唱饒舌,微軟發(fā)布 VASA-1 模型:圖 + 音頻可生成短視頻

2024/4/19 10:57:00 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 4 月 19 日消息,微軟亞洲研究院(Microsoft Research Asia)近日發(fā)表論文,介紹了全新的 VASA-1 模型,用戶只需要提供一張靜態(tài)肖像圖片和一段語音音頻片段,該模型就能自動(dòng)讓圖片中的人物自動(dòng)說話。

VASA-1 特別有趣的地方在于,它能夠模擬自然的面部表情、各種情緒和唇部同步,最重要的是幾乎沒有人工痕跡,如果不細(xì)看很難發(fā)現(xiàn)。

研究人員承認(rèn),與所有其他模型一樣,該模型目前還無法妥善處理頭發(fā)等非剛性元素,但整體效果要比其它同類模型要更為優(yōu)秀。

研究人員還表示 VASA-1 支持離線 batch 處理模式下,以 45fps 生成分辨率為 512*512 的動(dòng)態(tài)短視頻,在線直播模式下可以達(dá)到 40 fps,且延遲僅為 170ms。而且整個(gè)生成操作只需要一臺(tái)配備英偉達(dá) RTX 4090 顯卡的電腦上就能處理。

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:微軟,AI
  • 日榜
  • 周榜
  • 月榜

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知