IT之家 4 月 19 日消息,微軟亞洲研究院(Microsoft Research Asia)近日發(fā)表論文,介紹了全新的 VASA-1 模型,用戶只需要提供一張靜態(tài)肖像圖片和一段語音音頻片段,該模型就能自動(dòng)讓圖片中的人物自動(dòng)說話。
VASA-1 特別有趣的地方在于,它能夠模擬自然的面部表情、各種情緒和唇部同步,最重要的是幾乎沒有人工痕跡,如果不細(xì)看很難發(fā)現(xiàn)。
研究人員承認(rèn),與所有其他模型一樣,該模型目前還無法妥善處理頭發(fā)等非剛性元素,但整體效果要比其它同類模型要更為優(yōu)秀。
研究人員還表示 VASA-1 支持離線 batch 處理模式下,以 45fps 生成分辨率為 512*512 的動(dòng)態(tài)短視頻,在線直播模式下可以達(dá)到 40 fps,且延遲僅為 170ms。而且整個(gè)生成操作只需要一臺(tái)配備英偉達(dá) RTX 4090 顯卡的電腦上就能處理。
IT之家附上參考地址
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。