讓蒙娜麗莎唱饒舌，微軟發(fā)布 VASA-1 模型：圖 + 音頻可生成短視頻

2024/4/19 10:57:00 來源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

IT之家 4 月 19 日消息，微軟亞洲研究院（Microsoft Research Asia）近日發(fā)表論文，介紹了全新的 VASA-1 模型，用戶只需要提供一張靜態(tài)肖像圖片和一段語音音頻片段，該模型就能自動(dòng)讓圖片中的人物自動(dòng)說話。

VASA-1 特別有趣的地方在于，它能夠模擬自然的面部表情、各種情緒和唇部同步，最重要的是幾乎沒有人工痕跡，如果不細(xì)看很難發(fā)現(xiàn)。

研究人員承認(rèn)，與所有其他模型一樣，該模型目前還無法妥善處理頭發(fā)等非剛性元素，但整體效果要比其它同類模型要更為優(yōu)秀。

讓蒙娜麗莎唱饒舌，微軟發(fā)布 VASA-1 模型：圖 + 音頻可生成短視頻

研究人員還表示 VASA-1 支持離線 batch 處理模式下，以 45fps 生成分辨率為 512*512 的動(dòng)態(tài)短視頻，在線直播模式下可以達(dá)到 40 fps，且延遲僅為 170ms。而且整個(gè)生成操作只需要一臺(tái)配備英偉達(dá) RTX 4090 顯卡的電腦上就能處理。

IT之家附上參考地址

New VASA-1 model by Microsoft Research Asia
VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

讓蒙娜麗莎唱饒舌，微軟發(fā)布 VASA-1 模型：圖 + 音頻可生成短視頻

相關(guān)文章

讓蒙娜麗莎唱饒舌，微軟發(fā)布 VASA-1 模型：圖 + 音頻可生成短視頻