設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

谷歌推出多模態(tài) VLOGGER AI:讓靜態(tài)肖像圖動起來“說話”

2024/3/19 10:14:54 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 3 月 19 日消息,谷歌近日在 GitHub 頁面發(fā)布博文,介紹了 VLOGGER AI 模型,用戶只需要輸入一張肖像照片和一段音頻內(nèi)容,該模型可以讓這些人物“動起來”,富有面部表情地朗讀音頻內(nèi)容。

VLOGGER AI 是一種適用于虛擬肖像的多模態(tài) Diffusion 模型,使用 MENTOR 數(shù)據(jù)庫進行訓(xùn)練,該數(shù)據(jù)庫中包含超過 80 萬名人物肖像,以及累計超過 2200 小時的影片,從而讓 VLOGGER 生成不同種族、不同年齡、不同穿著、不同姿勢的肖像影片。

研究人員表示:“和此前的多模態(tài)相比,VLOGGER 的優(yōu)勢在于不需要對每個人進行訓(xùn)練,不依賴于人臉檢測和裁剪,可以生成完整的圖像(而不僅僅是人臉或嘴唇),并且考慮了廣泛的場景(例如可見軀干或不同的主體身份),這些對于正確合成交流的人類至關(guān)重要”。

Google 將 VLOGGER 視為邁向“通用聊天機器人”的一步,之后 AI 就可以通過語音、手勢和眼神交流以自然的方式與人類互動。

VLOGGER 的應(yīng)用場景還包括可以用于報告、教育場域和旁白等,也可剪輯既有的影片,如果對影片中的表情不滿意就能加以調(diào)整。

IT之家附上論文參考

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:谷歌,AI
  • 日榜
  • 周榜
  • 月榜

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知