IT之家 1 月 4 日消息,科技媒體 The Decoder 昨日(1 月 3 日)發(fā)布博文,報(bào)道稱谷歌 DeepMind 聯(lián)合哥倫比亞大學(xué)、加州大學(xué)圣地亞哥分校的研究人員,開發(fā)了一款名為 CAT4D 的 AI 系統(tǒng),可以將普通視頻轉(zhuǎn)化為動(dòng)態(tài) 3D 場景,降低了 3D 內(nèi)容創(chuàng)作的門檻,為多個(gè)行業(yè)帶來了新的可能性。
CAT4D 系統(tǒng)利用擴(kuò)散模型,將單視角拍攝的視頻轉(zhuǎn)換為多視角視圖,并將其構(gòu)建成動(dòng)態(tài) 3D 場景,用戶可以從不同角度觀看視頻中的主體,如同置身其中。IT之家附上演示圖如下:
以往,實(shí)現(xiàn)類似效果需要多臺(tái)攝像機(jī)同時(shí)錄制同一場景,而 CAT4D 則簡化了這一流程,只需普通視頻素材即可,這項(xiàng)技術(shù)有望革新游戲開發(fā)、電影制作和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域。
在訓(xùn)練 AI 過程中,谷歌 DeepMind 團(tuán)隊(duì)發(fā)現(xiàn)沒有太多現(xiàn)有數(shù)據(jù),為了解決這個(gè)問題,團(tuán)隊(duì)混合真實(shí)世界的鏡頭與計(jì)算機(jī)生成的內(nèi)容,訓(xùn)練數(shù)據(jù)包括靜態(tài)場景的多視圖圖像、單視角視頻和合成 4D 數(shù)據(jù),通過擴(kuò)散模型學(xué)習(xí),在特定時(shí)刻從特定角度創(chuàng)建圖像。
該系統(tǒng)現(xiàn)階段所生成的 3D 場景,比原始素材要短,但 CAT4D 的成像質(zhì)量已優(yōu)于同類系統(tǒng)。CAT4D 技術(shù)具有廣泛的應(yīng)用前景。游戲開發(fā)者可以利用它創(chuàng)建虛擬環(huán)境,電影制作人和 AR 開發(fā)者也可以將其融入到工作流程中。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。