平時喜歡玩游戲、看 3D 動畫片的朋友,肯定對“動作捕捉”這個詞不陌生。
無論是游戲人物還是動畫片角色,他們能夠做出各種生動的表情,其實(shí)都離不開動作捕捉技術(shù)的加持。
不過,動作捕捉技術(shù)應(yīng)用了這么多年,也不是沒有缺點(diǎn),比如動捕的工作流和需要的設(shè)備非常復(fù)雜,以 200 分鐘左右的動畫來看,從演員表演到最終完成往往需要不止一個月的時間。而且動捕的設(shè)備也非常昂貴,動輒就是幾十萬美金。
而除了動作捕捉,要想實(shí)現(xiàn)動畫中的表情控制,可能就只有傳統(tǒng)動畫師手動去肝了,這條路不用說,更加費(fèi)時費(fèi)力。
那么,上面這兩種途徑之外,還有什么方法能更高效且低成本地完成表情、動作的捕捉和控制呢?
在如今這個智能化的時代,要回答這個問題,肯定繞不開一個詞:AI。
剛好,最近字節(jié)跳動智能創(chuàng)作團(tuán)隊提出了一項 X- Portrait2 單圖視頻驅(qū)動技術(shù),就讓我們看到了新的可能。
X- Portrait2 單圖視頻驅(qū)動技術(shù),僅需要一張靜態(tài)照片和一段驅(qū)動視頻即可生成高質(zhì)量、電影級的視頻。
該模型不僅能保留原圖的 ID,還能準(zhǔn)確捕捉并逼真遷移從細(xì)微到夸張的表情和情緒,呈現(xiàn)高度真實(shí)的效果。這無疑是為創(chuàng)作富有表現(xiàn)力、逼真的角色動畫和視頻片段提供了一種成本極低且高效的方法。
聽起來似乎是很不錯,那么它的實(shí)際表現(xiàn)又怎么樣呢?IT之家最近獲得了內(nèi)部測試的機(jī)會,下面我們不妨先通過 X- Portrait2 的生成的視頻表現(xiàn)來看一下。
X- Portrait2 實(shí)測:看到這逼真的效果,感覺我起猛了……
實(shí)際使用時,我們只需要給模型提供一段帶有顯著人物表情的視頻,以及另一張靜態(tài)的人物照片,X- Portrait2 就可以讓照片中的人物做出和視頻上人物相同的表情、動作。
比如IT之家首先想到影視經(jīng)典烏蠅哥的名場面,然后讓《黑神話:悟空》里的天命人來復(fù)刻烏蠅哥的表情(視頻測試素材僅用于技術(shù)演示):
X- Portrait2 技術(shù)下天命人模仿烏蠅哥的表情整體還是比較自然的,和原視頻也比較像。而且可以看到測試圖片中天命人和視頻中的烏蠅哥頭部視角是有差別的,但這并沒有影響到 X- Portrait2 對表情的復(fù)刻。
接下來IT之家想到讓游戲《生化危機(jī) 4:重制版》中的里昂和艾什莉演繹電視劇《回家的誘惑》中的名場面,X- Portrait2 同樣生成了對應(yīng)的視頻,小編將結(jié)果專為 gif 格式,供大家參考:
由于是將真實(shí)人物的表情模擬到 3D 角色建模上,看起來難免會有一種怪怪的感覺,但能看到 X- Portrait2 已經(jīng)是盡可能讓生成的視頻角色表情和畫面整體看起來自然了。仔細(xì)觀察會發(fā)現(xiàn)生成后的視頻在原來靜態(tài)圖片的基礎(chǔ)上加入了不少控制表情時面部陰影細(xì)節(jié)的變化,這都是為了讓最終生成的效果更加協(xié)調(diào)和真實(shí)。
接下來再測試一個例子,讓《荒野大鏢客 2:救贖》中的亞瑟?摩根做出《三國演義》電視劇里諸葛亮罵王朗的表情:
可以看到,這次生成的結(jié)果就更加逼真了,亞瑟做表情時,面部皮膚紋理、陰影細(xì)節(jié)的變化都非常真實(shí),如果不仔細(xì)看或者不了解游戲劇情,真可能會以為這就是游戲里原來的 CG 動畫。
前面都是用游戲中的人物做測試,接下來IT之家使用 AI 生成的人物照片來進(jìn)行測試,這樣就相當(dāng)于真人照片來模仿原視頻真人的表情,理論上結(jié)果應(yīng)該會更加“難辨真假”。
小編首先用 AI 生成一張成年男性的照片,讓其模仿電視劇《大宅門》里于和偉吐口水的名梗:
換用 AI 生成的真人照片后,效果確實(shí)是更加逼真了,除了人物大笑時面部褶皺的陰影稍微有點(diǎn)過,其他看起來都很自然,如果不仔細(xì)觀察,確實(shí)很難發(fā)現(xiàn)這是 AI 生成的表情復(fù)刻視頻。
然后小編又讓 AI 生成一張女性的照片,讓它模仿電視劇《甄嬛傳》結(jié)局里甄嬛與皇后最后對峙里的一個小片段:
可以看到,X- Portrait2 技術(shù)讓照片中的女生對甄嬛說話時表情模仿地惟妙惟肖,可以看到電視劇里甄嬛說這句話時的表情還是比較克制的,面部微表情的變化也很細(xì)膩,對于復(fù)刻來說其實(shí)是比較有挑戰(zhàn)的。但實(shí)際呈現(xiàn)的結(jié)果顯然可以讓人滿意,將甄嬛此刻的威嚴(yán)很好地展現(xiàn)了出來。
除了這些,小編在體驗過程中還測試了一些其他的案例,比如讓《黑神話:悟空》中的二郎神說“在坐的各位都是垃圾”,這表情還是很魔性的:
還有 AI 生成的男生模仿金館長的大笑,也很逼真,以后要想模仿這種一般人做不出來的大笑表情,自拍個照片就行了……
總體來說,字節(jié)跳動的 X- Portrait2 單圖視頻驅(qū)動技術(shù)著實(shí)給小編帶來了一些震撼,僅從目前測試的效果來看,已經(jīng)很強(qiáng)了,各種細(xì)微的表情都能復(fù)刻和拿捏,同時通過增加新的陰影和細(xì)節(jié)變化讓視頻畫面整體達(dá)到協(xié)調(diào)自然的效果,很難想象隨著這項技術(shù)進(jìn)一步成熟和進(jìn)化,會達(dá)到怎樣的效果,或許以后真的會改變動捕乃至動畫、特效行業(yè)吧。
出色效果背后,這些領(lǐng)先性的創(chuàng)新值得關(guān)注
看到 X- Portrait2 技術(shù)讓人震撼的表情和動作控制能力,相信大家也會好奇字節(jié)跳動究竟是怎么做到的,這背后有哪些技術(shù)上的創(chuàng)新?
X-Portrait 2 是字節(jié)跳動基于前一代的 X-Portrait 創(chuàng)新條件擴(kuò)散模型研究成果上進(jìn)化而來的,將人像驅(qū)動的表現(xiàn)力提升到了一個全新的高度。
不同于以往依賴人臉關(guān)鍵點(diǎn)檢測的單圖驅(qū)動方法,X-Portrait 2 構(gòu)建了一個當(dāng)前最先進(jìn)的表情編碼器模型,通過一種創(chuàng)新的端到端自監(jiān)督訓(xùn)練框架,能夠從大量人像視頻中自學(xué)習(xí) ID 無關(guān)的運(yùn)動隱式表征。進(jìn)一步將這個編碼器與強(qiáng)大的生成式擴(kuò)散模型相結(jié)合,即可生成流暢且富有表現(xiàn)力的視頻。
經(jīng)過在大規(guī)模高質(zhì)量表情視頻上的訓(xùn)練,X-Portrait 2 在運(yùn)動表現(xiàn)力和 ID 保持性方面顯著優(yōu)于先前技術(shù)。算法能夠從驅(qū)動視頻中提取不同顆粒度的表情特征(如挑眉、咬唇、吐舌、皺眉),并有效遷移到擴(kuò)散模型,實(shí)現(xiàn)精準(zhǔn)的表情動作控制,進(jìn)而能實(shí)現(xiàn)驅(qū)動視頻中人物情感的高保真遷移。
在訓(xùn)練表情編碼器時,為了讓編碼器關(guān)注驅(qū)動視頻中與表情相關(guān)的信息,X-Portrait 2 較好地實(shí)現(xiàn)了外觀和運(yùn)動的解耦。
具體來說,通過為模型設(shè)計過濾層,編碼器能有效過濾運(yùn)動表征中的 ID 相關(guān)信號,使得即使 ID 圖片與驅(qū)動視頻中的形象和風(fēng)格差異較大,模型仍可實(shí)現(xiàn)跨 ID、跨風(fēng)格的動作遷移,涵蓋寫實(shí)人像和卡通圖像。這使得 X-Portrait 2 能高度適應(yīng)各種各樣的應(yīng)用場景,包括現(xiàn)實(shí)世界中的敘事創(chuàng)作、角色動畫、虛擬形象以及視覺特效等。
正因如此,前面IT之家測試時即使驅(qū)動視頻是真人影視劇片段,而 ID 圖像是 3D 游戲建模人物,也能很好的視線表情動作的控制。
再比如下面這幾個例子,驅(qū)動視頻是真人視頻,而 ID 圖像有真人照片、卡通漫畫,甚至是油畫作品,X-Portrait 2 也輸出了足以亂真的結(jié)果。
看到 X-Portrait 2 的表現(xiàn),可能有小伙伴會想到不久前由谷歌等公司支持的人工智能初創(chuàng)公司 Runway 推出的“Act-One”功能,集成在 Runway 的視頻生成模型 Gen-3 Alpha 中,這個功能也和 X-Portrait 2 有類似,讓用戶可以使用手機(jī)或相機(jī)輕松錄制自己或他人的視頻,之后利用 Act-One 功能將錄制對象的面部表情轉(zhuǎn)移到 AI 生成的角色上。
而與 Runyway Act-One 等最先進(jìn)的方法相比,X-Portrait 2 更加出色,能夠如實(shí)表現(xiàn)快速的頭部動作、細(xì)微的表情變化以及強(qiáng)烈的個人情感,這些方面對于高質(zhì)量的內(nèi)容創(chuàng)作(比如動畫和電影制作)至關(guān)重要。
例如下面這組效果對比中,X-Portrait 2 相比 X-Portrait 對人物面部表情的刻畫明顯更加豐富和生動,而 Runyway Act-One 生成的人物面部缺少很多細(xì)節(jié),看起來表情相對生硬,明顯沒有前兩者有沖擊力。
再比如下面這個案例中,驅(qū)動視頻中的人物動作幅度較大,而且表情比較夸張,X-Portrait 2 很好地還原了原視頻的特點(diǎn),X-Portrait 丟失了一些面部細(xì)節(jié),而且頭部運(yùn)動的過程有些跳脫,但整體也不錯。Runyway Act-One 這邊,則直接因為驅(qū)動視頻頭部運(yùn)動幅度較大而無法生成。
由此可見,字節(jié)跳動 X- Portrait2 單圖視頻驅(qū)動技術(shù)在確實(shí)還是很猛的,包含很多創(chuàng)新點(diǎn),而且無論是在動態(tài)目標(biāo)捕捉能力,還是在生成結(jié)果的逼真度,協(xié)調(diào)度等方面,相比目前行業(yè)里其他類似的 AIGC 模型和方案都有明顯的優(yōu)勢。
結(jié)語
體驗并了解完字節(jié)跳動的 X- Portrait2 單圖視頻驅(qū)動技術(shù),IT之家不得不感嘆 AIGC 技術(shù)進(jìn)步速度之快,以及字節(jié)跳動在 AI 模型創(chuàng)新方面強(qiáng)大的技術(shù)實(shí)力。
同時還要提醒大家,上面小編體驗的還只是 X- Portrait2 內(nèi)部測試的版本,而隨著未來其模型技術(shù)的成熟完善,其應(yīng)用前景無疑是不可限量的。
比如創(chuàng)作者們可以用它來大大加速自己的創(chuàng)作,過去需要投入大量人力物力的動捕設(shè)備,可能就不需要了,拍一段視頻 + 1 張照片,就能解決表情動作采集的問題,這種效率的提升簡直不敢想象。
再比如這項技術(shù)未來也可以應(yīng)用到數(shù)字人、XR 等領(lǐng)域,讓我們的數(shù)字分身或者各種 AI 智能體能夠更像真人,甚至能夠通過表情變化傳達(dá)情緒,和我們進(jìn)行更加自然的交流,進(jìn)一步打破虛擬和現(xiàn)實(shí)的邊界……
可以說,生成式 AI 的每一次進(jìn)步,都是我們生產(chǎn)效率的巨大提升,更是對我們當(dāng)前工作、生活和娛樂的變革。
而字節(jié)跳動們正在通過持續(xù)創(chuàng)新的技術(shù)和解決方案,一步一步讓這樣的理想變成現(xiàn)實(shí)。
生成式 AI 的未來,真的充滿無限可能。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。