設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

實習生大佬開發(fā)出 AI 摳圖:4K 60 幀視頻毫無壓力,支持網(wǎng)頁體驗

量子位 2021/8/30 14:59:04 責編:問舟

(原標題:完美摳圖王冰冰!字節(jié)實習生開發(fā)的 AI,實現(xiàn) 4K60 幀視頻實時摳圖,連頭發(fā)絲都根根分明)

看這一頭蓬松的秀發(fā),加上帥氣的動作,你以為是在綠幕前拍大片?

No、No、No

這其實是 AI 拿來視頻實時摳圖后的效果。

沒想到吧,實時視頻摳圖,現(xiàn)在能精細到每一根發(fā)絲。

換到 alpha 通道再看一眼,不用多說,德芙打錢吧(手動狗頭)。

這就是來自字節(jié)跳動實習生小哥的最新研究:實時高分辨率視頻摳圖大法。

無需任何輔助輸入,把視頻丟給這個名為 RVM 的 AI,它分分鐘就能幫你把人像高精度摳出,將背景替換成可以任意二次加工的綠幕。

不信有這么絲滑?我們用線上 Demo 親自嘗試了一波。

相比之下,現(xiàn)在在線會議軟件里的摳圖,一旦頭發(fā)遮住臉,人就會消失……

頭發(fā)絲更是明顯糊了。

難怪看得網(wǎng)友直言:

不敢想象你們把這只 AI 塞進手機里的樣子。

目前,這篇論文已經(jīng)入選 WACV 2022。

你也可以上手一試目前,RVM 已經(jīng)在 GitHub 上開源,并給出了兩種試玩途徑:

于是我們也趕緊上手試了試。

先來看看效果:

首先來點難度低的。對于這種人物在畫面中基本不移動的情況,RVM 可以說是表現(xiàn)的非常好,和人工摳圖幾乎無差別。

現(xiàn)在,王冰冰進入動森都毫不違和了。

于是開腦洞,也變得簡單了許多……

咳咳,言歸正傳。人物動作幅度加大會怎樣呢?

對于多人舞蹈視頻而言,RVM 的表現(xiàn)也很 nice。即便動來動去、頭發(fā)亂甩,也沒有影響它的摳圖效果。只有在人物出現(xiàn)遮擋的情況下,才會出現(xiàn)瑕疵。對比前輩方法 MODNet,確實有不小的進步。

不過我們也發(fā)現(xiàn),如果視頻的背景較暗,就會影響 RVM 的發(fā)揮。

比如在這種背景光線昏暗的情況下,摳圖的效果就非常不盡人意了。

可以看到,博主老哥的頭發(fā)完全糊了。

而且身體的邊界線也不夠清晰。

所以,如果你想自己拍視頻試玩,就一定要選擇光線充足的場景。

利用時間信息

那么這樣的“魔法”,具體又是如何實現(xiàn)的?

照例,我們先來扒一扒論文~

實際上,有關視頻摳圖的算法如今已不鮮見,其中大多數(shù)采用的是將視頻中的每一幀作為獨立圖像來實現(xiàn)摳圖的方法。

不同與此,在這篇論文中,研究人員構建了一個循環(huán)架構,利用上了視頻的時間信息,在時間一致性和摳圖質(zhì)量上取得了明顯改進。

從上圖中可以看出,RVM 的網(wǎng)絡架構包括 3 個部分:

特征提取編碼器,用來提取單幀特征;

循環(huán)解碼器,用于匯總時間信息;

深度引導濾波(DGF)模塊,用于高分辨率上采樣。

其中,循環(huán)機制的引入使得 AI 能夠在連續(xù)的視頻流中自我學習,從而了解到哪些信息需要保留,哪些信息可以遺忘掉。

具體而言,循環(huán)解碼器采用了多尺度 ConvGRU 來聚合時間信息。其定義如下:

在這個編碼器-解碼器網(wǎng)絡中,AI 會完成對高分辨率視頻的下采樣,然后再使用 DGF 對結果進行上采樣。

除此之外,研究人員還提出了一種新的訓練策略:同時使用摳圖和語義分割目標數(shù)據(jù)集來訓練網(wǎng)絡。

這樣做到好處在于:

首先,人像摳圖與人像分割任務密切相關,AI 必須學會從語義上理解場景,才能在定位人物主體方面具備魯棒性。

其次,現(xiàn)有的大部分摳圖數(shù)據(jù)集只提供真實的 alpha 通道和前景信息,所以必須對背景圖像進行合成。但前景和背景的光照往往不同,這就影響了合成的效果。語義分割數(shù)據(jù)集的引入可以有效防止過擬合。

最后,語義分割數(shù)據(jù)集擁有更為豐富的訓練數(shù)據(jù)。

經(jīng)過這一番調(diào)教之后,RVM 和前輩們比起來,有怎樣的改進?

從效果對比中就可以明顯感受到了:

另外,與 MODNet 相比,RVM 更輕更快。

從下面這張表格中可以看出,在 1080p 視頻上 RVM 的處理速度是最快的,在 512×288 上比 BGMv2 略慢,在 4K 視頻上則比帶 FGF 的 MODNet 慢一點。研究人員分析,這是因為 RVM 除了 alpha 通道外還預判了前景。

更直觀的數(shù)據(jù)是,在英偉達 GTX 1080Ti 上,RVM 能以 76FPS 的速度處理 4K 視頻,以 104FPS 的速度處理 HD 視頻。

一作字節(jié)跳動實習生

這篇論文是一作林山川在字節(jié)跳動實習期間完成的。他本科、碩士均畢業(yè)于華盛頓大學,曾先后在 Adobe、Facebook 等大廠實習。2021 年 3 月-6 月,林山川在字節(jié)跳動實習。8 月剛剛入職微軟。

事實上,林山川此前就曾憑借 AI 摳圖大法拿下 CVPR 2021 最佳學生論文榮譽獎。

他以一作身份發(fā)表論文《Real-Time High-Resolution Background Matting》,提出了 Background Matting V2 方法。

這一方法能夠以 30FPS 的速度處理 4K 視頻,以 60FPS 的速度處理 HD 視頻。

值得一提的是,Background Matting 這一系列方法不止一次中了 CVPR。此前,第一代 Background Matting 就被 CVPR 2020 收錄。

兩次論文的通訊作者都是華盛頓大學副教授 Ira Kemelmacher-Shlizerman,她的研究方向為計算機視覺、計算機圖形、AR/VR 等。

此外,本次論文的二作為 Linjie Yang,他是字節(jié)跳動的研究科學家。本科畢業(yè)于清華大學,在香港中文大學獲得博士學位。

對了,除了能在 Colab 上試用之外,你也可以在網(wǎng)頁版上實時感受一下這只 AI 的效果,地址拿好:

https://peterl1n.github.io/RobustVideoMatting/#/demo

GitHub 地址:

https://github.com/PeterL1n/RobustVideoMatting

論文地址:

https://arxiv.org/abs/2108.11515

參考鏈接:

https://www.reddit.com/r/MachineLearning/comments/pdbpmg/r_robust_highresolution_video_matting_with/

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知