首頁 > 智能時代>人工智能

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

量子位 2021/8/30 14:59:04 責編：問舟

評論：

（原標題：完美摳圖王冰冰！字節(jié)實習生開發(fā)的 AI，實現(xiàn) 4K60 幀視頻實時摳圖，連頭發(fā)絲都根根分明）

看這一頭蓬松的秀發(fā)，加上帥氣的動作，你以為是在綠幕前拍大片？

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

No、No、No

這其實是 AI 拿來視頻實時摳圖后的效果。

沒想到吧，實時視頻摳圖，現(xiàn)在能精細到每一根發(fā)絲。

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

換到 alpha 通道再看一眼，不用多說，德芙打錢吧（手動狗頭）。

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

這就是來自字節(jié)跳動實習生小哥的最新研究：實時高分辨率視頻摳圖大法。

無需任何輔助輸入，把視頻丟給這個名為 RVM 的 AI，它分分鐘就能幫你把人像高精度摳出，將背景替換成可以任意二次加工的綠幕。

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

不信有這么絲滑？我們用線上 Demo 親自嘗試了一波。

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

相比之下，現(xiàn)在在線會議軟件里的摳圖，一旦頭發(fā)遮住臉，人就會消失……

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

頭發(fā)絲更是明顯糊了。

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

難怪看得網(wǎng)友直言：

不敢想象你們把這只 AI 塞進手機里的樣子。

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

目前，這篇論文已經(jīng)入選 WACV 2022。

你也可以上手一試目前，RVM 已經(jīng)在 GitHub 上開源，并給出了兩種試玩途徑：

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

于是我們也趕緊上手試了試。

先來看看效果：

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

首先來點難度低的。對于這種人物在畫面中基本不移動的情況，RVM 可以說是表現(xiàn)的非常好，和人工摳圖幾乎無差別。

現(xiàn)在，王冰冰進入動森都毫不違和了。

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

于是開腦洞，也變得簡單了許多……

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

咳咳，言歸正傳。人物動作幅度加大會怎樣呢？

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

對于多人舞蹈視頻而言，RVM 的表現(xiàn)也很 nice。即便動來動去、頭發(fā)亂甩，也沒有影響它的摳圖效果。只有在人物出現(xiàn)遮擋的情況下，才會出現(xiàn)瑕疵。對比前輩方法 MODNet，確實有不小的進步。

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

不過我們也發(fā)現(xiàn)，如果視頻的背景較暗，就會影響 RVM 的發(fā)揮。

比如在這種背景光線昏暗的情況下，摳圖的效果就非常不盡人意了。

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

可以看到，博主老哥的頭發(fā)完全糊了。

而且身體的邊界線也不夠清晰。

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

所以，如果你想自己拍視頻試玩，就一定要選擇光線充足的場景。

利用時間信息

那么這樣的“魔法”，具體又是如何實現(xiàn)的？

照例，我們先來扒一扒論文~

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

實際上，有關視頻摳圖的算法如今已不鮮見，其中大多數(shù)采用的是將視頻中的每一幀作為獨立圖像來實現(xiàn)摳圖的方法。

不同與此，在這篇論文中，研究人員構建了一個循環(huán)架構，利用上了視頻的時間信息，在時間一致性和摳圖質(zhì)量上取得了明顯改進。

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

從上圖中可以看出，RVM 的網(wǎng)絡架構包括 3 個部分：

特征提取編碼器，用來提取單幀特征；

循環(huán)解碼器，用于匯總時間信息；

深度引導濾波（DGF）模塊，用于高分辨率上采樣。

其中，循環(huán)機制的引入使得 AI 能夠在連續(xù)的視頻流中自我學習，從而了解到哪些信息需要保留，哪些信息可以遺忘掉。

具體而言，循環(huán)解碼器采用了多尺度 ConvGRU 來聚合時間信息。其定義如下：

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

在這個編碼器-解碼器網(wǎng)絡中，AI 會完成對高分辨率視頻的下采樣，然后再使用 DGF 對結果進行上采樣。

除此之外，研究人員還提出了一種新的訓練策略：同時使用摳圖和語義分割目標數(shù)據(jù)集來訓練網(wǎng)絡。

這樣做到好處在于：

首先，人像摳圖與人像分割任務密切相關，AI 必須學會從語義上理解場景，才能在定位人物主體方面具備魯棒性。

其次，現(xiàn)有的大部分摳圖數(shù)據(jù)集只提供真實的 alpha 通道和前景信息，所以必須對背景圖像進行合成。但前景和背景的光照往往不同，這就影響了合成的效果。語義分割數(shù)據(jù)集的引入可以有效防止過擬合。

最后，語義分割數(shù)據(jù)集擁有更為豐富的訓練數(shù)據(jù)。

經(jīng)過這一番調(diào)教之后，RVM 和前輩們比起來，有怎樣的改進？

從效果對比中就可以明顯感受到了：

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

另外，與 MODNet 相比，RVM 更輕更快。

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

從下面這張表格中可以看出，在 1080p 視頻上 RVM 的處理速度是最快的，在 512×288 上比 BGMv2 略慢，在 4K 視頻上則比帶 FGF 的 MODNet 慢一點。研究人員分析，這是因為 RVM 除了 alpha 通道外還預判了前景。

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

更直觀的數(shù)據(jù)是，在英偉達 GTX 1080Ti 上，RVM 能以 76FPS 的速度處理 4K 視頻，以 104FPS 的速度處理 HD 視頻。

一作字節(jié)跳動實習生

這篇論文是一作林山川在字節(jié)跳動實習期間完成的。他本科、碩士均畢業(yè)于華盛頓大學，曾先后在 Adobe、Facebook 等大廠實習。2021 年 3 月-6 月，林山川在字節(jié)跳動實習。8 月剛剛入職微軟。

事實上，林山川此前就曾憑借 AI 摳圖大法拿下 CVPR 2021 最佳學生論文榮譽獎。

他以一作身份發(fā)表論文《Real-Time High-Resolution Background Matting》，提出了 Background Matting V2 方法。

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

這一方法能夠以 30FPS 的速度處理 4K 視頻，以 60FPS 的速度處理 HD 視頻。

值得一提的是，Background Matting 這一系列方法不止一次中了 CVPR。此前，第一代 Background Matting 就被 CVPR 2020 收錄。

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

兩次論文的通訊作者都是華盛頓大學副教授 Ira Kemelmacher-Shlizerman，她的研究方向為計算機視覺、計算機圖形、AR/VR 等。

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

此外，本次論文的二作為 Linjie Yang，他是字節(jié)跳動的研究科學家。本科畢業(yè)于清華大學，在香港中文大學獲得博士學位。

對了，除了能在 Colab 上試用之外，你也可以在網(wǎng)頁版上實時感受一下這只 AI 的效果，地址拿好：

https://peterl1n.github.io/RobustVideoMatting/#/demo

GitHub 地址：

https://github.com/PeterL1n/RobustVideoMatting

論文地址：

https://arxiv.org/abs/2108.11515

參考鏈接：

https://www.reddit.com/r/MachineLearning/comments/pdbpmg/r_robust_highresolution_video_matting_with/

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗

實習生大佬開發(fā)出 AI 摳圖：4K 60 幀視頻毫無壓力，支持網(wǎng)頁體驗