首頁 > 科學(xué)探索>科技前沿

53 幀變 900 幀，華為黑科技 AI 亮相：不用昂貴的高速攝像機也能制作慢鏡頭

量子位 2021/9/15 7:14:03 責(zé)編：姜戈

評論：

要制作慢動作視頻就必須要用死貴的高速攝像機？

NO! 可以用 AI。

53 幀變 900 幀，華為黑科技 AI 亮相：不用昂貴的高速攝像機也能制作慢鏡頭

看到?jīng)]，這就是 AI 完成的效果！

雖然和真正的高速攝像機至少上千的幀數(shù)沒法比，但它完全可以做到每秒 53 幀的視頻輕輕松松變成 960 幀，沒有偽影也沒有噪聲。

很多網(wǎng)友看完效果都按耐不住了：“非常想要一個深入的教程”、“能不能出一個應(yīng)用程序？”……

53 幀變 900 幀，華為黑科技 AI 亮相：不用昂貴的高速攝像機也能制作慢鏡頭

而這項酷斃的研究成果也成功入選 CVPR 2021，研究人員來自華為蘇黎世研究中心和蘇黎世大學(xué)。

53 幀變 900 幀，華為黑科技 AI 亮相：不用昂貴的高速攝像機也能制作慢鏡頭

當然，也用了一個特殊的攝像頭

實現(xiàn)這一效果沒有采用通過視頻光流來猜測粒子運動的經(jīng)典思想，而是先用了兩個攝像頭來捕捉畫面。

一個就是普通攝像頭，記錄低幀（20-60FPS）真實畫面；

要想達到慢動作效果，起碼得每秒 300 張畫面才夠；20 幀的視頻給的信息太少了，沒法直接合成慢動作。

怎么辦？靠另一個特殊的攝像頭 ——

也就是事件相機（也稱為神經(jīng)形態(tài)相機），它使用新型的傳感器，拍攝的是“事件”，也就是記錄像素亮度變化。

事件相機還比較新興，實驗室里有很多，市場上還沒有大規(guī)模問世，報價有 2000 美元一個或更高。

53 幀變 900 幀，華為黑科技 AI 亮相：不用昂貴的高速攝像機也能制作慢鏡頭

由于該相機記錄的信息經(jīng)過壓縮表示，因此可以較低的清晰度、高速率進行拍攝，也就是犧牲圖像質(zhì)量換取更多圖像信息。

最終的信息量足夠 AI 理解粒子的運動，方便后續(xù)插值。

53 幀變 900 幀，華為黑科技 AI 亮相：不用昂貴的高速攝像機也能制作慢鏡頭

▲ 問號部分即為我們要的插幀

這倆相機同步拍攝到的內(nèi)容合起來就是這樣的：

53 幀變 900 幀，華為黑科技 AI 亮相：不用昂貴的高速攝像機也能制作慢鏡頭

拍好以后，就可以使用機器學(xué)習(xí)來最大化地利用這兩種相機的信息進行插幀了。

研究人員在這里提出的 AI 模型叫做 Time Lens，一共分為四塊。

首先，將倆相機拍到的幀信息和事件信息發(fā)送到前兩個模塊：基于變形（warp）的插值模塊和合成插值模塊。

53 幀變 900 幀，華為黑科技 AI 亮相：不用昂貴的高速攝像機也能制作慢鏡頭

基于變形的插值模塊利用 U 形網(wǎng)絡(luò)將運動轉(zhuǎn)換為光流表示，然后將事件轉(zhuǎn)換成真實的幀。

合成插值模塊也是利用 U 形網(wǎng)絡(luò)將事件置于兩個幀之間，并直接為每個事件生成一個新的可能幀（現(xiàn)在就為同一事件生成兩個幀了）。

該模塊可以很好地處理幀之間出現(xiàn)的新對象以及光線變化（比如水反射啥的）。

不過到這里的話，合成的視頻可能會有一個問題：出現(xiàn)噪聲。

這時，第三個模塊的作用就派上用場了，它使用第二個插值合成模塊中的新信息來細化第一個模塊。

也就是提取同一事件的兩個生成幀中最有價值的信息，進行變形優(yōu)化 —— 再次使用 U-net 網(wǎng)絡(luò)生成事件的第三個幀版本。

最后，這三個候選幀被輸入到一個基于注意力的平均模塊。

該模塊采用三幀表示中最好的部分將它們組成最終幀。

現(xiàn)在，有了幀之間第一個事件的高清幀后，再對事件相機提供的所有事件重復(fù)此過程，就能生成最終我們想要的結(jié)果了。

53 幀變 900 幀，華為黑科技 AI 亮相：不用昂貴的高速攝像機也能制作慢鏡頭

這就是使用 AI 創(chuàng)建逼真的慢動作視頻的方法。怎么樣？

附一個攝像機的參數(shù)圖：

53 幀變 900 幀，華為黑科技 AI 亮相：不用昂貴的高速攝像機也能制作慢鏡頭

取得了智能手機和其他模型無法達到的效果

你說這個 AI 模型的效果好，那得對比一下才知道。

53 幀變 900 幀，華為黑科技 AI 亮相：不用昂貴的高速攝像機也能制作慢鏡頭

比如上面這個與最優(yōu)秀的插值模型之一的 DAIN（入選 CVPR 19）的對比，誰好誰壞效果就很明顯了。

而且它的插值方法的計算復(fù)雜度也是最優(yōu)的：圖像分辨率為 640×480，在研究人員的 GPU 上進行單個插值時，DAIN 模型需要 878 毫秒，該 AI 則只需要 138 毫秒。

另外，雖然不建議，用該模型輸入的視頻即使只有 5 幀，也可以生成慢動作。

53 幀變 900 幀，華為黑科技 AI 亮相：不用昂貴的高速攝像機也能制作慢鏡頭

和其他模型的對比實驗數(shù)據(jù)，大家感興趣的可以查看論文。

最后，作者在介紹成果的視頻里也再次說道，不和昂貴的專業(yè)設(shè)備相比，該模型至少取得了智能手機和其他模型無法達到的效果。

作者介紹

一作 Stepan Tulyakov，華為蘇黎世研究中心機器學(xué)習(xí)研究員。

53 幀變 900 幀，華為黑科技 AI 亮相：不用昂貴的高速攝像機也能制作慢鏡頭

共同一作 Daniel Gehrig，蘇黎世大學(xué)博士生。蘇黎世聯(lián)邦理工大學(xué)機械工程碩士。

53 幀變 900 幀，華為黑科技 AI 亮相：不用昂貴的高速攝像機也能制作慢鏡頭

論文地址：

http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf

開源地址：

https://github.com/uzh-rpg/rpg_timelens

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

53 幀變 900 幀，華為黑科技 AI 亮相：不用昂貴的高速攝像機也能制作慢鏡頭

當然，也用了一個特殊的攝像頭

取得了智能手機和其他模型無法達到的效果

作者介紹

當然，也用了一個特殊的攝像頭