首頁(yè) > 科學(xué)探索>科技前沿

讀取大腦重建高清視頻，Stable Diffusion 還能這么用

量子位 2023/5/25 11:45:00 責(zé)編：夢(mèng)澤

評(píng)論：

現(xiàn)在，AI 可以把人類腦中的信息，用高清視頻展示出來(lái)了！

例如你坐在副駕所欣賞到的沿途美景信息，AI 分分鐘給重建了出來(lái)：

讀取大腦重建高清視頻，Stable Diffusion 還能這么用

看到過(guò)的水中的魚(yú)兒、草原上的馬兒，也不在話下：

讀取大腦重建高清視頻，Stable Diffusion 還能這么用

這就是由新加坡國(guó)立大學(xué)和香港中文大學(xué)共同完成的最新研究，團(tuán)隊(duì)將項(xiàng)目取名為 MinD-Video。

讀取大腦重建高清視頻，Stable Diffusion 還能這么用

這波操作，宛如科幻電影《超體》中 Lucy 讀取反派大佬記憶一般：

讀取大腦重建高清視頻，Stable Diffusion 還能這么用

引得網(wǎng)友直呼：

推動(dòng)人工智能和神經(jīng)科學(xué)的前沿。

讀取大腦重建高清視頻，Stable Diffusion 還能這么用

值得一提的是，大火的 Stable Diffusion 也在這次研究中立了不小的功勞。

讀取大腦重建高清視頻，Stable Diffusion 還能這么用

怎么做到的？

從大腦活動(dòng)中重建人類視覺(jué)任務(wù)，尤其是功能磁共振成像技術(shù)（fMRI）這種非侵入式方法，一直是受到學(xué)界較多的關(guān)注。

因?yàn)轭愃七@樣的研究，有利于理解我們的認(rèn)知過(guò)程。

但以往的研究都主要聚焦在重建靜態(tài)圖像，而以高清視頻形式來(lái)展現(xiàn)的工作還是較為有限。

讀取大腦重建高清視頻，Stable Diffusion 還能這么用

之所以會(huì)如此，是因?yàn)榕c重建一張靜態(tài)圖片不同，我們視覺(jué)所看到的場(chǎng)景、動(dòng)作和物體的變化是連續(xù)、多樣化的。

而 fMRI 這項(xiàng)技術(shù)的本質(zhì)是測(cè)量血氧水平依賴（BOLD）信號(hào)，并且在每隔幾秒鐘的時(shí)間里捕捉大腦活動(dòng)的快照。

相比之下，一個(gè)典型的視頻每秒大約包含 30 幀畫(huà)面，如果要用 fMRI 去重建一個(gè) 2 秒的視頻，就需要呈現(xiàn)起碼 60 幀。

因此，這項(xiàng)任務(wù)的難點(diǎn)就在于解碼 fMRI 并以遠(yuǎn)高于 fMRI 時(shí)間分辨率的 FPS 恢復(fù)視頻。

為了彌合圖像和視頻大腦解碼之間差距，研究團(tuán)隊(duì)便提出了 MinD-Video 的方法。

整體來(lái)看，這個(gè)方法主要包含兩大模塊，它們分別做訓(xùn)練，然后再在一起做微調(diào)。

讀取大腦重建高清視頻，Stable Diffusion 還能這么用

這個(gè)模型從大腦信號(hào)中逐步學(xué)習(xí)，在第一個(gè)模塊多個(gè)階段的過(guò)程，可以獲得對(duì)語(yǔ)義空間的更深入理解。

具體而言，便是先利用大規(guī)模無(wú)監(jiān)督學(xué)習(xí)與 mask brain modeling（MBM）來(lái)學(xué)習(xí)一般的視覺(jué) fMRI 特征。

然后，團(tuán)隊(duì)使用標(biāo)注數(shù)據(jù)集的多模態(tài)提取語(yǔ)義相關(guān)特征，在對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練（CLIP）空間中使用對(duì)比學(xué)習(xí)訓(xùn)練 fMRI 編碼器。

在第二個(gè)模塊中，團(tuán)隊(duì)通過(guò)與增強(qiáng)版 Stable Diffusion 模型的共同訓(xùn)練來(lái)微調(diào)學(xué)習(xí)到的特征，這個(gè)模型是專門為 fMRI 技術(shù)下的視頻生成量身定制的。

如此方法之下，團(tuán)隊(duì)也與此前的諸多研究做了對(duì)比，可以明顯地看到 MinD-Video 方法所生成的圖片、視頻質(zhì)量要遠(yuǎn)優(yōu)于其它方法。

讀取大腦重建高清視頻，Stable Diffusion 還能這么用

而且在場(chǎng)景連續(xù)變化的過(guò)程中，也能夠呈現(xiàn)高清、有意義的連續(xù)幀。

讀取大腦重建高清視頻，Stable Diffusion 還能這么用

研究團(tuán)隊(duì)

這項(xiàng)研究的共同一作，其中一位是來(lái)自新加坡國(guó)立大學(xué)的博士生 Zijiao Chen，目前在該校的神經(jīng)精神疾病多模式神經(jīng)成像實(shí)驗(yàn)室（MNNDL_Lab）。

另一位一作則是來(lái)自香港中文大學(xué)的 Jiaxin Qing，就讀專業(yè)是信息工程系。

除此之外，通訊作者是新加坡國(guó)立大學(xué)副教授 Juan Helen ZHOU。

據(jù)了解，這次的新研究是他們團(tuán)隊(duì)在此前一項(xiàng)名為 MinD-Vis 的功能磁共振成像圖像重建工作的延伸。

MinD-Vis 已經(jīng)被 CVPR 2023 所接收。

讀取大腦重建高清視頻，Stable Diffusion 還能這么用

參考鏈接：

[1]https://mind-video.com/
[2]https://twitter.com/ZijiaoC/status/1660470518569639937
[3]https://arxiv.org/abs/2305.11675

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：金磊

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

讀取大腦重建高清視頻，Stable Diffusion 還能這么用

怎么做到的？

研究團(tuán)隊(duì)

相關(guān)文章

讀取大腦重建高清視頻，Stable Diffusion 還能這么用