重新定義自監(jiān)督學(xué)習(xí)，LeCun 團(tuán)隊(duì)讓 MMCR 再進(jìn)一步

新智元 2024/10/16 23:42:19 責(zé)編：問舟

評論：

近日，來自斯坦福、MIT、紐約大學(xué)和 Meta-FAIR 等機(jī)構(gòu)的研究人員，通過新的研究重新定義了最大流形容量表示法（MMCR）的可能性。

多視圖自監(jiān)督學(xué)習(xí)（MVSSL，或稱為聯(lián)合嵌入自監(jiān)督學(xué)習(xí)）是一種強(qiáng)大的無監(jiān)督學(xué)習(xí)方法。它首先創(chuàng)建無監(jiān)督數(shù)據(jù)的多個(gè)轉(zhuǎn)換或視圖，然后以類似監(jiān)督的方式使用這些視圖來學(xué)習(xí)有用的表示。

重新定義自監(jiān)督學(xué)習(xí)，LeCun 團(tuán)隊(duì)讓 MMCR 再進(jìn)一步

實(shí)現(xiàn) MVSSL 的具體方法有很多，但大致可以分為四類：對比、聚類、蒸餾 / 動(dòng)量、冗余減少。

在這眾多的方法中，最大流形容量表示（Maximum Manifold Capacity Representation，MMCR）是與眾不同的一類。

重新定義自監(jiān)督學(xué)習(xí)，LeCun 團(tuán)隊(duì)讓 MMCR 再進(jìn)一步

MMCR 不明確使用對比，不執(zhí)行聚類，不利用蒸餾，也不明確減少冗余，但效果卻可以媲美甚至超越其他領(lǐng)先的 MVSSL 方法。

而來自斯坦福、MIT、紐約大學(xué)和 Meta-FAIR 等機(jī)構(gòu)的研究人員，正在通過新的研究重新定義這個(gè)框架的可能性。

重新定義自監(jiān)督學(xué)習(xí)，LeCun 團(tuán)隊(duì)讓 MMCR 再進(jìn)一步

論文地址：https://arxiv.org/ pdf/2406.09366

作為論文作者之一，LeCun 也發(fā)推表達(dá)了自己的觀點(diǎn)：

重新定義自監(jiān)督學(xué)習(xí)，LeCun 團(tuán)隊(duì)讓 MMCR 再進(jìn)一步

除非使用預(yù)防機(jī)制，否則使用 SSL 訓(xùn)練聯(lián)合嵌入架構(gòu)會(huì)導(dǎo)致崩潰：系統(tǒng)學(xué)習(xí)到的表示信息不夠豐富，甚至是恒定不變的。
人們設(shè)計(jì)了多種方法來防止這種崩潰。
一類方法是樣本對比：確保不同的輸入產(chǎn)生不同的表示。
另一類是維度對比：確保表示的不同變量對輸入的不同方面進(jìn)行編碼。
兩種類型的方法都可以從信息最大化參數(shù)中派生出來：確保表示形式盡可能多的編碼有關(guān)輸入的信息。
方差-協(xié)方差正則化、MMCR 和 MCR2（來自伯克利大學(xué)馬毅團(tuán)隊(duì)）都是 infomax 維度對比方法。

信息最大化維度對比方法的核心思想，是推動(dòng)編碼器學(xué)習(xí)輸入的表示，使其盡可能充分地利用表示空間，就像在有限的畫布上盡可能展現(xiàn)豐富的細(xì)節(jié)。

重新定義自監(jiān)督學(xué)習(xí)，LeCun 團(tuán)隊(duì)讓 MMCR 再進(jìn)一步

為了更好地理解 MMCR，研究人員利用高維概率工具證明了，MMCR 可以激勵(lì)學(xué)習(xí)嵌入的對齊和均勻性。

同時(shí)，這種嵌入最大化了視圖之間的互信息的下界，從而將 MMCR 的幾何視角與 MVSSL 中的信息論視角聯(lián)系起來。

為了更好地利用 MMCR，研究人員對預(yù)訓(xùn)練損失的非單調(diào)變化進(jìn)行數(shù)學(xué)預(yù)測和實(shí)驗(yàn)確認(rèn)，發(fā)現(xiàn)了類似于雙下降的行為。

重新定義自監(jiān)督學(xué)習(xí)，LeCun 團(tuán)隊(duì)讓 MMCR 再進(jìn)一步

此外，研究人員還發(fā)現(xiàn)了計(jì)算上的 scaling law，可以將預(yù)訓(xùn)練損失預(yù)測為梯度步長、批量大小、嵌入維度和視圖數(shù)量的函數(shù)。

最終，作者證明了這個(gè)最初應(yīng)用于圖像數(shù)據(jù)的 MMCR 方法，在多模態(tài)圖像文本數(shù)據(jù)上同樣表現(xiàn)優(yōu)異。

MMCR

MMCR 由紐約大學(xué)數(shù)據(jù)科學(xué)中心（NYU Center for Data Science，CDS）的研究人員于 2023 年提出。

該方法源于神經(jīng)科學(xué)中的有效編碼假說：生物感覺系統(tǒng)通過使感覺表征適應(yīng)輸入信號的統(tǒng)計(jì)數(shù)據(jù)來優(yōu)化，例如減少冗余或維度。

最初的 MMCR 框架通過調(diào)整「流形容量」（衡量給定表示空間內(nèi)可以線性分離的對象類別數(shù)量的指標(biāo)）將這一想法從神經(jīng)科學(xué)擴(kuò)展到了人工神經(jīng)網(wǎng)絡(luò)。

許多 MVSSL 方法要么明確源自信息論，要么可以從信息論的角度來理解，但 MMCR 不同。

MMCR 指出估計(jì)高維互信息已被證明是困難的，且逼近互信息可能不會(huì)改善表示。MMCR 的基礎(chǔ)在于數(shù)據(jù)流形線性可分性的統(tǒng)計(jì)力學(xué)表征。

不過 LeCun 等人的這篇工作，將 MMCR 的幾何基礎(chǔ)與信息論原理聯(lián)系起來，探索了 MMCR 的更深層次機(jī)制，并將其應(yīng)用擴(kuò)展到了多模態(tài)數(shù)據(jù)，例如圖像文本對。

重新定義自監(jiān)督學(xué)習(xí)，LeCun 團(tuán)隊(duì)讓 MMCR 再進(jìn)一步

理論基礎(chǔ)

MMCR 源自有關(guān)線性二元分類器性能的經(jīng)典結(jié)果?？紤] D 維度中的 P 點(diǎn)（數(shù)據(jù)），具有任意分配的二進(jìn)制類標(biāo)簽；線性二元分類器能夠成功對點(diǎn)進(jìn)行分類的概率是多少？

統(tǒng)計(jì)力學(xué)計(jì)算表明，在熱力學(xué)極限下，容量 α= 2 時(shí)會(huì)發(fā)生相變。MMCR 將此結(jié)果從點(diǎn)擴(kuò)展到流形：

重新定義自監(jiān)督學(xué)習(xí)，LeCun 團(tuán)隊(duì)讓 MMCR 再進(jìn)一步

最小化 MMCR 損失意味著最大化平均矩陣的核范數(shù)。

直觀上，完美重建意味著同一數(shù)據(jù)的所有視圖都被網(wǎng)絡(luò)映射到相同的嵌入，完美均勻性意味著嵌入均勻分布在超球面周圍。

重新定義自監(jiān)督學(xué)習(xí)，LeCun 團(tuán)隊(duì)讓 MMCR 再進(jìn)一步

具有完美重建和完美均勻性的嵌入實(shí)現(xiàn)了盡可能低的 MMCR 損失

基于對 MMCR 嵌入分布的新認(rèn)識(shí)，我們?nèi)绾螌?MMCR 的統(tǒng)計(jì)力學(xué)幾何觀點(diǎn)與信息論觀點(diǎn)聯(lián)系起來？

答案是，MMCR 激勵(lì)表示的最大化，對應(yīng)于同一數(shù)據(jù)的兩個(gè)視圖的兩個(gè)嵌入共享的互信息的下限。

考慮某些輸入數(shù)據(jù)兩個(gè)不同視圖的嵌入之間的互信息。兩個(gè)視圖之間的互信息必須至少與兩項(xiàng)之和一樣大：一個(gè)嵌入重建另一個(gè)的能力，再加上嵌入的熵：

重新定義自監(jiān)督學(xué)習(xí)，LeCun 團(tuán)隊(duì)讓 MMCR 再進(jìn)一步

MMCR 的雙下降

通過高維概率分析可知，預(yù)測最大流形容量表示的預(yù)訓(xùn)練損失，也應(yīng)該在其預(yù)訓(xùn)練損失中表現(xiàn)出非單調(diào)雙下降樣行為。

（雙下降：測試損失作為數(shù)據(jù)總數(shù)和模型參數(shù)數(shù)量的函數(shù)表現(xiàn)出非單調(diào)變化）。

然而，本文的分析也表明，這種類似雙下降的行為應(yīng)該發(fā)生在非典型參數(shù)（流形的數(shù)量 P 和維數(shù) D）上，而不是數(shù)據(jù)的數(shù)量和模型的參數(shù)量。

具體來說，理論預(yù)測最高的預(yù)訓(xùn)練誤差應(yīng)該恰好發(fā)生在閾值 P = D 處，預(yù)訓(xùn)練誤差落在閾值的兩側(cè)。

重新定義自監(jiān)督學(xué)習(xí)，LeCun 團(tuán)隊(duì)讓 MMCR 再進(jìn)一步

為了比較不同超參數(shù)對的點(diǎn)數(shù) P 和數(shù)據(jù)維度 D 之間的損失，這里使用 MMCR 預(yù)訓(xùn)練界限來定義預(yù)訓(xùn)練百分比誤差：

重新定義自監(jiān)督學(xué)習(xí)，LeCun 團(tuán)隊(duì)讓 MMCR 再進(jìn)一步

研究人員在 STL-10 上預(yù)訓(xùn)練了 ResNet-18，STL-10 是一個(gè)與 CIFAR-10 類似的數(shù)據(jù)集，但分辨率更高 (96x96x3)，并且包含 100000 張圖像的附加未標(biāo)記分割。

掃描范圍 P：{64, 128, 256, 512, 1024} × D：{64, 128, 256, 512, 1024} × K：{2, 4, 8}（K 為視圖數(shù)），結(jié)果如上圖所示。

Compute Scaling Laws

在許多 MVSSL 方法中，更改超參數(shù)通常會(huì)導(dǎo)致預(yù)訓(xùn)練損失不相稱，從而使運(yùn)行之間的比較變得困難。

然而，MMCR 預(yù)訓(xùn)練百分比誤差產(chǎn)生的數(shù)量介于 0 和 1 之間，因此可以將不同超參數(shù)（P 和 D）時(shí)的訓(xùn)練情況放在一起比較。

執(zhí)行這樣的比較會(huì)產(chǎn)生有趣的經(jīng)驗(yàn)現(xiàn)象：計(jì)算 MMCR 預(yù)訓(xùn)練百分比誤差中的神經(jīng)縮放定律。

重新定義自監(jiān)督學(xué)習(xí)，LeCun 團(tuán)隊(duì)讓 MMCR 再進(jìn)一步

通過繪制在 STL-10 上預(yù)訓(xùn)練的 ResNet-18 網(wǎng)絡(luò)，我們可以清楚地看到預(yù)訓(xùn)練百分比誤差的冪律縮放與所有點(diǎn)數(shù) P 、嵌入維度 D 和視圖數(shù)量 K 的計(jì)算量的關(guān)系。

一個(gè)關(guān)鍵細(xì)節(jié)是這些神經(jīng)縮放曲線突出了類似雙下降的行為：對角線子圖（P = D 時(shí)）具有較高的預(yù)訓(xùn)練百分比誤差和較小的預(yù)訓(xùn)練百分比斜率。

MMCR 與多模態(tài)

考慮 OpenAI 的對比語言圖像預(yù)訓(xùn)練模型 CLIP 的設(shè)置，兩個(gè)不同的網(wǎng)絡(luò)在圖像文本標(biāo)題對上進(jìn)行預(yù)訓(xùn)練，從兩個(gè)不同的數(shù)據(jù)域 X 和 Y 獲取數(shù)據(jù)。

X 和 Y 是配對的，使得 X 中的每個(gè)示例在 Y 中都有對應(yīng)的正對，反之亦然。從 MMCR 角度來看，X 和 Y 可以理解為同一底層對象的兩個(gè)視圖。

因此，最優(yōu)變換嵌入 f (X) 和 g (Y) 應(yīng)映射到同一空間，并且我們可以利用對 MMCR 的改進(jìn)理解來訓(xùn)練這些最優(yōu)網(wǎng)絡(luò)。

與常見的 MVSSL 不同，這里的 X 和 Y 在實(shí)踐中可能代表極其不同的分布。

重新定義自監(jiān)督學(xué)習(xí)，LeCun 團(tuán)隊(duì)讓 MMCR 再進(jìn)一步

在上圖的圖像-文本對齊實(shí)驗(yàn)中，作者將多模態(tài) MMCR 應(yīng)用于 DataComp-Small，并將零樣本 Imagenet 性能與標(biāo)準(zhǔn) CLIP 目標(biāo)進(jìn)行比較。

可以發(fā)現(xiàn)，多模態(tài) MMCR 在小批量（< 512）下表現(xiàn)優(yōu)于 CLIP。

參考資料：

https://x.com/ylecun/status/1834666512856031537

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

重新定義自監(jiān)督學(xué)習(xí)，LeCun 團(tuán)隊(duì)讓 MMCR 再進(jìn)一步

MMCR

理論基礎(chǔ)

MMCR 的雙下降

Compute Scaling Laws

MMCR 與多模態(tài)

相關(guān)文章

重新定義自監(jiān)督學(xué)習(xí)，LeCun 團(tuán)隊(duì)讓 MMCR 再進(jìn)一步