在不同初始化條件下,同一神經(jīng)網(wǎng)絡(luò)經(jīng)過兩次訓(xùn)練可以得到相同的結(jié)果嗎?CVPR 2022 的一篇研究通過將決策邊界 (Decision Boundary)可視化的方法,給出了答案 —— 有的容易,有的很難。
例如,從下面這張圖來看,研究人員就發(fā)現(xiàn),ViT 比 ResNet 要更難復(fù)現(xiàn)(兩次訓(xùn)練過后,顯然 ViT 決策邊界的差異更大):
研究人員還發(fā)現(xiàn),模型的可復(fù)現(xiàn)性和模型本身的寬度也有很大關(guān)聯(lián)。同樣,他們利用這種方法,對 2019 年機(jī)器學(xué)習(xí)最重要的理論之一 —— 雙下降 (Double Descent)現(xiàn)象進(jìn)行了可視化,最終也發(fā)現(xiàn)了一些很有意思的現(xiàn)象。
來看看他們具體是怎么做的。
更寬的 CNN 模型,可復(fù)現(xiàn)性更高
深度學(xué)習(xí)中的決策邊界,可以用來最小化誤差。簡單來說,分類器會通過決策邊界,把線內(nèi)線外的點(diǎn)歸為不同類。在這項研究中,作者從 CIFAR-10 訓(xùn)練集中選擇了三幅隨機(jī)圖像,然后使用三次不同的隨機(jī)初始化配置在 7 種不同架構(gòu)上訓(xùn)練,繪制出各自的決策區(qū)域。
從中我們可以發(fā)現(xiàn):左邊三個和右邊四個差異很大,也就是說不同架構(gòu)之間的相似性很低。再進(jìn)一步觀察,左邊的全連接網(wǎng)絡(luò)、ViT 和 MLP Mixer 之間的決策邊界圖又不太一樣,而右邊 CNN 模型的則很相似。在 CNN 模型中,我們還可以觀察到不同隨機(jī)數(shù)種子之間明顯的的重復(fù)性趨勢,這說明不同初始化配置的模型可以產(chǎn)生一樣的結(jié)果。
作者設(shè)計了一種更直觀的度量方法來衡量各架構(gòu)的可復(fù)現(xiàn)性得分,結(jié)果確實(shí)驗證了我們的直觀感受:
并發(fā)現(xiàn)更寬的 CNN 模型似乎在其決策區(qū)域具有更高的可復(fù)現(xiàn)性,比如 WideRN30。以及采用殘差連接結(jié)構(gòu)的 CNN 模型(ResNet 和 DenseNet )的可復(fù)現(xiàn)性得分比無此連接的模型要略高(VGG)。此外,優(yōu)化器的選擇也會帶來影響。在下表中,我們可以看到 SAM 比標(biāo)準(zhǔn)優(yōu)化器(如 SGD 和 Adam)產(chǎn)生了更多可重復(fù)的決策邊界。不過對于 MLP Mixer 和 ViT,SAM 的使用不能總是保證模型達(dá)到最高的測試精度。
有網(wǎng)友表示好奇,如果通過改善模型本身的設(shè)計,能改變這種現(xiàn)象嗎?對此作者回應(yīng)稱,他們已經(jīng)試著調(diào)整過 ViT 的學(xué)習(xí)率,但得到的結(jié)果仍然比 ResNet 差。
可視化 ResNet-18 的雙下降現(xiàn)象
雙下降(Double Descent)是一個有趣的概念,描述是測試 / 訓(xùn)練誤差與模型大小的關(guān)系。在此之前,大家普遍認(rèn)為參數(shù)太少的模型泛化能力差 —— 因為欠擬合;參數(shù)太多的模型泛化能力也差 —— 因為過擬合。
而它證明,兩者的關(guān)系沒有那么簡單。具體來說:誤差會先隨著模型的增大而減小,然后經(jīng)過模型過擬合,誤差又增大,但隨著模型大小或訓(xùn)練時間的進(jìn)一步增加,誤差又會再次減小。
作者則繼續(xù)使用決策邊界方法,可視化了 ResNet-18 的雙下降現(xiàn)象。他們通過寬度參數(shù)(k:1-64)的改變來增加模型容量。訓(xùn)練出的兩組模型,其中一組使用無噪聲標(biāo)簽(label noise)的訓(xùn)練集,另一組則帶有 20% 的噪聲標(biāo)簽。最終,在第二組模型中觀察到了明顯的雙下降現(xiàn)象。
對此作者表示:線性模型預(yù)測的模型不穩(wěn)定性也適用于神經(jīng)網(wǎng)絡(luò),不過這種不穩(wěn)定性表現(xiàn)為決策區(qū)域的大量碎片。
也就說,雙下降現(xiàn)象是由噪聲標(biāo)簽情況下決策區(qū)域的過度碎片引起的。具體來說,當(dāng) k 接近 / 達(dá)到 10 (也就是插值閾值)時,由于模型此時擬合了大部分訓(xùn)練數(shù)據(jù),決策區(qū)域被分割成很多小塊,變得“混亂和破碎”,并不具備可重復(fù)性;此時模型的分類功能存在明顯的不穩(wěn)定性。而在模型寬度很窄(k=4)和很寬(k=64)時,決策區(qū)域碎片較少,有高水平的可重復(fù)性。為了進(jìn)一步證明該結(jié)果,作者又設(shè)計了一個碎片分?jǐn)?shù)計算方法,最終再次驗證上圖的觀察結(jié)果。
模型的可復(fù)現(xiàn)性得分如下:
同樣可以看到,在參數(shù)化不足和過參數(shù)化的情況下,整個訓(xùn)練過程的可復(fù)現(xiàn)性很高,但在插值閾值處會出現(xiàn)“故障”。有趣的是,即使沒有噪聲標(biāo)簽,研究人員發(fā)現(xiàn)他們設(shè)計的量化方法也足夠敏感,可以檢測到可復(fù)現(xiàn)性的細(xì)微下降(上圖藍(lán)線部分)。
目前代碼已經(jīng)開源,要不要來試試你的模型是否容易復(fù)現(xiàn)?
論文地址:
https://arxiv.org/abs/2203.08124
GitHub 鏈接:
https://github.com/somepago/dbViz
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。