設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

打入 AI 底層!NUS 尤洋團(tuán)隊用擴(kuò)散模型構(gòu)建神經(jīng)網(wǎng)絡(luò)參數(shù),LeCun 點贊

量子位 2024/2/25 20:16:37 責(zé)編:清源

擴(kuò)散模型,迎來了一項重大新應(yīng)用 —— 像 Sora 生成視頻一樣,給神經(jīng)網(wǎng)絡(luò)生成參數(shù),直接打入了 AI 的底層!

這就是新加坡國立大學(xué)尤洋教授團(tuán)隊聯(lián)合 UCB、Meta AI 實驗室等機(jī)構(gòu)最新開源的研究成果。

具體來說,研究團(tuán)隊提出了一種用于生成神經(jīng)網(wǎng)絡(luò)參數(shù)的擴(kuò)散模型 p (arameter)-diff。用它來生成網(wǎng)絡(luò)參數(shù),速度比直接訓(xùn)練最多提高 44 倍,而且表現(xiàn)毫不遜色。

這一模型一經(jīng)發(fā)布,就迅速在 AI 社區(qū)引發(fā)強(qiáng)烈討論,圈內(nèi)人士對此的驚嘆,毫不亞于普通人看到 Sora 時的反應(yīng)。

甚至有人直接驚呼,這基本上相當(dāng)于 AI 在創(chuàng)造新的 AI 了。

就連 AI 巨頭 LeCun 看了之后,也點贊了這一成果,表示這真的是個 cute idea。

而實質(zhì)上,p-diff 也確實具有和 Sora 一樣重大的意義,對此同實驗室的 Fuzhao Xue(薛復(fù)昭)博士進(jìn)行了詳細(xì)解釋:

Sora 生成高維數(shù)據(jù),即視頻,這使得 Sora 成為世界模擬器(從一個維度接近 AGI)。

而這項工作,神經(jīng)網(wǎng)絡(luò)擴(kuò)散,可以生成模型中的參數(shù),具有成為元世界級學(xué)習(xí)器 / 優(yōu)化器的潛力,從另一個新的重要維度向 AGI 邁進(jìn)。

言歸正傳,p-diff 到底是如何生成神經(jīng)網(wǎng)絡(luò)參數(shù)的呢?

將自編碼器與擴(kuò)散模型結(jié)合

要弄清這個問題,首先要了解一下擴(kuò)散模型和神經(jīng)網(wǎng)絡(luò)各自的工作特點。

擴(kuò)散生成過程,是從隨機(jī)分布到高度特定分布的轉(zhuǎn)變,通過復(fù)合噪聲添加,將視覺信息降級為簡單噪聲分布。

而神經(jīng)網(wǎng)絡(luò)訓(xùn)練,同樣遵循這樣的轉(zhuǎn)變過程,也同樣可以通過添加噪聲的方式來降級,研究人員正是在這一特點的啟發(fā)之下提出 p-diff 方法的。

從結(jié)構(gòu)上看,p-diff 是研究團(tuán)隊在標(biāo)準(zhǔn)潛擴(kuò)散模型的基礎(chǔ)之上,結(jié)合自編碼器設(shè)計的。研究者首先從訓(xùn)練完成、表現(xiàn)較好的網(wǎng)絡(luò)參數(shù)中選取一部分,并展開為一維向量形式。

然后用自編碼器從一維向量中提取潛在表示,作為擴(kuò)散模型的訓(xùn)練數(shù)據(jù),這樣做可以捕捉到原有參數(shù)的關(guān)鍵特征。

訓(xùn)練過程中,研究人員讓 p-diff 通過正向和反向過程來學(xué)習(xí)參數(shù)的分布,完成后,擴(kuò)散模型像生成視覺信息的過程一樣,從隨機(jī)噪聲中合成這些潛在表示。

最后,新生成的潛在表示再被與編碼器對應(yīng)的解碼器還原成網(wǎng)絡(luò)參數(shù),并用于構(gòu)建新模型。

下圖是通過 p-diff、使用 3 個隨機(jī)種子從頭開始訓(xùn)練的 ResNet-18 模型的參數(shù)分布,展示了不同層之間以及同一層不同參數(shù)之間的分布模式。

為了評估 p-diff 所生成參數(shù)的質(zhì)量,研究人員利用 3 種類型、每種兩個規(guī)模的神經(jīng)網(wǎng)絡(luò),在 8 個數(shù)據(jù)集上對其進(jìn)行了測試。

下表中,每組的三個數(shù)字依次表示原始模型、集成模型和用 p-diff 生成的模型的測評成績。

結(jié)果可以看到,用 p-diff 生成的模型表現(xiàn)基本都接近甚至超過了人工訓(xùn)練的原始模型。

效率上,在不損失準(zhǔn)確度的情況下,p-diff 生成 ResNet-18 網(wǎng)絡(luò)的速度是傳統(tǒng)訓(xùn)練的 15 倍,生成 Vit-Base 的速度更是達(dá)到了 44 倍。

額外的測試結(jié)果證明,p-diff 生成的模型與訓(xùn)練數(shù)據(jù)有顯著差異。

從下圖(a)可以看到,p-diff 生成的模型之間的相似度低于各原始模型之間的相似度,以及 p-diff 與原始模型的相似度。

而從(b)和(c)中可知,與微調(diào)、噪聲添加方式相比,p-diff 的相似度同樣更低。

這些結(jié)果說明,p-diff 是真正生成了新的模型,而非僅僅記憶訓(xùn)練樣本,同時也表明其具有良好的泛化能力,能夠生成與訓(xùn)練數(shù)據(jù)不同的新模型。

目前,p-diff 的代碼已經(jīng)開源,感興趣的話可以到 GitHub 中查看。

論文地址:

  • https://arxiv.org/abs/2402.13144

  • GitHub:

  • https://github.com/NUS-HPC-AI-Lab/Neural-Network-Diffusion

本文來自微信公眾號:量子位 (ID:QbitAI),作者:克雷西

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知