谷歌 Fluid 顛覆共識(shí)：兩大因素被發(fā)現(xiàn)，AI 文生圖領(lǐng)域自回歸模型超越擴(kuò)散模型

2024/10/23 13:35:00 來(lái)源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

IT之家 10 月 23 日消息，科技媒體 The Decoder 昨日（10 月 22 日）發(fā)布博文，報(bào)道稱(chēng)谷歌 DeepMind 團(tuán)隊(duì)攜手麻省理工學(xué)院（MIT），推出了全新的“Fluid”模型，在規(guī)模達(dá)到 105 億參數(shù)時(shí)候，能取得最佳的文生圖效果。

目前在文生圖領(lǐng)域，行業(yè)內(nèi)的一個(gè)共識(shí)是自回歸模型（Autoregressive Models）不如擴(kuò)散模型（Diffusion Models）。

IT之家簡(jiǎn)要介紹下這兩種模型：

擴(kuò)散模型 (Diffusion Models): 這是一種最近非常熱門(mén)的內(nèi)容生成技術(shù)，它模擬的是信號(hào)從噪聲中逐漸恢復(fù)的過(guò)程。擴(kuò)散模型通過(guò)迭代地減少隨機(jī)噪聲來(lái)生成高質(zhì)量的圖像、文本和其他形式的數(shù)據(jù)。比如應(yīng)用于圖像生成領(lǐng)域中的 DDPM（離散擴(kuò)散概率模型）及其變體就有很高的關(guān)注度。
自回歸模型 (Autoregressive Models): 自回歸模型預(yù)測(cè)序列中的下一個(gè)元素時(shí)，依賴于前面的元素。在文本生成領(lǐng)域，像基于 Decoder-only 的 GPT 系列（如 GPT-3、GPT-4）就是典型的自回歸模型，它們逐詞預(yù)測(cè)下一個(gè)詞，從而生成連貫的文本段落。

谷歌 DeepMind 和 MIT 團(tuán)隊(duì)通過(guò)深入研究，發(fā)現(xiàn)了使用連續(xù) tokens（非離散 tokens）和采用隨機(jī)生成順序（非固定順序）兩個(gè)關(guān)鍵設(shè)計(jì)因素，顯著提高了自回歸模型的性能和可擴(kuò)展性。

團(tuán)隊(duì)表示在離散 tokens 為每個(gè)圖像區(qū)域分配一個(gè)來(lái)自有限詞匯的代碼，這會(huì)導(dǎo)致信息丟失，而連續(xù) tokens 可以更精確地圖像信息存儲(chǔ)，減少信息丟失。這讓模型能夠更好地重建圖像，提高視覺(jué)質(zhì)量。

此外大多數(shù)自回歸模型以固定順序生成圖像，而 Fluid 采用隨機(jī)生成順序，讓模型能夠在每一步預(yù)測(cè)任意位置的多個(gè)像素，這種方法在理解整體圖像結(jié)構(gòu)時(shí)表現(xiàn)更為出色。

Fluid 模型結(jié)合了連續(xù)標(biāo)記和隨機(jī)生成順序后，當(dāng)其規(guī)模擴(kuò)大到 105 億參數(shù)時(shí)，F(xiàn)luid 在重要基準(zhǔn)測(cè)試中超越了 Stable Diffusion 3 擴(kuò)散模型和谷歌此前的 Parti 自回歸模型。

與 Parti 相比，F(xiàn)luid 顯示出顯著的改進(jìn)：擁有 200 億參數(shù)的 Parti 在 MS-COCO 上達(dá)到了 7.23 的 FID 分?jǐn)?shù)，而僅有 3.69 億參數(shù)的小型 Fluid 模型卻達(dá)到了相同的分?jǐn)?shù)。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

谷歌 Fluid 顛覆共識(shí)：兩大因素被發(fā)現(xiàn)，AI 文生圖領(lǐng)域自回歸模型超越擴(kuò)散模型

相關(guān)文章

谷歌 Fluid 顛覆共識(shí)：兩大因素被發(fā)現(xiàn)，AI 文生圖領(lǐng)域自回歸模型超越擴(kuò)散模型