首頁 > 科學(xué)探索>科技前沿

OpenAI 新生成模型開源炸場(chǎng)，比 Diffusion 更快更強(qiáng)，清華校友宋飏一作

量子位 2023/4/13 18:36:01 責(zé)編：夢(mèng)澤

評(píng)論：

圖像生成領(lǐng)域，看來又要變天了。

就在剛剛，OpenAI 開源了比擴(kuò)散模型更快、性能更好的一致性模型：

無需對(duì)抗訓(xùn)練，就能生成高質(zhì)量圖片！

這個(gè)重磅消息一經(jīng)發(fā)出，立刻引爆學(xué)術(shù)圈。

OpenAI 新生成模型開源炸場(chǎng)，比 Diffusion 更快更強(qiáng)，清華校友宋飏一作

雖說論文本身在 3 月份就已低調(diào)發(fā)布，但當(dāng)時(shí)大伙兒普遍認(rèn)為它只是個(gè) OpenAI 的前沿研究，并不會(huì)真正將細(xì)節(jié)公開。

OpenAI 新生成模型開源炸場(chǎng)，比 Diffusion 更快更強(qiáng)，清華校友宋飏一作

沒想到這次直接來了個(gè)開源。有網(wǎng)友立刻上手實(shí)測(cè)了一波效果，發(fā)現(xiàn)只需要 3.5 秒左右就能生成 64 張左右 256×256 的圖像：

游戲結(jié)束！

OpenAI 新生成模型開源炸場(chǎng)，比 Diffusion 更快更強(qiáng)，清華校友宋飏一作

這是這位網(wǎng)友生成的圖像效果，看起來還不錯(cuò)：

OpenAI 新生成模型開源炸場(chǎng)，比 Diffusion 更快更強(qiáng)，清華校友宋飏一作

還有網(wǎng)友調(diào)侃稱：這次 OpenAI 終于 Open 了！

OpenAI 新生成模型開源炸場(chǎng)，比 Diffusion 更快更強(qiáng)，清華校友宋飏一作

值得一提的是，論文一作 OpenAI 科學(xué)家宋飏，是一位清華校友，16 歲就通過領(lǐng)軍計(jì)劃進(jìn)入清華數(shù)理基礎(chǔ)科學(xué)班求學(xué)。

一起來看看這次 OpenAI 開源了一項(xiàng)怎樣的研究。

開源了一個(gè)怎樣的重磅研究？

作為一個(gè)圖像生成 AI，一致性模型（Consistency Model）最大的特點(diǎn)在于快又好。

相比擴(kuò)散模型，它主要有兩大優(yōu)勢(shì)：

其一，無需對(duì)抗訓(xùn)練（adversarial training），就能直接生成高質(zhì)量的圖像樣本。

其二，相比擴(kuò)散模型可能需要幾百甚至上千次迭代，一致性模型只需要一兩步就能搞定多種圖像任務(wù) ——

包括上色、去噪、超分等，都可以在幾步之內(nèi)搞定，而不需要對(duì)這些任務(wù)進(jìn)行明確訓(xùn)練。（當(dāng)然，如果進(jìn)行少樣本學(xué)習(xí)的話，生成效果也會(huì)更好）

OpenAI 新生成模型開源炸場(chǎng)，比 Diffusion 更快更強(qiáng)，清華校友宋飏一作

所以一致性模型究竟是如何實(shí)現(xiàn)這種效果的？

從原理來看，一致性模型的誕生與 ODE（常微分方程）式生成擴(kuò)散模型有關(guān)。

圖中可見，ODE 會(huì)先一步步將圖片數(shù)據(jù)轉(zhuǎn)換成噪聲，隨后再進(jìn)行一個(gè)逆向求解，從噪聲中學(xué)習(xí)生成圖像。

而就在這個(gè)過程中，作者們?cè)噲D將 ODE 軌跡上的任何點(diǎn)（如 Xt、Xt 和 Xr）映射到它的原點(diǎn)（如 X0）進(jìn)行生成建模。

隨后，這個(gè)映射的模型被命名為一致性模型，因?yàn)樗鼈兊妮敵龆际峭卉壽E上的同一點(diǎn)：

OpenAI 新生成模型開源炸場(chǎng)，比 Diffusion 更快更強(qiáng)，清華校友宋飏一作

基于這種思路，一致性模型不需要再經(jīng)過漫長(zhǎng)的迭代，才能生成一個(gè)相對(duì)質(zhì)量比較高的圖像，而是能做到一步生成。

下圖是一致性模型（CD）和擴(kuò)散模型（PD）在圖像生成指標(biāo) FID 上的對(duì)比。

其中，PD 是去年斯坦福和谷歌大腦提出的一種最新擴(kuò)散模型方法漸進(jìn)式蒸餾（progressive distillation）的簡(jiǎn)稱，CD（consistency distillation）則是一致性蒸餾方法。

可以看出，幾乎在所有數(shù)據(jù)集上，一致性模型的圖像生成效果都要比擴(kuò)散模型更好，唯一的例外是 256×256 的房間數(shù)據(jù)集上：

OpenAI 新生成模型開源炸場(chǎng)，比 Diffusion 更快更強(qiáng)，清華校友宋飏一作

除此之外，作者們也將擴(kuò)散模型、一致性模型和 GAN 等模型在其他各種數(shù)據(jù)集上進(jìn)行了對(duì)比：

OpenAI 新生成模型開源炸場(chǎng)，比 Diffusion 更快更強(qiáng)，清華校友宋飏一作

不過也有網(wǎng)友提到，這次開源的 AI 一致性模型，能生成的圖像還是太小：

很難過，這次開源的版本生成的圖像還是太小了，要是能給出生成更大圖像的開源版本，肯定會(huì)非常讓人興奮。

OpenAI 新生成模型開源炸場(chǎng)，比 Diffusion 更快更強(qiáng)，清華校友宋飏一作

也有網(wǎng)友猜測(cè)，可能只是 OpenAI 還沒訓(xùn)練出來。不過可能訓(xùn)練出來了我們也不一定能搞到代碼（手動(dòng)狗頭）。

不過對(duì)于這項(xiàng)工作的意義，TechCrunch 表示：

你若是有一堆 GPU，那用擴(kuò)散模型在一兩分鐘內(nèi)迭代 1500 多次，生成圖片的效果當(dāng)然是極好的。
但如果你想在手機(jī)上或者聊天對(duì)話的時(shí)候?qū)崟r(shí)生成圖片，那顯然擴(kuò)散模型不是最好的選擇。
一致性模型是 OpenAI 下一個(gè)重要?jiǎng)幼鳌?/p>

期待 OpenAI 會(huì)開源一波分辨率更高的圖像生成 AI~

清華校友宋飏一作

論文一作宋飏，目前是 OpenAI 的研究科學(xué)家。

OpenAI 新生成模型開源炸場(chǎng)，比 Diffusion 更快更強(qiáng)，清華校友宋飏一作

他 14 歲時(shí)，曾以 17 位評(píng)委全票通過的成績(jī)，入選“清華大學(xué)新百年領(lǐng)軍計(jì)劃”。在次年高考中，他又成為連云港市理科狀元，順利考入清華。

2016 年，宋飏從清華大學(xué)數(shù)理基礎(chǔ)科學(xué)班畢業(yè)，此后赴斯坦福深造。2022 年，宋飏獲斯坦福計(jì)算機(jī)科學(xué)博士學(xué)位，而后加入 OpenAI。

在博士期間，他的一作論文“Score-Based Generative Modeling through Stochastic Differential Equations”還獲得過 ICLR 2021 的杰出論文獎(jiǎng)。

OpenAI 新生成模型開源炸場(chǎng)，比 Diffusion 更快更強(qiáng)，清華校友宋飏一作

根據(jù)其個(gè)人主頁信息，從 2024 年 1 月開始，宋飏將正式加入加州理工學(xué)院電子系和計(jì)算數(shù)學(xué)科學(xué)系，擔(dān)任助理教授。

項(xiàng)目地址：

https://github.com/openai/consistency_models

論文地址：

https://arxiv.org/abs/2303.01469

參考鏈接：

[1]https://twitter.com/alfredplpl/status/1646217811898011648
[2]https://twitter.com/_akhaliq/status/1646168119658831874

本文來自微信公眾號(hào)：量子位（ID：QbitAI），作者：金磊魚羊蕭簫

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

OpenAI 新生成模型開源炸場(chǎng)，比 Diffusion 更快更強(qiáng)，清華校友宋飏一作

開源了一個(gè)怎樣的重磅研究？

清華校友宋飏一作

相關(guān)文章

OpenAI 新生成模型開源炸場(chǎng)，比 Diffusion 更快更強(qiáng)，清華校友宋飏一作

開源了一個(gè)怎樣的重磅研究？