圖像生成領(lǐng)域,看來又要變天了。
就在剛剛,OpenAI 開源了比擴(kuò)散模型更快、性能更好的一致性模型:
無需對(duì)抗訓(xùn)練,就能生成高質(zhì)量圖片!
這個(gè)重磅消息一經(jīng)發(fā)出,立刻引爆學(xué)術(shù)圈。
雖說論文本身在 3 月份就已低調(diào)發(fā)布,但當(dāng)時(shí)大伙兒普遍認(rèn)為它只是個(gè) OpenAI 的前沿研究,并不會(huì)真正將細(xì)節(jié)公開。
沒想到這次直接來了個(gè)開源。有網(wǎng)友立刻上手實(shí)測(cè)了一波效果,發(fā)現(xiàn)只需要 3.5 秒左右就能生成 64 張左右 256×256 的圖像:
游戲結(jié)束!
這是這位網(wǎng)友生成的圖像效果,看起來還不錯(cuò):
還有網(wǎng)友調(diào)侃稱:這次 OpenAI 終于 Open 了!
值得一提的是,論文一作 OpenAI 科學(xué)家宋飏,是一位清華校友,16 歲就通過領(lǐng)軍計(jì)劃進(jìn)入清華數(shù)理基礎(chǔ)科學(xué)班求學(xué)。
一起來看看這次 OpenAI 開源了一項(xiàng)怎樣的研究。
開源了一個(gè)怎樣的重磅研究?
作為一個(gè)圖像生成 AI,一致性模型(Consistency Model)最大的特點(diǎn)在于快又好。
相比擴(kuò)散模型,它主要有兩大優(yōu)勢(shì):
其一,無需對(duì)抗訓(xùn)練(adversarial training),就能直接生成高質(zhì)量的圖像樣本。
其二,相比擴(kuò)散模型可能需要幾百甚至上千次迭代,一致性模型只需要一兩步就能搞定多種圖像任務(wù) ——
包括上色、去噪、超分等,都可以在幾步之內(nèi)搞定,而不需要對(duì)這些任務(wù)進(jìn)行明確訓(xùn)練。(當(dāng)然,如果進(jìn)行少樣本學(xué)習(xí)的話,生成效果也會(huì)更好)
所以一致性模型究竟是如何實(shí)現(xiàn)這種效果的?
從原理來看,一致性模型的誕生與 ODE(常微分方程)式生成擴(kuò)散模型有關(guān)。
圖中可見,ODE 會(huì)先一步步將圖片數(shù)據(jù)轉(zhuǎn)換成噪聲,隨后再進(jìn)行一個(gè)逆向求解,從噪聲中學(xué)習(xí)生成圖像。
而就在這個(gè)過程中,作者們?cè)噲D將 ODE 軌跡上的任何點(diǎn)(如 Xt、Xt 和 Xr)映射到它的原點(diǎn)(如 X0)進(jìn)行生成建模。
隨后,這個(gè)映射的模型被命名為一致性模型,因?yàn)樗鼈兊妮敵龆际峭卉壽E上的同一點(diǎn):
基于這種思路,一致性模型不需要再經(jīng)過漫長(zhǎng)的迭代,才能生成一個(gè)相對(duì)質(zhì)量比較高的圖像,而是能做到一步生成。
下圖是一致性模型(CD)和擴(kuò)散模型(PD)在圖像生成指標(biāo) FID 上的對(duì)比。
其中,PD 是去年斯坦福和谷歌大腦提出的一種最新擴(kuò)散模型方法漸進(jìn)式蒸餾(progressive distillation)的簡(jiǎn)稱,CD(consistency distillation)則是一致性蒸餾方法。
可以看出,幾乎在所有數(shù)據(jù)集上,一致性模型的圖像生成效果都要比擴(kuò)散模型更好,唯一的例外是 256×256 的房間數(shù)據(jù)集上:
除此之外,作者們也將擴(kuò)散模型、一致性模型和 GAN 等模型在其他各種數(shù)據(jù)集上進(jìn)行了對(duì)比:
不過也有網(wǎng)友提到,這次開源的 AI 一致性模型,能生成的圖像還是太小:
很難過,這次開源的版本生成的圖像還是太小了,要是能給出生成更大圖像的開源版本,肯定會(huì)非常讓人興奮。
也有網(wǎng)友猜測(cè),可能只是 OpenAI 還沒訓(xùn)練出來。不過可能訓(xùn)練出來了我們也不一定能搞到代碼(手動(dòng)狗頭)。
不過對(duì)于這項(xiàng)工作的意義,TechCrunch 表示:
你若是有一堆 GPU,那用擴(kuò)散模型在一兩分鐘內(nèi)迭代 1500 多次,生成圖片的效果當(dāng)然是極好的。
但如果你想在手機(jī)上或者聊天對(duì)話的時(shí)候?qū)崟r(shí)生成圖片,那顯然擴(kuò)散模型不是最好的選擇。
一致性模型是 OpenAI 下一個(gè)重要?jiǎng)幼鳌?/p>
期待 OpenAI 會(huì)開源一波分辨率更高的圖像生成 AI~
清華校友宋飏一作
論文一作宋飏,目前是 OpenAI 的研究科學(xué)家。
他 14 歲時(shí),曾以 17 位評(píng)委全票通過的成績(jī),入選“清華大學(xué)新百年領(lǐng)軍計(jì)劃”。在次年高考中,他又成為連云港市理科狀元,順利考入清華。
2016 年,宋飏從清華大學(xué)數(shù)理基礎(chǔ)科學(xué)班畢業(yè),此后赴斯坦福深造。2022 年,宋飏獲斯坦福計(jì)算機(jī)科學(xué)博士學(xué)位,而后加入 OpenAI。
在博士期間,他的一作論文“Score-Based Generative Modeling through Stochastic Differential Equations”還獲得過 ICLR 2021 的杰出論文獎(jiǎng)。
根據(jù)其個(gè)人主頁信息,從 2024 年 1 月開始,宋飏將正式加入加州理工學(xué)院電子系和計(jì)算數(shù)學(xué)科學(xué)系,擔(dān)任助理教授。
項(xiàng)目地址:
https://github.com/openai/consistency_models
論文地址:
https://arxiv.org/abs/2303.01469
參考鏈接:
[1]https://twitter.com/alfredplpl/status/1646217811898011648
[2]https://twitter.com/_akhaliq/status/1646168119658831874
本文來自微信公眾號(hào):量子位 (ID:QbitAI),作者:金磊 魚羊 蕭簫
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。