【新智元導(dǎo)讀】重磅消息!Stable Diffusion 3,大概率會(huì)在明天開源。距離 2 月 SD3 的橫空出世,已經(jīng)過去了 4 個(gè)月。如果此事為真,生圖圈子第一個(gè)出現(xiàn)開源碾壓閉源的奇景!強(qiáng)大的 MMDiT 全新架構(gòu),將徹底改變 AI 生圖的格局。現(xiàn)在,全體 AI 社區(qū)都在翹首以盼。
萬眾矚目的 Stable Diffusion 3,終于要正式開源了!
幾天前,在 Computex 2024 大會(huì)上,Stability AI 聯(lián)合首席執(zhí)行官 Christian Laforte 正式官宣:SD 3 Medium 將在 6 月 12 日公開發(fā)布。
據(jù)悉,之后還會(huì)開源 4B 和 8B 的版本。
消息一出,網(wǎng)友們就激動(dòng)地奔走相告。
種種跡象表明,SD3 明天的開源應(yīng)該是鐵板釘釘了。
目前,ComfyUI 已經(jīng)提交了對(duì) SD3 支持的版本。
網(wǎng)友表示,如果此事是真的,那可就太瘋狂了,生圖圈子將成第一個(gè)開源碾壓閉源的賽道!
這邊 AI 生圖王者 Midjourney 剛剛放出功能更新,網(wǎng)友們就在評(píng)論區(qū)紛紛留言:SD3 一旦開源,你們就完蛋了。
網(wǎng)友們紛紛搬好板凳,坐等 SD3 的權(quán)重發(fā)布了。
欠債 1 億的獨(dú)角獸,仍堅(jiān)持做開源英雄?
兩個(gè)月前,Stable Diffusion 3 一橫空出世,立刻在人類偏好評(píng)估中斬下 DALL-E 3 和 Midjourney v6,一舉成為該領(lǐng)域的 SOTA。
因?yàn)楣タ肆?AI 圖像生成領(lǐng)域著名的「正確性」測(cè)試,SD3 一時(shí)名聲大噪,引發(fā)了極大熱度。
雖然放出的模型效果驚艷全網(wǎng),但選擇開源也讓公司的收入入不敷出。隨后就是滿身黑歷史的 CEO 跑路、人才出走等負(fù)面事件,讓 Stability AI 這頭獨(dú)角獸的前途風(fēng)雨飄搖,一度陷入欠下 1 億美元的「賣身」傳聞。
在鼎盛時(shí)期的 Stability AI 收到過不少橄欖枝,卻斷然拒絕收購(gòu)。然而虧損超 3000 萬美元、拖欠 1 億美元賬單的事實(shí),揭示了所有開源公司共同的困境 ——
如果選擇將代碼、權(quán)重和產(chǎn)品 API 免費(fèi)開放,即便保留部分高級(jí)功能,也很難吸引到付費(fèi)用戶。
如果在這種情況下,SD3 依然堅(jiān)持開源,叫 Stability AI 一聲「開源英雄」絕不為過。
強(qiáng)大的架構(gòu)、更好的明暗對(duì)比度、提示遵循、訓(xùn)練結(jié)果、模型合并、圖像分辨率……SD3 的開源給我們帶來的貢獻(xiàn)可太多了!
現(xiàn)在,所有人都在翹首以盼。
將對(duì)開源社區(qū)影響重大
Stable Diffusion3 的開源,為何意義如此重大?
在 reddit 的 StableDiffusion 社區(qū),一位網(wǎng)友給出了以下總結(jié),讓我們從非技術(shù)視角,理解 SD3 的重要性,以及對(duì) AI 社區(qū)的重大影響。
作者表示,自己希望能讓外行人都明白,為何 Stable Diffusion 3 如此重要。
曾經(jīng) Stable Diffusion 的開源,就改變了游戲規(guī)則
VAE 是無名英雄
VAE(變分自編碼器)非常特別,因?yàn)樗屘峁┝?16 個(gè)通道的特征和顏色數(shù)據(jù)供我們使用,而之前的模型只有 4 個(gè)通道。
下面的四張圖顯示出,這將產(chǎn)生多大的影響。
Emu 論文地址:https://arxiv.org/pdf/2309.15807
這也就意味著,模型在訓(xùn)練時(shí)會(huì)捕獲更多細(xì)節(jié)。
不僅模型的質(zhì)量會(huì)更好,而且實(shí)際上會(huì)帶來更快的訓(xùn)練速度,從而使主要的 MMDiT 模型(也就是實(shí)現(xiàn)生成的主要模型)能夠更好地捕捉細(xì)節(jié)。
感興趣的讀者可以閱讀下面這篇技術(shù)性解讀:
文章地址:https://huggingface.co/blog/TimothyAlexisVass/explaining-the-sdxl-latent-space#the-8-bit-pixel-space-has-3-channels
與舊的模型相比,新的 16 通道 VAE 在 512x512 分辨率下的表現(xiàn),可以說令人難以置信 —— 即使在較小的圖像尺寸下,通道維度上的特征數(shù)量也足以捕捉到很好的細(xì)節(jié)。
為了更好地說明這一點(diǎn),我們可以用視頻領(lǐng)域的標(biāo)準(zhǔn)來做個(gè)類比 ——
VHS 和 DVD 都是標(biāo)準(zhǔn)定義的 480i / 480p,但 DVD 顯然捕捉到了更多細(xì)節(jié),甚至在硬件和軟件的升頻器上表現(xiàn)也很好。
或者,可以用復(fù)古游戲玩家的說法來類比 ——
復(fù)合視頻線(Composite cables) -> SD1.X 的 VAE
S-Video 線 -> SDXL 的 VAE
組件視頻線(Component cables) -> SD3 的 VAE
因此,將 VAE 應(yīng)用到如今我們的 AI 工作流程中,一切都將變得更加高效。
在視頻生成方面,則可以在低分辨率下訓(xùn)練以適應(yīng)虛擬內(nèi)存(VRAM),然后通過分辨率增強(qiáng)流程來保留細(xì)節(jié)。
我們不需要訓(xùn)練 / 微調(diào)文本編碼器了
眾所周知,訓(xùn)練文本編碼器可以提升基于 SD1.X 模型和 SDXL 模型的性能。
然而在這位網(wǎng)友看來,從長(zhǎng)遠(yuǎn)來看,這其實(shí)是低效的,因?yàn)樵趯?shí)際應(yīng)用中存在大量的微調(diào)和模型合并。
這會(huì)在推理過程中導(dǎo)致大量的重新加權(quán),從而引起混亂,使得在創(chuàng)作過程中捕捉細(xì)節(jié)變得更加困難。
雖然在小規(guī)模應(yīng)用中可以這樣做,但隨著社區(qū)的擴(kuò)大,訓(xùn)練文本編碼器就變得極其繁瑣了。
從技術(shù)角度來看,CLIP 模型本身就很難訓(xùn)練和微調(diào),因此如果嘗試同時(shí)處理三個(gè)模型,可能會(huì)面臨一場(chǎng)艱難的苦斗。
而現(xiàn)在,我們或許根本不需要微調(diào)文本編碼器了!
第一個(gè)原因是,VAE 相比舊模型,捕捉了更多的細(xì)節(jié)。
第二個(gè)原因則是,無論我們使用哪種變體,SD3 都經(jīng)過了適當(dāng)且魯棒的 caption 訓(xùn)練,以捕捉大多數(shù)人認(rèn)為重要的所有細(xì)節(jié)。
在 SD3 中,可以讓新的架構(gòu)和 VAE 為我們捕捉這些細(xì)節(jié),這樣我們就可以更好地利用多個(gè) LoRA 模型,實(shí)現(xiàn)更魯棒的生成。
加速新的 AI 研究
目前,生成式 AI 社區(qū)和 LLM 社區(qū)之間還缺乏一定的協(xié)作。
在這位網(wǎng)友看來,隨著 MMDiT 架構(gòu)更好地與 LLM 社區(qū)對(duì)齊,會(huì)有更多的開發(fā)者進(jìn)入生成式 AI 社區(qū),帶來大量豐富的研究和方法。
這將造成的影響,或許是十分重大的。
此前,LLM 社區(qū)就創(chuàng)建了很多應(yīng)用于生成式 AI 的偉大方法(比如 LoRA 就是從文本建模中派生出來的),然而,由于架構(gòu)之間缺乏互操作性操作性(當(dāng)前 SD 使用的是 UNet,SD3 使用的是 Transformer 塊),會(huì)讓許多人望而卻步。
如果兩個(gè)領(lǐng)域的開發(fā)者和研究者開始合作,擴(kuò)展許多跨領(lǐng)域的多模態(tài)功能,比如文本、圖像、音頻、視頻等,比如會(huì)創(chuàng)造出許多獨(dú)屬于開源社區(qū)的非常棒的體驗(yàn)。
舊方法更加完善
自從 Stable Diffusion 誕生以來,我們可以在眨眼間生成圖像、視頻、音頻,甚至 3D 模型。
如今在谷歌 Scholar 上,關(guān)于 Stable Diffusion 的論文已經(jīng)有 7500 多篇了。
微調(diào)方法、ControlNet、適配器、分段方法等理論,在 SD 上應(yīng)該會(huì)比從前的架構(gòu)表現(xiàn)得更好。
而且因?yàn)榧軜?gòu)簡(jiǎn)單,模型會(huì)變得更易訪問和使用。
事實(shí)上,由于 SD3 的強(qiáng)大圖像-文本對(duì)齊和 VAE,有些方法可能我們?cè)僖膊恍枰恕?/p>
比如在音頻擴(kuò)散、視頻擴(kuò)散和 3D 擴(kuò)散模型領(lǐng)域,就可以在新架構(gòu)上用這些方法訓(xùn)練,進(jìn)一步提高模型的質(zhì)量和魯棒性。
顯然,ControlNets 和適配器會(huì)變得更好,因?yàn)?SD3 實(shí)際上是使用多模態(tài)架構(gòu)構(gòu)建的。
這也就意味著,SD3 在不同模態(tài)之間,會(huì)有更好的關(guān)系理解。
如今我們?cè)跇?gòu)建新方法時(shí),就可以在同一空間內(nèi)利用這些模態(tài),再結(jié)合上更好的文本理解和強(qiáng)大的 VAE,SD3 的前途簡(jiǎn)直不可限量!
CEO「跑路」,開源成謎
趕在 2 月份的時(shí)候,Stable Diffusion 迭代到了第 3 個(gè)版本。
然而僅一個(gè)月的時(shí)間,背后核心團(tuán)隊(duì)卻被曝出集體離職。
更讓人意想不到的是,身為 CEO 的 Emad 也緊跟辭職,退出了董事會(huì)。
顯然,SD3 隨后的開源,也變得迷霧重重。
當(dāng)時(shí),外界的猜測(cè)是,Stability AI 的動(dòng)蕩是 Emad 一手釀成的。
彭博對(duì) 20 位現(xiàn)任前任員工、投資者等采訪了解到,Emad 在治理公司方面缺乏經(jīng)驗(yàn),組織結(jié)構(gòu)混亂。
更有甚者,公司還習(xí)慣性地拖欠工資和稅款。
Emad 近日又成立了一家初創(chuàng)公司 Schelling AI,專注去中心化 AI 系統(tǒng)
其實(shí),在 23 年底,公司內(nèi)部不穩(wěn)定的現(xiàn)象已經(jīng)出現(xiàn)了苗頭。
作為聯(lián)創(chuàng)之一的 Cyrus Hodes 便起訴 Emad 是個(gè)「騙子」。
他指控,在公司進(jìn)行重大融資幾個(gè)月前,Emad 曾誘騙自己以 100 美元價(jià)格出售 15% 股份。
其實(shí),Stability AI 創(chuàng)立之后,便以模型「開源」深受社區(qū)關(guān)注和好評(píng)。
它先后發(fā)布了多款模型「全家桶」,包括語言模型 Stable LM、視頻模型 Stable Video Diffusiion、音頻模型 Stable Audio。
而比起具有里程碑意義的 Stable Diffusion,一代和二代模型系列在開源社區(qū)有 300-400 萬下載量。
在開源背后,需要的是 Stability AI 不斷開啟「燒錢」模式。
但顯然,這種入不敷出的方式,根本無法支撐這家公司持續(xù)性發(fā)展。
前段時(shí)間,Information 爆料稱,Stability AI 第一季度的營(yíng)收不足 500 萬美元。而且,公司虧損超過了 3000 萬美元,還對(duì)外拖欠了近 1 億美元的巨額賬單。
更有傳聞稱,Stability AI 正尋求賣身。
而在 SD3 發(fā)布之后,官方宣布稱在對(duì)齊之后正式開源,結(jié)果等了 3 個(gè)多月,依然只是 API 的開放。
有 Reddit 網(wǎng)友在線發(fā)起了提問,為 Stability AI 尋求賺錢出路,以保證 SD3 能夠順利放出。
20 億參數(shù)版本先上線
好在,ComputeX 大會(huì)上,終于等到了 SD3 的官宣開源。
一些網(wǎng)友紛紛收到了 Stability AI 郵件,即將開源的 SD3 Medium 是一個(gè) 20 億參數(shù)的模型。
不過,有人對(duì)此質(zhì)疑道,「Stability AI 愚弄了所有的人,他們開源的是一個(gè)名為『SD3 Medium』的模型,其實(shí)內(nèi)部還有 Large 和 X-Large 版本還未發(fā)布,這才是人們期待的真正的 SD3」。
關(guān)于更大版本的開源,Stability AI 自家員工表示,40 億、80 億參數(shù)的版本未來都將會(huì)陸續(xù)上線。
Stable Diffusion 3 技術(shù)回顧
SD3 的誕生已經(jīng)在圖像質(zhì)量、多個(gè)對(duì)象、拼寫能力方面,都得到了顯著提升,讓 AI 生圖再創(chuàng)新里程碑。
發(fā)布當(dāng)天,前 CEO Emad 承諾道,SD3 未來將會(huì)開源,目前還在測(cè)試階段。
甚至,它還涌現(xiàn)出了對(duì)物理世界的理解。
緊接著 3 月,Stability AI 公布了新模型最詳實(shí)的技術(shù)報(bào)告。
論文中,首次介紹了 Stable Diffusion 3 背后核心技術(shù) —— 改進(jìn)版的 Diffusion 模型和一個(gè)基于 DiT 的文生圖全新架構(gòu)!
論文地址:https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/ Stable+Diffusion+3+Paper.pdf
與之前的版本對(duì)比,SD3 明顯在圖像質(zhì)量生成上,實(shí)現(xiàn)了很大的改進(jìn),不僅支持多主題提示。
最重要的是,文字拼寫的效果也變好了。
這一切竟是因?yàn)椋浔澈罂蚣艿母倪M(jìn)和創(chuàng)新。
它用上了與 Sora 同樣的 DiT 架構(gòu),靈感來源于紐約大學(xué)助理教授謝賽寧的研究。
而在以前的 Stable Diffusion 版本中,并未采用 Transformer 技術(shù)。
在文生圖的任務(wù)中,SD3 需要同時(shí)考慮文本 + 圖像兩種模態(tài)。
因此,研究者提出了一種全新的架構(gòu),稱為 ——MMDiT(多模態(tài) Diffusion Transformer),專為處理這種多模態(tài)的能力。
具體而言,模型采用了三種不同的文本嵌入模型 —— 兩個(gè) CLIP 模型和一個(gè) T5 ,來處理文本信息。
與此同時(shí),還采用了一個(gè)自編碼模型來編碼圖像 token。
因?yàn)槲谋竞蛨D像嵌入在概念上有很大不同,下圖右中可以看出,研究者對(duì)兩種模態(tài)使用了兩種不同的權(quán)重。
基于這種獨(dú)特的架構(gòu),使得圖像和文本信息之間可以相互流動(dòng)和交互,從而在生成的結(jié)果中提高對(duì)內(nèi)容的整體理解和視覺表現(xiàn)。
而且,這種架構(gòu)未來還可以輕松擴(kuò)展到其他包括視頻在內(nèi)的多種模態(tài)。
實(shí)驗(yàn)評(píng)估中,SD3 在人類偏好評(píng)估中超越了 DALL-E 3 和 Midjourney v6,成為該領(lǐng)域的 SOTA 模型。
而且,SD3 是一個(gè)模型系列,提供了 8 億到 80 億參數(shù)版本,意味著可以在終端設(shè)備可跑,大大降低了 AI 應(yīng)用的門檻。
網(wǎng)友們對(duì)此激動(dòng)不已,紛紛催更他們快速上線。
SD3 開源倒計(jì)時(shí)開啟,接下來坐等上手了。
參考資料:
https://x.com/op7418/status/1800455685068771643
https://x.com/StabilityAI/status/1797462536117444794
https://www.reddit.com/r/StableDiffusion/comments/1d6t0gc/sd3_release_on_june_12/
https://www.reddit.com/r/StableDiffusion/comments/1dcuval/comment/l80v9an/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button
本文來自微信公眾號(hào):新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。