開(kāi)源先鋒 StabilityAI 一天扔了兩枚重磅炸彈:發(fā)布史上首個(gè)開(kāi)源 RLHF 大語(yǔ)言模型,以及像素級(jí)圖像模型 DeepFloyd IF。開(kāi)源社區(qū)狂喜!
最近,大名鼎鼎的 Stable Diffusion 背后的公司,一連整了兩個(gè)大活。
首先,Stability AI 重磅發(fā)布了世上首個(gè)基于 RLHF 的開(kāi)源 LLM 聊天機(jī)器人 ——StableVicuna。
StableVicuna 基于 Vicuna-13B 模型實(shí)現(xiàn),是第一個(gè)使用人類(lèi)反饋訓(xùn)練的大規(guī)模開(kāi)源聊天機(jī)器人。
有網(wǎng)友經(jīng)過(guò)實(shí)測(cè)后表示,StableVicuna 就是目前當(dāng)之無(wú)愧的 13B LLM 之王!
對(duì)此,1x exited 創(chuàng)始人表示,這可以看作是自 ChatGPT 推出以來(lái)的第二個(gè)里程碑。
另外,Stability AI 發(fā)布了開(kāi)源模型 DeepFloyd IF,這個(gè)文本到圖像的級(jí)聯(lián)像素?cái)U(kuò)散模型功能超強(qiáng),可以巧妙地把文本集成到圖像中。
這個(gè)模型的革命性意義在于,它一連解決了文生圖領(lǐng)域的兩大難題:正確生成文字,正確理解空間關(guān)系!
秉持著開(kāi)源的一貫傳統(tǒng),DeepFloyd IF 在以后會(huì)完全開(kāi)源。
Stailibity AI,果然是開(kāi)源界當(dāng)之無(wú)愧的扛把子。
StableVicuna
世上首個(gè)開(kāi)源 RLHF LLM 聊天機(jī)器人 StableVicuna,由 Stability AI 震撼發(fā)布!
一位 Youtube 主播對(duì) Stable Vicuna 進(jìn)行了實(shí)測(cè),Stable Vicuna 在每一次測(cè)試中,都擊敗了前任王者 Vicuna。
所以這位 Youtuber 激動(dòng)地喊出:Stable Vicuna 就是目前最強(qiáng)大的 13B LLM 模型,是當(dāng)之無(wú)愧的 LLM 模型之王!
StableVicuna 基于小羊駝 Vicuna-13B 模型實(shí)現(xiàn),是 Vicuna-13B 的進(jìn)一步指令微調(diào)和 RLHF 訓(xùn)練的版本。
而 Vicuna-13B 是 LLaMA-13B 的一個(gè)指令微調(diào)模型。
從以下基準(zhǔn)測(cè)試可以看出,StableVicuna 與類(lèi)似規(guī)模的開(kāi)源聊天機(jī)器人在整體性能上的比較。
StableVicuna 可以做基礎(chǔ)數(shù)學(xué)題。
可以寫(xiě)代碼。
還能為你講解語(yǔ)法知識(shí)。
開(kāi)源聊天機(jī)器人平替狂潮
Stability AI 想做這樣一個(gè)開(kāi)源的聊天機(jī)器人,當(dāng)然也是受了此前 LLaMa 權(quán)重泄露引爆的 ChatGPT 平替狂潮的影響。
從去年春天 Character.ai 的聊天機(jī)器人,到后來(lái)的 ChatGPT 和 Bard,都引發(fā)了大家對(duì)開(kāi)源平替的強(qiáng)烈興趣。
這些聊天模型的成功,基本都?xì)w功于這兩種訓(xùn)練范式:指令微調(diào)和人類(lèi)反饋強(qiáng)化學(xué)習(xí) (RLHF)。
這期間,開(kāi)發(fā)者一直在努力構(gòu)建開(kāi)源框架幫助訓(xùn)練這些模型,比如 trlX、trl、DeepSpeed Chat 和 ColossalAI 等,然而,卻并沒(méi)有一個(gè)開(kāi)源模型,能夠同時(shí)應(yīng)用指令微調(diào)和 RLHF。
大多數(shù)模型都是在沒(méi)有 RLHF 的情況下進(jìn)行指令微調(diào)的,因?yàn)檫@個(gè)過(guò)程十分復(fù)雜。
最近,Open Assistant、Anthropic 和 Stanford 都開(kāi)始向公眾提供 RLHF 數(shù)據(jù)集。
Stability AI 把這些數(shù)據(jù)集與 trlX 提供的 RLHF 相結(jié)合,就得到了史上第一個(gè)大規(guī)模指令微調(diào)和 RLHF 模型 ——StableVicuna。
訓(xùn)練過(guò)程
為了實(shí)現(xiàn) StableVicuna 的強(qiáng)大性能,研究者利用 Vicuna 作為基礎(chǔ)模型,并遵循了一種典型的三級(jí) RLHF 管線。
Vicuna 在 130 億參數(shù) LLaMA 模型的基礎(chǔ)上,使用 Alpaca 進(jìn)行調(diào)整后得到的。
他們混合了三個(gè)數(shù)據(jù)集,訓(xùn)練出具有監(jiān)督微調(diào) (SFT) 的 Vicuna 基礎(chǔ)模型:
OpenAssistant Conversations Dataset (OASST1),一個(gè)人工生成的、人工注釋的助理式對(duì)話語(yǔ)料庫(kù),包含 161,443 條消息,分布在 66,497 個(gè)對(duì)話樹(shù)中,使用 35 種不同的語(yǔ)言;
GPT4 All Prompt Generations,由 GPT-3.5 Turbo 生成的 437,605 個(gè)提示和響應(yīng)的數(shù)據(jù)集;
Alpaca,這是由 OpenAI 的 text-davinci-003 引擎生成,包含 52,000 條指令和演示的數(shù)據(jù)集。
研究者使用 trlx,訓(xùn)練了一個(gè)獎(jiǎng)勵(lì)模型。在以下這些 RLHF 偏好數(shù)據(jù)集上,研究者得到了 SFT 模型,這是獎(jiǎng)勵(lì)模型的基礎(chǔ)。
OpenAssistant Conversations Dataset (OASST1),包含 7213 個(gè)偏好樣本;
Anthropic HH-RLHF,一個(gè)關(guān)于 AI 助手有用性和無(wú)害性的偏好數(shù)據(jù)集,包含 160,800 個(gè)人類(lèi)標(biāo)簽;
斯坦福人類(lèi)偏好 (SHP),這是一個(gè)數(shù)據(jù)集,包含 348,718 個(gè)人類(lèi)對(duì)各種不同回答的集體偏好,包括 18 個(gè)從烹飪到哲學(xué)的不同學(xué)科領(lǐng)域。
最后,研究者使用了 trlX,進(jìn)行近端策略優(yōu)化 (Proximal Policy Optimization, PPO) 強(qiáng)化學(xué)習(xí),對(duì) SFT 模型進(jìn)行了 RLHF 訓(xùn)練,然后,StableVicuna 就誕生了!
據(jù) Stability AI 稱(chēng),會(huì)進(jìn)一步開(kāi)發(fā) StableVicuna,并且會(huì)很快在 Discord 上推出。
另外,Stability AI 還計(jì)劃給 StableVicuna 一個(gè)聊天界面,目前正在開(kāi)發(fā)中。
相關(guān)演示已經(jīng)可以在 HuggingFace 上查看了,開(kāi)發(fā)者也可以在 Hugging Face 上下載模型的權(quán)重,作為原始 LLaMA 模型的增量。
但如果想使用 StableVicuna,還需要獲得原始 LLaMA 模型的訪問(wèn)權(quán)限。
獲得權(quán)重增量和 LLaMA 權(quán)重后,使用 GitHub 存儲(chǔ)庫(kù)中提供的腳本將它們組合起來(lái),就能得到 StableVicuna-13B 了。不過(guò),也是不允許商用的。
DeepFloyd IF
在同一時(shí)間,Stability AI 還放出了一個(gè)大動(dòng)作。
你敢信,AI 一直無(wú)法正確生成文字這個(gè)老大難問(wèn)題,竟然被解決了?(基本上)
沒(méi)錯(cuò),下面這張「完美」的招牌,就是由 StabilityAI 全新推出的開(kāi)源圖像生成模型 ——DeepFloyd IF 制作的。
除此之外,DeepFloyd IF 還能夠生成正確的空間關(guān)系。
模型剛一發(fā)布,網(wǎng)友們已經(jīng)玩瘋了:
prompt: Robot holding a neon sign that says "I can spell".
不過(guò),對(duì)于 prompt 中沒(méi)有明確說(shuō)明的文字,DeepFloyd IF 大概率還是會(huì)出錯(cuò)。
prompt:A neon sign of an American motel at night with the sign javilop
官方演示
順便一提,在硬件的需求上,如果想要實(shí)現(xiàn)模型所能支持的最大 1,024 x 1,024 像素輸出,建議使用 24GB 的顯存;如果只要 256 x 256 像素,16GB 的顯存即可。
是的,RTX 3060 16G 就能跑。
代碼實(shí)現(xiàn):https://gist.github.com/ Stella2211 / ab17625d63aa03e38d82ddc8c1aae151
開(kāi)源版谷歌 Imagen
2022 年 5 月,谷歌高調(diào)發(fā)布了自家的圖像生成模型 Imagen。
根據(jù)官方演示的效果,Imagen 不僅在質(zhì)量上完勝 OpenAI 最強(qiáng)的 DALL-E 2,更重要的是 —— 它能夠正確地生成文本。
迄今為止,沒(méi)有任何一個(gè)開(kāi)源模型能夠穩(wěn)定地實(shí)現(xiàn)這一功能。
與其他生成式 AI 模型一樣,Imagen 也依賴(lài)于一個(gè)凍結(jié)的文本編碼器:先將文本提示轉(zhuǎn)換為嵌入,然后由擴(kuò)散模型解碼成圖像。但不同的是,Imagen 并沒(méi)有使用多模態(tài)訓(xùn)練的 CLIP,而是使用了大型 T5-XXL 語(yǔ)言模型。
這次,StabilityAI 推出的 DeepFloyd IF 復(fù)刻的正是這一架構(gòu)。
甚至在測(cè)試中,DeepFloyd IF 憑借著 COCO 數(shù)據(jù)集上 6.66 的 zero-shot FID 分?jǐn)?shù),直接超越了谷歌的 Imagen,以及一眾競(jìng)品(包括自家 Stable Diffusion)。
下一代圖像生成 AI 模型
具體來(lái)說(shuō),DeepFloyd IF 是一個(gè)模塊化、級(jí)聯(lián)的像素?cái)U(kuò)散模型。
模塊化:
DeepFloyd IF 由幾個(gè)神經(jīng)模塊組成(可以解決獨(dú)立任務(wù)的神經(jīng)網(wǎng)絡(luò)),它們?cè)谝粋€(gè)架構(gòu)中相互協(xié)同工作。
級(jí)聯(lián):
DeepFloyd IF 以多個(gè)模型級(jí)聯(lián)的方式實(shí)現(xiàn)高分辨率輸出:首先生成一個(gè)低分辨率的樣本,然后通過(guò)連續(xù)的超分辨率模型進(jìn)行上采樣,最終得到高分辨率圖像。
擴(kuò)散:
DeepFloyd IF 的基本模型和超分辨率模型都是擴(kuò)散模型,其中使用馬爾可夫鏈的步驟將隨機(jī)噪聲注入到數(shù)據(jù)中,然后反轉(zhuǎn)該過(guò)程從噪聲中生成新的數(shù)據(jù)樣本。
像素:
DeepFloyd IF 在像素空間工作。與潛在擴(kuò)散模型(如 Stable Diffusion)不同,擴(kuò)散是在像素級(jí)別實(shí)現(xiàn)的,其中使用潛在表征。
上面這個(gè)流程圖展示的就是,DeepFloyd IF 三個(gè)階段的性能:
階段 1:
基本擴(kuò)散模型將定性文本轉(zhuǎn)換為 64x64 圖像。DeepFloyd 團(tuán)隊(duì)已經(jīng)訓(xùn)練了三個(gè)版本的基本模型,每個(gè)版本都有不同的參數(shù):IF-I 400M、IF-I 900M 和 IF-I 4.3B。
階段 2:
為了「放大」圖像,團(tuán)隊(duì)將兩個(gè)文本條件超分辨率模型(Efficient U-Net)應(yīng)用于基本模型的輸出。其中之一將 64x64 圖像放大到 256x256 圖像。同樣,這個(gè)模型也有幾個(gè)版本:IF-II 400M 和 IF-II 1.2B。
階段 3:
應(yīng)用第二個(gè)超分辨率擴(kuò)散模型,生成生動(dòng)的 1024x1024 圖像。最后的第三階段模型 IF-III 擁有 700M 參數(shù)。
值得注意的是,團(tuán)隊(duì)還沒(méi)有正式發(fā)布第三階段的模型,但 DeepFloyd IF 的模塊化特性讓我們可以使用其他上采樣模型 —— 如 Stable Diffusion x4 Upscaler。
團(tuán)隊(duì)表示,這項(xiàng)工作展示了更大的 UNet 架構(gòu)在級(jí)聯(lián)擴(kuò)散模型的第一階段的潛力,從而為文本到圖像合成展示了充滿希望的未來(lái)。
數(shù)據(jù)集訓(xùn)練
DeepFloyd IF 是在一個(gè)定制的高質(zhì)量 LAION-A 數(shù)據(jù)集上進(jìn)行訓(xùn)練的,該數(shù)據(jù)集包含 10 億(圖像,文本)對(duì)。
LAION-A 是 LAION-5B 數(shù)據(jù)集英文部分的一個(gè)子集,基于相似度哈希去重后獲得,對(duì)原始數(shù)據(jù)集進(jìn)行了額外的清理和修改。DeepFloyd 的定制過(guò)濾器用于刪除水印、NSFW 和其他不適當(dāng)?shù)膬?nèi)容。
目前,DeepFloyd IF 模型的許可僅限于非商業(yè)目的的研究,在完成反饋的收集之后,DeepFloyd 和 StabilityAI 團(tuán)隊(duì)將發(fā)布一個(gè)完全免費(fèi)的商業(yè)版本。
參考資料:
https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot
https://stability.ai/blog/deepfloyd-if-text-to-image-model
本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。