開源、免費的 Stable Diffusion 就能達到 Midjourney 水平!
自從 Midjourney 發(fā)布 v5 之后,在生成圖像的人物真實程度、手指細節(jié)等方面都有了顯著改善,并且在 prompt 理解的準確性、審美多樣性和語言理解方面也都取得了進步。
相比之下,Stable Diffusion 雖然免費、開源,但每次都要寫一大長串的 prompt,想生成高質(zhì)量的圖像全靠多次抽卡。
最近 Stability AI 的官宣,正在研發(fā)的 Stable Diffusion XL 開始面向公眾測試,目前可以在 Clipdrop 平臺免費試用。
Stability AI 的創(chuàng)始人兼首席執(zhí)行官 Emad Mostaque 表示,目前該模型仍然處于訓練階段,等參數(shù)穩(wěn)定后將會開源;SD-XL 在「握手」等圖像細節(jié)方面會表現(xiàn)更好,幾乎完全可控。
Stable Diffusion XL 也并不是最終發(fā)布版的名字,并且也并非是 v3,因為 SD-XL 的架構和 SD-v2 系列的模型架構非常相似。
Minimalistic home gym with rubber flooring, wall-mounted TV, weight bench, medicine ball, dumbbells, yoga mats, high-tech equipment, high detail, organized and efficient.
簡約的家庭健身房,橡膠地板,壁掛式電視,舉重凳,藥球,啞鈴,瑜伽墊,高科技設備,高細節(jié),組織和效率
下面幾張 SD-XL 官方發(fā)布的例圖,可以看出圖像的質(zhì)量已經(jīng)非常能打了。
不過有時候 less 并不代表 more,有網(wǎng)友認為 SD-XL 為了擺脫「糟糕的品味」,設定了太多的規(guī)則,定制化空間越來越小,不符合大多數(shù)人的喜好。目前 v1.5 的 Stable Diffusion 仍然是社區(qū)內(nèi)最流行的基座模型。
網(wǎng)友表示希望新版 SD 能夠和 SD 2.1 版本的嵌入、hypernetworkds 和 Lora 模型保持兼容,再從零開始重訓的話就太難受了。
也有網(wǎng)友認為,SD-XL 的表現(xiàn)和 civit 網(wǎng)站上網(wǎng)友分享的模型差不多,新模型的效果也并不是特別驚艷,也就是平均水平。
SD-XL:開源版 Midjourney
關于 Stable Diffusion XL 模型的具體信息,官方并沒有透露太多,目前只知道是一個與 v2 模型架構相似、但規(guī)模和參數(shù)量更大的模型。
SD-v2.1 包括 9 億參數(shù),SD-XL 大約有 23 億參數(shù),Emad 表示正式版可能會額外發(fā)布一個更小的蒸餾版本。
SD-XL 相比之前版本的改進如下:
使用較短的描述性 prompt 即可生成高質(zhì)量圖像
可以生成更貼合 prompt 的圖像
圖像中的人體結構更合理
與 v2.1 和 v1.5 版本 (程度較輕) 相比,SD-XL 生成的圖片更符合大眾審美
負面提示詞(negative prompt)是可選項
生成的肖像圖更逼真
圖像中的文本更清晰
需要注意的是,SD-XL 可能與之前版本的插件不兼容。
清晰可讀的文字
在 v1 系列和 v2.1 版本的 Stable Diffusion 模型中,并不具備在圖片中生成可讀文本的能力。
雖然 SD-XL 生成的文本信息并不總是準確,但確實得到了巨大的提升。
Photo of a woman sitting in a restaurant holding a menu that says “Menu”
一個女人坐在餐館里拿著寫著「Menu」的菜單
Photo of a man holding a sign that says “Stable Diffusion”
一個男人舉著寫著「Stable Diffusion」的牌子
a young female holding a sign that says “Stable Diffusion”,highlights in hair, sitting outside restaurant, brown eyes, wearing a dress, side light
一個年輕的女性舉著一個牌子,上面寫著「Stable Diffusion」,頭發(fā)高亮,坐在餐廳外面,棕色的眼睛,穿著裙子,側燈
更好的人體結構
Stable Diffusion 在生成人體解剖結構方面一直存在諸多問題,多幾條腿、少個胳膊實在是太常見不過的問題,通常需要使用 inpaint 功能進一步對圖像細節(jié)進行修正;或者是使用 ControlNet 的 Open Pose 功能從參考圖像中復制人體的姿態(tài)。
比如說 SD-v1.5 生成瑜伽的圖像,經(jīng)常會出現(xiàn)扭曲的人體。
Photo of a woman in yoga outfit, triangle pose, beach in evening, rim lighting
一個女人的照片在瑜伽服裝,三角形的姿勢,海灘在晚上,邊緣照明
SD-XL 雖然生成的圖像并不完美,不過在人體姿態(tài)方面已經(jīng)有了顯著的進步。
更有美感(more aesthetic)
比如同樣以屋子為主題,SD-XL 可以生成更對稱、視覺效果更好的照片。
SD-XL 在肖像照片上也有顯著改進。
photo shot of a woman
一個女人的照片
更貼合 prompt 的圖像
SD-XL 可以更好地理解輸入的 prompt,并生成更精確的圖像。
比如以 duotone(雙色)為例,SD-v1.5 只會生成黑白圖像,而 SD-XL 則可以生成具有多種顏色的雙色調(diào)圖像。
與 v1 模型相比,理解提示符的能力有所提高。
duotone portrait of a woman
一個女人的雙色調(diào)肖像
因為 SD-XL 同屬 v2 系列模型,所以文本模型尺寸更大,可以比 v1 模型更好地理解提示詞。
比如下面的例子中,v1.5 模型始終無法理解圖像中的兩個主題(機器人和人類),但 SD-XL 模型可以生成正常的圖像(雖然機器人還是不夠 big)。
big robot friend sitting next to a human, ghost in the shell style, anime wallpaper
大機器人朋友坐在人類旁邊攻殼機動隊風格的動漫壁紙
a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background
一個年輕人,頭發(fā)染得很亮,棕色眼睛,穿著白襯衫和藍色牛仔褲,站在海灘上,背景是一座火山
藝術風格
在藝術風格上,SD-XL 并沒有顯著改進,和之前的版本各有千秋。
比如兩個模型以不同的角度生成了 Edward Hopper 風格的圖像。
New York city by Edward Hopper
Edward Hopper 繪制的紐約
Leonid Afmov 的風格中,SD-v1.5 更準確,SD-XL 缺少了不同顏色的筆刷(unmistakable colorful board brushstrokes)。
New York city by Leonid Afremov
Leonid Afemov 繪制的紐約
William-Adolphe Bouguereau 風格中,V1.5 和 SDXL 都可以生成一些類似的內(nèi)容,其中 SD-XL 更接近 Bouguereau 創(chuàng)作的經(jīng)典學院派繪畫,并且面部細節(jié)更多。
Portrait of beautiful woman by William-Adolphe Bouguereau
William-Adolphe Bouguereau 繪制的美女肖像
風格轉(zhuǎn)變問題
在添加一些無關緊要的關鍵字后,模型的風格可能會突然轉(zhuǎn)變。
比如先生成一張照片風格的圖像。
a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background
一個年輕人,頭發(fā)染得很亮,棕色眼睛,穿著白襯衫和藍色牛仔褲,站在海灘上,背景是一座火山
再添加一條黃色的圍巾后,圖像風格就變成了卡通風格。
a young man, highlights in hair, brown eyes, wearing a yellow scarf, in white shirt and blue jean on a beach with a volcano in background
一個年輕人,頭發(fā)染得很亮,棕色的眼睛,圍著黃色的圍巾,穿著白襯衫和藍色牛仔褲,站在一個火山為背景的海灘上
問題的故障可能源于預覽問題,在正式發(fā)布后該問題不知能否得到解決。
參考資料:
https://clipdrop.co/stable-diffusion
本文來自微信公眾號:新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。