設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Midjourney 危,Stable Diffusion-XL 開啟公測:會畫手、能寫字,再也不用寫長 prompt 了

新智元 2023/4/18 11:45:14 責編:夢澤

開源、免費的 Stable Diffusion 就能達到 Midjourney 水平!

自從 Midjourney 發(fā)布 v5 之后,在生成圖像的人物真實程度、手指細節(jié)等方面都有了顯著改善,并且在 prompt 理解的準確性、審美多樣性和語言理解方面也都取得了進步。

相比之下,Stable Diffusion 雖然免費、開源,但每次都要寫一大長串的 prompt,想生成高質(zhì)量的圖像全靠多次抽卡。

最近 Stability AI 的官宣,正在研發(fā)的 Stable Diffusion XL 開始面向公眾測試,目前可以在 Clipdrop 平臺免費試用。

試用鏈接:https://clipdrop.co/ stable-diffusion

Stability AI 的創(chuàng)始人兼首席執(zhí)行官 Emad Mostaque 表示,目前該模型仍然處于訓練階段,等參數(shù)穩(wěn)定后將會開源;SD-XL 在「握手」等圖像細節(jié)方面會表現(xiàn)更好,幾乎完全可控。

Stable Diffusion XL 也并不是最終發(fā)布版的名字,并且也并非是 v3,因為 SD-XL 的架構和 SD-v2 系列的模型架構非常相似。

Minimalistic home gym with rubber flooring, wall-mounted TV, weight bench, medicine ball, dumbbells, yoga mats, high-tech equipment, high detail, organized and efficient.

簡約的家庭健身房,橡膠地板,壁掛式電視,舉重凳,藥球,啞鈴,瑜伽墊,高科技設備,高細節(jié),組織和效率

下面幾張 SD-XL 官方發(fā)布的例圖,可以看出圖像的質(zhì)量已經(jīng)非常能打了。

不過有時候 less 并不代表 more,有網(wǎng)友認為 SD-XL 為了擺脫「糟糕的品味」,設定了太多的規(guī)則,定制化空間越來越小,不符合大多數(shù)人的喜好。目前 v1.5 的 Stable Diffusion 仍然是社區(qū)內(nèi)最流行的基座模型。

網(wǎng)友表示希望新版 SD 能夠和 SD 2.1 版本的嵌入、hypernetworkds 和 Lora 模型保持兼容,再從零開始重訓的話就太難受了。

也有網(wǎng)友認為,SD-XL 的表現(xiàn)和 civit 網(wǎng)站上網(wǎng)友分享的模型差不多,新模型的效果也并不是特別驚艷,也就是平均水平。

SD-XL:開源版 Midjourney

關于 Stable Diffusion XL 模型的具體信息,官方并沒有透露太多,目前只知道是一個與 v2 模型架構相似、但規(guī)模和參數(shù)量更大的模型。

SD-v2.1 包括 9 億參數(shù),SD-XL 大約有 23 億參數(shù),Emad 表示正式版可能會額外發(fā)布一個更小的蒸餾版本。

SD-XL 相比之前版本的改進如下:

  • 使用較短的描述性 prompt 即可生成高質(zhì)量圖像

  • 可以生成更貼合 prompt 的圖像

  • 圖像中的人體結構更合理

  • 與 v2.1 和 v1.5 版本 (程度較輕) 相比,SD-XL 生成的圖片更符合大眾審美

  • 負面提示詞(negative prompt)是可選項

  • 生成的肖像圖更逼真

  • 圖像中的文本更清晰

需要注意的是,SD-XL 可能與之前版本的插件不兼容。

清晰可讀的文字

在 v1 系列和 v2.1 版本的 Stable Diffusion 模型中,并不具備在圖片中生成可讀文本的能力。

雖然 SD-XL 生成的文本信息并不總是準確,但確實得到了巨大的提升。

Photo of a woman sitting in a restaurant holding a menu that says “Menu”

一個女人坐在餐館里拿著寫著「Menu」的菜單

Photo of a man holding a sign that says “Stable Diffusion”

一個男人舉著寫著「Stable Diffusion」的牌子

a young female holding a sign that says “Stable Diffusion”,highlights in hair, sitting outside restaurant, brown eyes, wearing a dress, side light

一個年輕的女性舉著一個牌子,上面寫著「Stable Diffusion」,頭發(fā)高亮,坐在餐廳外面,棕色的眼睛,穿著裙子,側燈

更好的人體結構

Stable Diffusion 在生成人體解剖結構方面一直存在諸多問題,多幾條腿、少個胳膊實在是太常見不過的問題,通常需要使用 inpaint 功能進一步對圖像細節(jié)進行修正;或者是使用 ControlNet 的 Open Pose 功能從參考圖像中復制人體的姿態(tài)。

比如說 SD-v1.5 生成瑜伽的圖像,經(jīng)常會出現(xiàn)扭曲的人體。

Photo of a woman in yoga outfit, triangle pose, beach in evening, rim lighting

一個女人的照片在瑜伽服裝,三角形的姿勢,海灘在晚上,邊緣照明

SD-XL 雖然生成的圖像并不完美,不過在人體姿態(tài)方面已經(jīng)有了顯著的進步。

更有美感(more aesthetic)

比如同樣以屋子為主題,SD-XL 可以生成更對稱、視覺效果更好的照片。

SD-XL 在肖像照片上也有顯著改進。

photo shot of a woman

一個女人的照片

更貼合 prompt 的圖像

SD-XL 可以更好地理解輸入的 prompt,并生成更精確的圖像。

比如以 duotone(雙色)為例,SD-v1.5 只會生成黑白圖像,而 SD-XL 則可以生成具有多種顏色的雙色調(diào)圖像。

與 v1 模型相比,理解提示符的能力有所提高。

duotone portrait of a woman

一個女人的雙色調(diào)肖像

因為 SD-XL 同屬 v2 系列模型,所以文本模型尺寸更大,可以比 v1 模型更好地理解提示詞。

比如下面的例子中,v1.5 模型始終無法理解圖像中的兩個主題(機器人和人類),但 SD-XL 模型可以生成正常的圖像(雖然機器人還是不夠 big)。

big robot friend sitting next to a human, ghost in the shell style, anime wallpaper

大機器人朋友坐在人類旁邊攻殼機動隊風格的動漫壁紙

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一個年輕人,頭發(fā)染得很亮,棕色眼睛,穿著白襯衫和藍色牛仔褲,站在海灘上,背景是一座火山

藝術風格

在藝術風格上,SD-XL 并沒有顯著改進,和之前的版本各有千秋。

比如兩個模型以不同的角度生成了 Edward Hopper 風格的圖像。

New York city by Edward Hopper

Edward Hopper 繪制的紐約

Leonid Afmov 的風格中,SD-v1.5 更準確,SD-XL 缺少了不同顏色的筆刷(unmistakable colorful board brushstrokes)。

New York city by Leonid Afremov

Leonid Afemov 繪制的紐約

William-Adolphe Bouguereau 風格中,V1.5 和 SDXL 都可以生成一些類似的內(nèi)容,其中 SD-XL 更接近 Bouguereau 創(chuàng)作的經(jīng)典學院派繪畫,并且面部細節(jié)更多。

Portrait of beautiful woman by William-Adolphe Bouguereau

William-Adolphe Bouguereau 繪制的美女肖像

風格轉(zhuǎn)變問題

在添加一些無關緊要的關鍵字后,模型的風格可能會突然轉(zhuǎn)變。

比如先生成一張照片風格的圖像。

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一個年輕人,頭發(fā)染得很亮,棕色眼睛,穿著白襯衫和藍色牛仔褲,站在海灘上,背景是一座火山

再添加一條黃色的圍巾后,圖像風格就變成了卡通風格。

a young man, highlights in hair, brown eyes, wearing a yellow scarf, in white shirt and blue jean on a beach with a volcano in background

一個年輕人,頭發(fā)染得很亮,棕色的眼睛,圍著黃色的圍巾,穿著白襯衫和藍色牛仔褲,站在一個火山為背景的海灘上

問題的故障可能源于預覽問題,在正式發(fā)布后該問題不知能否得到解決。

參考資料:

  • https://clipdrop.co/stable-diffusion

本文來自微信公眾號:新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:Midjourney,Stable Diffusion

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知