設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

英偉達(dá) AI 模型可實時用文字 P 圖:輸入單詞或短語,可立刻輸出逼真的照片(附在線 Demo,可試玩)

量子位 2021/11/23 15:34:00 責(zé)編:江離

在“一句話生成照片”這件事上,英偉達(dá)又一次突破了大伙的想象力。

他們最新的 AI 模型 GauGAN2,不僅能根據(jù)字詞生成逼真風(fēng)景照,還能實時用文字 P 圖。

輸入一句“海浪擊打岸邊石”,立刻輸出一張逼真照片:

從單詞到短語,這只 AI 全都能 get!

那感覺,簡直是要山得山,要水得水:

要是覺得哪部分你不喜歡,直接打字就能“P 圖”:

上面這些效果,都是英偉達(dá)這個叫做“GauGAN2”的模型做出來的,而它的“完整版”功能,還遠(yuǎn)不止這些。

從草圖到文字,都能生成風(fēng)景照

GauGAN2 的繪制模式,一共分為三種。

第一種,打字生成圖片。

我們先試了一下單個詞組,“陽光(sunshine)”,生成如下圖片:

加上限定詞 in the forest 后,AI 立刻就將場景換到了樹林里,變成光灑在樹林中的場景:

再多來點限定詞也沒問題。

像“冬日樹林中的陽光”,輸入 in winter 后,眼前本來郁郁蔥蔥的樹林立刻“全禿了”,換成了雪景下的一幕:

這效果,u1s1(有一說一)確實不錯。

還能輸出不同 style 的風(fēng)景圖,例如輸入“大山(mountain)”一詞,立刻要山有山,還能給你換不同風(fēng)格:

當(dāng)然,這些不同的風(fēng)景照也都能繼續(xù)生成新細(xì)節(jié),在 mountain 后加上“beside a river”就能生成山水:

第二種,“打字 P 圖”,直接用文字編輯部分圖像。

只需要把想替換掉的部分圈出來,輸入你想要的東西,就能立刻造出各種新穎的風(fēng)景圖:

嗯…… 英偉達(dá)給出的這個 demo,思路也是非常清奇了,“浮在空中的城堡”:

第三種,用涂鴉生成風(fēng)景照。

這是上一代 GauGAN2(2019 年英偉達(dá)推出的 GauGAN)的看家本領(lǐng)。

例如,要是想實現(xiàn)下面這樣的“一片天空兩個太陽”,就完全可以在通過文本生成的圖像上,自己手動再加一個。

這幾種玩法疊加在一起,簡直讓網(wǎng)友們腦洞大開。

像外媒 ZDNet 就惡搞出來了一種神奇的玩法,在已有的風(fēng)景上畫個人頭:

然后讓 GauGAN2 根據(jù)已有的畫面,再重新生成圖畫,就會得到如下“人頭海島”的神奇景觀:

不過這可能也對個人畫技有所要求,在我們的靈魂畫風(fēng)下,效果看上去就有些…… 不太聰明的亞子。

那么,生成這一系列風(fēng)景照的 GauGAN2,背后究竟用了什么原理?

它與 OpenAI 今年發(fā)布的 DALL?E 和 CLIP,又究竟有什么區(qū)別?

與 DALL?E 有什么不同?

2019 年,英偉達(dá) GauGAN2 的“前身”GauGAN 正式開源。

當(dāng)時的它,還只擁有其中一個能力,就是將涂鴉直接變成風(fēng)景畫,就像「神筆馬良」一樣,還推出了對應(yīng)的軟件 Canvas:

當(dāng)然,這時 GauGAN 已經(jīng)能隨意改變畫面風(fēng)格了,從白天黑夜到春夏秋冬的氣質(zhì)都能穩(wěn)穩(wěn)“拿捏”:

據(jù)英偉達(dá)介紹,GauGAN 采用了一種基于空間適應(yīng)標(biāo)準(zhǔn)化(SPADE)算法。

SPADE 算法不僅使用隨機的輸入圖像,還采用了一種被稱作“分割圖”的圖像。在分割圖中,每一個像素都會被歸類,來生成更接近于真實的圖像,這種模式被稱作“圖對圖翻譯”。

▲ GauGAN 的技能點(狗頭)

現(xiàn)在,英偉達(dá)將 GauGAN 升級成了 GauGAN2,后者一共采用了 1000 萬張高質(zhì)量的圖片、在英偉達(dá) Selene 超算上進行訓(xùn)練,這臺超算在 Green500 排行榜上排到世界第二。

生成這些風(fēng)景畫的效果和“手法”,是不是感覺有點熟悉?

沒錯,大多數(shù)人看到 GauGAN2 的第一眼,可能都會覺得它和 OpenAI 的 DALL?E+CLIP 有點像。

今年年初,OpenAI 用 DALL?E 和 CLIP 兩個模型,做了個“圖像版”GPT-3,同樣能用一句話生成圖片。

不過,這兩個模型生成的內(nèi)容其實不太一樣。

GauGAN2 專注于生成風(fēng)景照,DALL?E+CLIP 則更多地生成具體的物體,例如一把椅子或者一個鬧鐘等。

這與它們的原理差異也有關(guān)系,GauGAN2 更加注重“單詞與視覺效果”之間的關(guān)系,例如“冬天”這種模糊的狀態(tài)詞給照片帶來的效果;DALL?E+CLIP 則更注重“文字-圖像”這種有明確對應(yīng)關(guān)系的物體效果。

據(jù)英偉達(dá)介紹,GauGAN2 不同于“文本-圖像”和“分割圖像-圖像”一類的模型,它所能產(chǎn)生的照片種類更多,質(zhì)量也會更高。

不過,偶爾也會出現(xiàn)點 bug…

比如給出“沙灘(beach)”一詞后,有些生成的畫面中出現(xiàn)了語言無法描述的事物。

對此,英偉達(dá)表示,他們在訓(xùn)練中“完全沒有用到任何人像照片”。(所以可能是偶然?)

但這樣一來,網(wǎng)友想要的“瑞克搖(Rick roll)”和“鬼畜視頻生成”,GauGAN2 大概也是沒辦法實現(xiàn)了。

但是能生成仿佛夢境中才能見到的畫面,也吸引了不少人來試玩。

這不,有人就曬出了自己生成的抽象畫大作,并表示自己非常喜歡這個模型:

還有人表示,GauGAN2 給出了一些建筑設(shè)計的新 idea 啊。

也有網(wǎng)友覺得這種能夠自動生成景觀的功能,未來 Adobe 可能也會用上。

或許就是下一個畫手利器?

最后,GauGAN2 在瀏覽器上就能試玩,歡迎大家留言討論自己的體驗感受。

GauGAN2 試玩 Demo 地址:點此直達(dá)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,P圖,GAN

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知