首頁

設(shè)置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

訂閱

軟媒應(yīng)用

App客戶端
要知App
軟媒魔方

首頁 > 智能時代>人工智能

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

量子位 2021/11/23 15:34:00 責(zé)編：江離

評論：

在“一句話生成照片”這件事上，英偉達(dá)又一次突破了大伙的想象力。

他們最新的 AI 模型 GauGAN2，不僅能根據(jù)字詞生成逼真風(fēng)景照，還能實時用文字 P 圖。

輸入一句“海浪擊打岸邊石”，立刻輸出一張逼真照片：

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

從單詞到短語，這只 AI 全都能 get！

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

那感覺，簡直是要山得山，要水得水：

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

要是覺得哪部分你不喜歡，直接打字就能“P 圖”：

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

上面這些效果，都是英偉達(dá)這個叫做“GauGAN2”的模型做出來的，而它的“完整版”功能，還遠(yuǎn)不止這些。

從草圖到文字，都能生成風(fēng)景照

GauGAN2 的繪制模式，一共分為三種。

第一種，打字生成圖片。

我們先試了一下單個詞組，“陽光（sunshine）”，生成如下圖片：

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

加上限定詞 in the forest 后，AI 立刻就將場景換到了樹林里，變成光灑在樹林中的場景：

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

再多來點限定詞也沒問題。

像“冬日樹林中的陽光”，輸入 in winter 后，眼前本來郁郁蔥蔥的樹林立刻“全禿了”，換成了雪景下的一幕：

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

這效果，u1s1（有一說一）確實不錯。

還能輸出不同 style 的風(fēng)景圖，例如輸入“大山（mountain）”一詞，立刻要山有山，還能給你換不同風(fēng)格：

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

當(dāng)然，這些不同的風(fēng)景照也都能繼續(xù)生成新細(xì)節(jié)，在 mountain 后加上“beside a river”就能生成山水：

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

第二種，“打字 P 圖”，直接用文字編輯部分圖像。

只需要把想替換掉的部分圈出來，輸入你想要的東西，就能立刻造出各種新穎的風(fēng)景圖：

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

嗯…… 英偉達(dá)給出的這個 demo，思路也是非常清奇了，“浮在空中的城堡”：

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

第三種，用涂鴉生成風(fēng)景照。

這是上一代 GauGAN2（2019 年英偉達(dá)推出的 GauGAN）的看家本領(lǐng)。

例如，要是想實現(xiàn)下面這樣的“一片天空兩個太陽”，就完全可以在通過文本生成的圖像上，自己手動再加一個。

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

這幾種玩法疊加在一起，簡直讓網(wǎng)友們腦洞大開。

像外媒 ZDNet 就惡搞出來了一種神奇的玩法，在已有的風(fēng)景上畫個人頭：

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

然后讓 GauGAN2 根據(jù)已有的畫面，再重新生成圖畫，就會得到如下“人頭海島”的神奇景觀：

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

不過這可能也對個人畫技有所要求，在我們的靈魂畫風(fēng)下，效果看上去就有些…… 不太聰明的亞子。

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

那么，生成這一系列風(fēng)景照的 GauGAN2，背后究竟用了什么原理？

它與 OpenAI 今年發(fā)布的 DALL?E 和 CLIP，又究竟有什么區(qū)別？

與 DALL?E 有什么不同？

2019 年，英偉達(dá) GauGAN2 的“前身”GauGAN 正式開源。

當(dāng)時的它，還只擁有其中一個能力，就是將涂鴉直接變成風(fēng)景畫，就像「神筆馬良」一樣，還推出了對應(yīng)的軟件 Canvas：

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

當(dāng)然，這時 GauGAN 已經(jīng)能隨意改變畫面風(fēng)格了，從白天黑夜到春夏秋冬的氣質(zhì)都能穩(wěn)穩(wěn)“拿捏”：

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

據(jù)英偉達(dá)介紹，GauGAN 采用了一種基于空間適應(yīng)標(biāo)準(zhǔn)化（SPADE）算法。

SPADE 算法不僅使用隨機的輸入圖像，還采用了一種被稱作“分割圖”的圖像。在分割圖中，每一個像素都會被歸類，來生成更接近于真實的圖像，這種模式被稱作“圖對圖翻譯”。

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

▲ GauGAN 的技能點（狗頭）

現(xiàn)在，英偉達(dá)將 GauGAN 升級成了 GauGAN2，后者一共采用了 1000 萬張高質(zhì)量的圖片、在英偉達(dá) Selene 超算上進行訓(xùn)練，這臺超算在 Green500 排行榜上排到世界第二。

生成這些風(fēng)景畫的效果和“手法”，是不是感覺有點熟悉？

沒錯，大多數(shù)人看到 GauGAN2 的第一眼，可能都會覺得它和 OpenAI 的 DALL?E+CLIP 有點像。

今年年初，OpenAI 用 DALL?E 和 CLIP 兩個模型，做了個“圖像版”GPT-3，同樣能用一句話生成圖片。

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

不過，這兩個模型生成的內(nèi)容其實不太一樣。

GauGAN2 專注于生成風(fēng)景照，DALL?E+CLIP 則更多地生成具體的物體，例如一把椅子或者一個鬧鐘等。

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

這與它們的原理差異也有關(guān)系，GauGAN2 更加注重“單詞與視覺效果”之間的關(guān)系，例如“冬天”這種模糊的狀態(tài)詞給照片帶來的效果；DALL?E+CLIP 則更注重“文字-圖像”這種有明確對應(yīng)關(guān)系的物體效果。

據(jù)英偉達(dá)介紹，GauGAN2 不同于“文本-圖像”和“分割圖像-圖像”一類的模型，它所能產(chǎn)生的照片種類更多，質(zhì)量也會更高。

不過，偶爾也會出現(xiàn)點 bug…

比如給出“沙灘（beach）”一詞后，有些生成的畫面中出現(xiàn)了語言無法描述的事物。

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

對此，英偉達(dá)表示，他們在訓(xùn)練中“完全沒有用到任何人像照片”。（所以可能是偶然？）

但這樣一來，網(wǎng)友想要的“瑞克搖（Rick roll）”和“鬼畜視頻生成”，GauGAN2 大概也是沒辦法實現(xiàn)了。

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

但是能生成仿佛夢境中才能見到的畫面，也吸引了不少人來試玩。

這不，有人就曬出了自己生成的抽象畫大作，并表示自己非常喜歡這個模型：

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

還有人表示，GauGAN2 給出了一些建筑設(shè)計的新 idea 啊。

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

也有網(wǎng)友覺得這種能夠自動生成景觀的功能，未來 Adobe 可能也會用上。

或許就是下一個畫手利器？

英偉達(dá) AI 模型可實時用文字 P 圖：輸入單詞或短語，可立刻輸出逼真的照片（附在線 Demo，可試玩）

最后，GauGAN2 在瀏覽器上就能試玩，歡迎大家留言討論自己的體驗感受。

GauGAN2 試玩 Demo 地址：點此直達(dá)

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

相關(guān)文章

關(guān)鍵詞：AI，P圖，GAN

軟媒旗下網(wǎng)站： IT之家最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件： 軟媒手機APP應(yīng)用魔方最會買要知

<span id="cnsmv"><acronym id="cnsmv"><th id="cnsmv"></th></acronym></span>

<pre id="cnsmv"></pre>

<dfn id="cnsmv"><button id="cnsmv"></button></dfn>