首頁

設(shè)置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

訂閱

軟媒應(yīng)用

App客戶端
要知App
軟媒魔方

首頁 > 科學(xué)探索>科技前沿

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

量子位 2023/5/22 11:45:00 責(zé)編：夢澤

評論：

這兩天，一段 AI 修圖視頻在國內(nèi)外社交媒體上傳瘋了。

不僅直接躥升B站關(guān)鍵詞聯(lián)想搜索第一，視頻播放上百萬，微博推特也是火得一塌糊涂，轉(zhuǎn)發(fā)者紛紛直呼“PS 已死”。

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

怎么回事？

原來，現(xiàn)在 P 圖真的只需要“輕輕點兩下”，AI 就能徹底理解你的想法！

小到豎起狗子的耳朵：

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

大到讓整只狗子蹲下來，甚至讓馬岔開腿“跑跑步”，都只需要設(shè)置一個起始點和結(jié)束點，外加拽一拽就能搞定：

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

不止是動物的調(diào)整，連像汽車這樣的“非生物”，也能一鍵拉升底座，甚至升級成“加長豪華車”：

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

這還只是 AI 修圖的“基操”。

要是想對圖像實現(xiàn)更精準(zhǔn)的控制，只需畫個圈給指定區(qū)域“涂白”，就能讓狗子轉(zhuǎn)個頭看向你：

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

或是讓照片中的小姐姐“眨眨眼”：

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

甚至是讓獅子張大嘴，連牙齒都不需要作為素材放入，AI 自動就能給它“安上”：

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

如此“有手就能做”的修圖神器，來自一個 MIT、谷歌、馬普所等機構(gòu)聯(lián)手打造的 DragGAN 新模型，論文已入選 SIGGRAPH 2023。

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

沒錯，在擴散模型獨領(lǐng)風(fēng)騷的時代，竟然還能有人把 GAN 玩出新花樣！

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

目前這個項目在 GitHub 上已經(jīng)有 5k+ Star，熱度還在不斷上漲中（盡管一行代碼還沒發(fā)）。

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

所以，DragGAN 模型究竟長啥樣？它又如何實現(xiàn)上述“神一般的操作”？

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

拽一拽關(guān)鍵點，就能修改圖像細(xì)節(jié)

這個名叫 DragGAN 的模型，本質(zhì)上是為各種 GAN 開發(fā)的一種交互式圖像操作方法。

論文以 StyleGAN2 架構(gòu)為基礎(chǔ)，實現(xiàn)了點點鼠標(biāo)、拽一拽關(guān)鍵點就能 P 圖的效果。

具體而言，給定 StyleGAN2 生成的一張圖像，用戶只需要設(shè)置幾個控制點（紅點）和目標(biāo)點（藍(lán)點），以及圈出將要移動的區(qū)域（比如狗轉(zhuǎn)頭，就圈狗頭）。

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

然后模型就將迭代執(zhí)行運動監(jiān)督和點跟蹤這兩個步驟，其中運動監(jiān)督會驅(qū)動紅色的控制點向藍(lán)色的目標(biāo)點移動，點跟蹤則用于更新控制點來跟蹤圖像中的被修改對象。

這個過程一直持續(xù)到控制點到達(dá)它們對應(yīng)的目標(biāo)點。

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

不錯，運動監(jiān)督和點跟蹤就是我們今天要講的重點，它是 DragGAN 模型中最主要的兩個組件。

先說運動監(jiān)督。在此之前，業(yè)界還沒有太多關(guān)于如何監(jiān)督 GAN 生成圖像的點運動的研究。

在這項研究中，作者提出了一種不依賴于任何額外神經(jīng)網(wǎng)絡(luò)的運動監(jiān)督損失（loss）。

其關(guān)鍵思想是，生成器的中間特征具有很強的鑒別能力，因此一個簡單的損失就足以監(jiān)督運動。

所以，DragGAN 的運動監(jiān)督是通過生成器特征圖上的偏移補丁損失（shifted patch loss）來實現(xiàn)的。

如下圖所示，要移動控制點 p 到目標(biāo)點 t，就要監(jiān)督 p 點周圍的一小塊 patch（紅圈）向前移動的一小步（藍(lán)圈）。

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

再看點跟蹤。

先前的運動監(jiān)督會產(chǎn)生一個新的 latent code、一個新特征圖和新圖像。

由于運動監(jiān)督步驟不容易提供控制點的精確新位置，因此我們的目標(biāo)是更新每個手柄點 p 使其跟蹤上對象上的對應(yīng)點。

此前，點跟蹤通常通過光流估計模型或粒子視頻方法實現(xiàn)。

但同樣，這些額外的模型可能會嚴(yán)重影響效率，并且在 GAN 模型中存在偽影的情況下可能使模型遭受累積誤差。

因此，作者提供了一種新方法，該方法通過最近鄰檢索在相同的特征空間上進行點跟蹤。

而這主要是因為 GAN 模型的判別特征可以很好地捕捉到密集對應(yīng)關(guān)系。

基于這以上兩大組件，DragGAN 就能通過精確控制像素的位置，來操縱不同類別的對象完成姿勢、形狀、布局等方面的變形。

作者表示，由于這些變形都是在 GAN 學(xué)習(xí)的圖像流形上進行的，它遵從底層的目標(biāo)結(jié)構(gòu)，因此面對一些復(fù)雜的任務(wù)（比如有遮擋），DragGAN 也能產(chǎn)生逼真的輸出。

單張 3090 幾秒鐘出圖

所以，要實現(xiàn)幾秒鐘“精準(zhǔn)控圖”的效果，是否需要巨大的算力？

nonono。大部分情況下，每一步拖拽修圖，單張 RTX 3090 GPU 在數(shù)秒鐘內(nèi)就能搞定。

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

具體到生成圖像的效果上，實際評估（均方誤差 MSE、感知損失 LPIPS）也超越了一系列類似的“AI 修圖”模型，包括 RAFT 和 PIPs 等等：

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

如果說文字的還不太直觀，具體到視覺效果上就能感受到差異了：

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

值得一提的是，DragGAN 的“潛力”還不止于此。

一方面，如果增加關(guān)鍵點的數(shù)量，還能實現(xiàn)更加精細(xì)的 AI 修圖效果，用在人臉這類對修圖要求比較嚴(yán)格的照片上，也是完全沒問題：

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

另一方面，不止開頭展示的人物和動物，放在汽車、細(xì)胞、風(fēng)景和天氣等不同類型的圖像上，DragGAN 也都能精修搞定。

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

除了不同的照片類型，從站到坐、從直立到跑步、從跨站到并腿站立這種姿勢變動較大的圖像，也能通過 DragGAN 實現(xiàn)：

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

也難怪網(wǎng)友會調(diào)侃“遠(yuǎn)古的 PS 段子成真”，把大象轉(zhuǎn)個身這種甲方需求也能實現(xiàn)了。

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

不過，也有網(wǎng)友指出了 DragGAN 目前面臨的一些問題。

例如，由于它是基于 StyleGAN2 生成的圖像進行 P 圖的，而后者訓(xùn)練成本很高，因此距離真正商業(yè)落地可能還有一段距離。

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

除此之外，在論文中提到的“單卡幾秒鐘修圖”的效果，主要還是基于 256×256 分辨率圖像：

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

至于模型是否能擴展到 256×256 以外圖像，生成的效果又是如何，都還是未知數(shù)。

有網(wǎng)友表示“至少高分辨率圖像從生成時間來看，肯定還要更長”。

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

實際上手的效果究竟如何，我們可以等 6 月論文代碼開源后，一測見真章。

團隊介紹

DragGAN 的作者一共 6 位，分別來自馬克斯?普朗克計算機科學(xué)研究，薩爾布呂肯視覺計算、交互與 AI 研究中心，MIT，賓夕法尼亞大學(xué)和谷歌 AR / VR 部門。

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

其中包括兩位華人：

一作潘新鋼，他本科畢業(yè)于清華大學(xué)（2016 年），博士畢業(yè)于香港中文大學(xué)（2021 年），師從湯曉鷗教授。

現(xiàn)在是馬普計算機科學(xué)研究所的博士后，今年 6 月，他將進入南洋理工大學(xué)擔(dān)任助理教授（正在招收博士學(xué)生）。

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

另一位是 Liu Lingjie，香港大學(xué)博士畢業(yè)（2019 年），后在馬普信息學(xué)研究所做博士后研究，現(xiàn)在是賓夕法尼亞大學(xué)助理教授（也在招學(xué)生），領(lǐng)導(dǎo)該校計算機圖形實驗室，也是通用機器人、自動化、傳感與感知 (GRASP) 實驗室成員。

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

值得一提的是，為了展示 DragGAN 的可控性，一作還親自上陣，演示了生發(fā)、瘦臉和露齒笑的三連 P 圖效果：

讓 GAN 再次偉大，拽一拽關(guān)鍵點就能讓獅子張嘴 & 大象轉(zhuǎn)身，湯曉鷗弟子的 DragGAN 爆火，網(wǎng)友：R.I.P. Photoshop

是時候給自己的主頁照片“修修圖”了（手動狗頭）。

論文地址：

https://vcai.mpi-inf.mpg.de/projects/DragGAN/data/paper.pdf

項目地址（代碼 6 月開源）：

https://github.com/XingangPan/DragGAN

參考鏈接：

[1]https://weibo.com/1727858283/N1iKl4zVG
[2]https://twitter.com/_akhaliq/status/1659424744490377217
[3]https://twitter.com/mrgreen/status/1659482594516377601

本文來自微信公眾號：量子位（ID：QbitAI），作者：豐色蕭簫

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

相關(guān)文章

關(guān)鍵詞：人工智能，GAN

軟媒旗下網(wǎng)站： IT之家最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件： 軟媒手機APP應(yīng)用魔方最會買要知