首頁(yè) > 科學(xué)探索>科技前沿

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

新智元 2023/5/28 13:57:05 責(zé)編：夢(mèng)澤

評(píng)論：

DragGAN 非官方實(shí)現(xiàn)來(lái)了！完美復(fù)刻拖拽秒 P 圖功能，可以直接上手嘗試。

還記得前幾天發(fā)布的 DragGAN 嗎？

沒(méi)錯(cuò)，就是那個(gè)「輕輕點(diǎn)兩下」1 秒修圖的工具。

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

拍的照片表情不好？修！臉型不夠瘦？修！臉沖鏡頭的角度不對(duì)？修！

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

搞不好，「讓大象轉(zhuǎn)個(gè)身」這個(gè)遠(yuǎn)古 PS 段子，可能就要成真了

這個(gè) AI 修圖工具演示視頻一經(jīng)發(fā)布，瞬間在國(guó)內(nèi)外火得一塌糊涂。

許多網(wǎng)友紛紛直呼，「PS 不存在了」。

還沒(méi)幾天，DragGAN 非官方實(shí)現(xiàn)竟能上手試用了。這一功能已經(jīng)被集成到 InternGPT 中，界面長(zhǎng)這樣 ↓

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

體驗(yàn)地址：https://igpt.opengvlab.com/

沒(méi)想到，演示入口一開(kāi)放，直接被擠爆。

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

官方演示

從官方放出的演示視頻來(lái)看，再現(xiàn)的 DragGAN 效果絕了。

咧嘴笑

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

先是怎么把一個(gè)沒(méi)笑的人 p 笑。只要選中兩個(gè)嘴角，直接 Drag 就好了。

可以看到，最終生成的結(jié)果毫無(wú)違和感。因?yàn)槊娌考∪庖苍谝黄鹱兓?，不是單純的咧嘴?/p>

合上嘴

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

臉部編輯

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

這個(gè)瘦臉功能大家就太熟悉了，選中兩個(gè)臉蛋往里擠，輸出還是非常自然的。

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

男性瘦臉。不過(guò)這個(gè)有點(diǎn)瘦過(guò)了，輸出結(jié)果一眼假，下巴太尖了。

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

這個(gè)必須強(qiáng)推！植發(fā)！多少禿頭人士的福音。

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

不過(guò)從輸出結(jié)果看，就算選中額頭那里，也是全部地方的毛發(fā)等比例增長(zhǎng)，最后的結(jié)果有點(diǎn)像美猴王。

轉(zhuǎn)臉

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

臉部轉(zhuǎn)動(dòng)也是一個(gè)很實(shí)用的功能，補(bǔ)齊的部分非常自然。

其它功能

除了小范圍的修圖，InternGPT 本身還有很多其它可以進(jìn)行的亮眼操作。

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

移除遮蓋的對(duì)象

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

單擊想要在圖片中進(jìn)行操作的部分，在 prompt 中輸入「移除」就可以了。

圖像生成

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

這個(gè)功能比較有意思，先上傳一張圖片，輸入 prompt 讓 DragGAN 分割，然后再輸入一個(gè) prompt 生成想要的圖片。

露出黑腳了？（不是）

視頻高光解說(shuō)

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

用 prompt 還可以一鍵剪輯視頻。

交互式視覺(jué)問(wèn)答

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

甚至識(shí)別完圖片上的信息還能聯(lián)網(wǎng)直接查詢。

交互式圖像生成

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

隨手的涂鴉都能一鍵變成美圖。

反正看完這些功能小編是真震驚了。所有功能就突出兩個(gè)特點(diǎn)：「傻瓜式操作，且究極好用」。

這誰(shuí)能不愛(ài)？

技術(shù)實(shí)現(xiàn)

看了這么多酷炫的功能，那么這個(gè) InternGPT 到底是什么？

InternGPT（簡(jiǎn)稱 iGPT）/InternChat（簡(jiǎn)稱 iChat）是一種基于指向語(yǔ)言驅(qū)動(dòng)的視覺(jué)交互系統(tǒng)，用戶可以通過(guò)點(diǎn)擊、拖動(dòng)和繪制與 ChatGPT 進(jìn)行互動(dòng)。

與依賴純語(yǔ)言的現(xiàn)有交互系統(tǒng)不同，通過(guò)整合指向指令，iGPT 顯著提高了用戶與聊天機(jī)器人之間的溝通效率，以及聊天機(jī)器人在視覺(jué)為中心任務(wù)中的準(zhǔn)確性，尤其在復(fù)雜的視覺(jué)場(chǎng)景中更是如此。

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

論文地址：https://arxiv.org/ pdf / 2305.05662.pdf

下圖就是 InternGPT 的整體架構(gòu)。

我們可以看到，這個(gè) GPT 既可以處理圖像、視頻，也可以處理語(yǔ)音、文字。

對(duì)于圖像或視頻輸入，InternGPT 就會(huì)用 SAM（圖像分割模型）、OCR（圖像識(shí)別模型）等等進(jìn)行處理。

在識(shí)別出地理位置、物品或者線條之后，還有一整個(gè)工具箱進(jìn)行進(jìn)一步處理，其中都是我們耳熟能詳?shù)墓ぞ摺?/p>

比如 BLIP（音頻）、Stable Diffusion（圖像）、Pix2Pix（圖像翻譯）等等。

同樣地，對(duì)于文字或者語(yǔ)音輸入，InternGPT 就會(huì)調(diào)用 GPT-4、LLaMA 等模型或工具進(jìn)行處理，后續(xù)同樣有一整個(gè)工具箱。

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

InternGPT 的整體架構(gòu)

使用提示

而在使用過(guò)程中，整個(gè)流程也是非常方便的。

用戶在圖片上傳成功后，可以發(fā)送如下消息與 iGPT 進(jìn)行多模態(tài)相關(guān)的對(duì)話：

"what is it in the image?" or "what is the background color of image?".

同樣，用戶也可以交互式地操作、編輯或者生成圖片，具體如下：

?點(diǎn)擊圖片上的任意位置，然后按下 Pick 按鈕，預(yù)覽分割區(qū)域。也可以按下 OCR 按鈕，識(shí)別具體位置處存在的所有單詞；

?要在圖像中刪除掩碼區(qū)域，可以發(fā)送如下消息：

“remove the masked region”

?要在圖像中替換掩碼的物體為其他物體，可以發(fā)送如下消息：

“replace the masked region with {your prompt}”

?想生成新圖像，可以發(fā)送如下消息：

“generate a new image based on its segmentation describing {your prompt}”

?想通過(guò)涂鴉創(chuàng)建新圖像，按下 Whiteboard 并在白板上繪制。繪制完成后，需要按下保存按鈕并發(fā)送如下消息：

“generate a new image based on this scribble describing {your prompt}”

網(wǎng)友評(píng)論

那個(gè)令人震驚的 DragGAN 現(xiàn)在有一個(gè)非官方的版本。正式版本將在 6 月發(fā)布，這只是未來(lái)的預(yù)覽。

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

DragGAN 已經(jīng)集成到 InternGPT 了，這么快就出來(lái)了，修圖神器。

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

參考資料：

https://igpt.opengvlab.com/

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN

官方演示

其它功能

技術(shù)實(shí)現(xiàn)

使用提示

網(wǎng)友評(píng)論

相關(guān)文章

大象 P 轉(zhuǎn)身開(kāi)箱即用，港大、南大、清華等搶先開(kāi)源「復(fù)刻」版 DragGAN