DragGAN 非官方實(shí)現(xiàn)來(lái)了!完美復(fù)刻拖拽秒 P 圖功能,可以直接上手嘗試。
還記得前幾天發(fā)布的 DragGAN 嗎?
沒(méi)錯(cuò),就是那個(gè)「輕輕點(diǎn)兩下」1 秒修圖的工具。
這個(gè) AI 修圖工具演示視頻一經(jīng)發(fā)布,瞬間在國(guó)內(nèi)外火得一塌糊涂。
許多網(wǎng)友紛紛直呼,「PS 不存在了」。
還沒(méi)幾天,DragGAN 非官方實(shí)現(xiàn)竟能上手試用了。這一功能已經(jīng)被集成到 InternGPT 中,界面長(zhǎng)這樣 ↓
沒(méi)想到,演示入口一開(kāi)放,直接被擠爆。
官方演示
從官方放出的演示視頻來(lái)看,再現(xiàn)的 DragGAN 效果絕了。
咧嘴笑
先是怎么把一個(gè)沒(méi)笑的人 p 笑。只要選中兩個(gè)嘴角,直接 Drag 就好了。
可以看到,最終生成的結(jié)果毫無(wú)違和感。因?yàn)槊娌考∪庖苍谝黄鹱兓?,不是單純的咧嘴?/p>
合上嘴
臉部編輯
這個(gè)瘦臉功能大家就太熟悉了,選中兩個(gè)臉蛋往里擠,輸出還是非常自然的。
男性瘦臉。不過(guò)這個(gè)有點(diǎn)瘦過(guò)了,輸出結(jié)果一眼假,下巴太尖了。
這個(gè)必須強(qiáng)推!植發(fā)!多少禿頭人士的福音。
不過(guò)從輸出結(jié)果看,就算選中額頭那里,也是全部地方的毛發(fā)等比例增長(zhǎng),最后的結(jié)果有點(diǎn)像美猴王。
轉(zhuǎn)臉
臉部轉(zhuǎn)動(dòng)也是一個(gè)很實(shí)用的功能,補(bǔ)齊的部分非常自然。
其它功能
除了小范圍的修圖,InternGPT 本身還有很多其它可以進(jìn)行的亮眼操作。
移除遮蓋的對(duì)象
單擊想要在圖片中進(jìn)行操作的部分,在 prompt 中輸入「移除」就可以了。
圖像生成
這個(gè)功能比較有意思,先上傳一張圖片,輸入 prompt 讓 DragGAN 分割,然后再輸入一個(gè) prompt 生成想要的圖片。
露出黑腳了?(不是)
視頻高光解說(shuō)
用 prompt 還可以一鍵剪輯視頻。
交互式視覺(jué)問(wèn)答
甚至識(shí)別完圖片上的信息還能聯(lián)網(wǎng)直接查詢。
交互式圖像生成
隨手的涂鴉都能一鍵變成美圖。
反正看完這些功能小編是真震驚了。所有功能就突出兩個(gè)特點(diǎn):「傻瓜式操作,且究極好用」。
這誰(shuí)能不愛(ài)?
技術(shù)實(shí)現(xiàn)
看了這么多酷炫的功能,那么這個(gè) InternGPT 到底是什么?
InternGPT(簡(jiǎn)稱 iGPT)/InternChat(簡(jiǎn)稱 iChat)是一種基于指向語(yǔ)言驅(qū)動(dòng)的視覺(jué)交互系統(tǒng),用戶可以通過(guò)點(diǎn)擊、拖動(dòng)和繪制與 ChatGPT 進(jìn)行互動(dòng)。
與依賴純語(yǔ)言的現(xiàn)有交互系統(tǒng)不同,通過(guò)整合指向指令,iGPT 顯著提高了用戶與聊天機(jī)器人之間的溝通效率,以及聊天機(jī)器人在視覺(jué)為中心任務(wù)中的準(zhǔn)確性,尤其在復(fù)雜的視覺(jué)場(chǎng)景中更是如此。
下圖就是 InternGPT 的整體架構(gòu)。
我們可以看到,這個(gè) GPT 既可以處理圖像、視頻,也可以處理語(yǔ)音、文字。
對(duì)于圖像或視頻輸入,InternGPT 就會(huì)用 SAM(圖像分割模型)、OCR(圖像識(shí)別模型)等等進(jìn)行處理。
在識(shí)別出地理位置、物品或者線條之后,還有一整個(gè)工具箱進(jìn)行進(jìn)一步處理,其中都是我們耳熟能詳?shù)墓ぞ摺?/p>
比如 BLIP(音頻)、Stable Diffusion(圖像)、Pix2Pix(圖像翻譯)等等。
同樣地,對(duì)于文字或者語(yǔ)音輸入,InternGPT 就會(huì)調(diào)用 GPT-4、LLaMA 等模型或工具進(jìn)行處理,后續(xù)同樣有一整個(gè)工具箱。
InternGPT 的整體架構(gòu)
使用提示
而在使用過(guò)程中,整個(gè)流程也是非常方便的。
用戶在圖片上傳成功后,可以發(fā)送如下消息與 iGPT 進(jìn)行多模態(tài)相關(guān)的對(duì)話:
"what is it in the image?" or "what is the background color of image?".
同樣,用戶也可以交互式地操作、編輯或者生成圖片,具體如下:
?點(diǎn)擊圖片上的任意位置,然后按下 Pick 按鈕,預(yù)覽分割區(qū)域。也可以按下 OCR 按鈕,識(shí)別具體位置處存在的所有單詞;
?要在圖像中刪除掩碼區(qū)域,可以發(fā)送如下消息:
“remove the masked region”
?要在圖像中替換掩碼的物體為其他物體,可以發(fā)送如下消息:
“replace the masked region with {your prompt}”
?想生成新圖像,可以發(fā)送如下消息:
“generate a new image based on its segmentation describing {your prompt}”
?想通過(guò)涂鴉創(chuàng)建新圖像,按下 Whiteboard 并在白板上繪制。繪制完成后,需要按下 保存 按鈕并發(fā)送如下消息:
“generate a new image based on this scribble describing {your prompt}”
網(wǎng)友評(píng)論
那個(gè)令人震驚的 DragGAN 現(xiàn)在有一個(gè)非官方的版本。正式版本將在 6 月發(fā)布,這只是未來(lái)的預(yù)覽。
DragGAN 已經(jīng)集成到 InternGPT 了,這么快就出來(lái)了,修圖神器。
參考資料:
https://igpt.opengvlab.com/
本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。