首頁 > 科學(xué)探索>科技前沿

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源

量子位 2023/3/24 12:51:02 責編：夢澤

評論：

現(xiàn)在，AI 繪畫完全可以做到指哪打哪了！

這邊哈士奇，那邊牧羊犬，背景在下雪天。

啪嘰！一幅畫就這么完成了。

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源

這個最新 MultiDiffusion 模型，不管選的區(qū)域位置有多離譜，它都能給你畫出指定的東西來。

比如，你能看到大象和奶牛同時握草？？

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源

而且在線可試，親測大概 15 秒就能出，你甚至可以看到泰勒與愛因斯坦跨時空同框。

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源

要知道以前 AI 繪畫最大的一個 bug 就是不可控，但現(xiàn)在人類擁有了更多的控制權(quán)。

總之就是，想畫什么就畫什么，想往哪畫就往哪畫！

有網(wǎng)友趕緊上手試了試：Not Bad！

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源

想往哪畫就往哪畫

從效果來看，主要有三個方面的應(yīng)用。

文本到高分辨率全景生成；
精確區(qū)域生成；
任意長寬比粗略區(qū)域生成。

首先，只需要一句話，就可以生成 512*4609 分辨率的全景圖。

一張有滑雪者的雪山頂峰的照片。

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源

攝影師也不用爬樓了，直接獲得城市夜景圖。

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源

當然更為主體功能，那就是給特定區(qū)域單獨提示，然后 AI 繪畫就來指哪畫哪。

比如在黑色部分是一個明亮的盥洗室，紅色區(qū)域是一面鏡子、藍色部分是花瓶、黃色部分是白色的水槽。

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源

就這么隨手一個拼圖畫，結(jié)果就生成了真實場景。

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源

不過也有一些 bug，像一些超現(xiàn)實的，他就有點太天馬行空了。

比如三體人在宇宙中大戰(zhàn)人類。

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源

當然也可以無需那么精確，只需標個大致位置，還支持任意長寬比的圖像。

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源

藍色部分是埃菲爾鐵塔、紅色是粉色的云、綠色是熱氣球。

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源

關(guān)鍵是各種構(gòu)圖都十分地合理、場景效果以及實際物體相對大小也都十分精準。

圖像生成可控

背后的這個模型叫做 MultiDiffusion，這是一個統(tǒng)一的框架，能實現(xiàn)多功能和可控的圖像生成。

以往即便 Diffusion 模型給圖像生成帶來變革性影響，但用戶對生成圖像的可控性、以對新任務(wù)的快速適應(yīng)仍是不小的挑戰(zhàn)。

研究人員主要是通過重新訓(xùn)練、微調(diào)，或者另外開發(fā)工具等方式來解決。前不久爆火插件 ControlNet 正是解決了圖像生成的可控性，

而 MultiDiffusion 無需進一步訓(xùn)練或微調(diào)，就可一次實現(xiàn)對生成內(nèi)容的多種靈活控制，包括期望的長寬比、空間引導(dǎo)信號等。

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源

簡單來說，MultiDiffusion 的關(guān)鍵在于，在預(yù)先訓(xùn)練好的擴散模型上定義一個全新的生成過程。從噪聲圖像開始，在每個生成步驟中，解決一個優(yōu)化任務(wù)。

然后再將多個擴散生成過程與一組共享的參數(shù)或約束結(jié)合起來，目標是將每個部分都盡可能去接近去噪版本。

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源

即便有時候每個步驟都可能會將圖像拉向不同的方向，但最終融合到一個全局去噪步驟當中，得到一個無縫圖像。

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源

來自魏茨曼科學(xué)研究所

這篇論文主要來自位于以色列雷霍沃特的魏茨曼科學(xué)研究所。

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源

兩位共同一作 Omer Bar-Tal、Lior Yariv 分別是魏茲曼科學(xué)研究院計算機科學(xué)和應(yīng)用數(shù)學(xué)系的研究生和博士生，后兩位分別是他們的導(dǎo)師。

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源

△ 左：Omer Bar-Tal；右：Lior Yariv

好了，感興趣的朋友可戳下方試一試哦！

https://huggingface.co/spaces/weizmannscience/MultiDiffusion

主頁鏈接：

https://multidiffusion.github.io/

論文鏈接：

https://arxiv.org/abs/2302.08113

本文來自微信公眾號：量子位（ID：QbitAI），作者：白交

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源

想往哪畫就往哪畫

圖像生成可控

來自魏茨曼科學(xué)研究所

相關(guān)文章

愛因斯坦霉霉同框只需 15 秒，最新可控 AI 一玩停不下來，在線試玩已出丨開源