設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AI 逆向繪畫:一鍵重繪梵高《羅納河上的星夜》,來自華盛頓大學(xué)

量子位 2024/10/11 15:03:32 責(zé)編:汪淼

梵高名作也能被 AI 逆向破解了?!

直接喂一張原圖,AI 就能化身梵高?本高一點點重繪整張圖畫(原圖可任意)。

梵高《羅納河上的星夜》

▲ 梵高《羅納河上的星夜》

仔細對照兩邊,AI 幾乎實現(xiàn)了 1:1 復(fù)刻,還為我們這些繪畫小白清晰展示了整幅圖的構(gòu)建過程。

這項魔法來自華盛頓大學(xué),項目名為 Inverse Painting,相關(guān)論文已入選 SIGGRAPH Asia 2024,其中兩位作者還是東北大學(xué)(Bowei Chen )和上??萍即髮W(xué)(Yifan Wang)的校友。

項目一經(jīng)發(fā)布后即在 Reddit 引起熱議,最高贊更是為藝術(shù)家群體操起了心(doge)。

藝術(shù)家可能會對此感到憤怒

不過也有人表示,這對于人們學(xué)習(xí)如何繪畫非常有幫助。

甚至可以用來“破解”一些大師遺作,提取隱藏或失傳的技術(shù)。

基于擴散模型

從原圖 → 繪畫過程延時視頻,Inverse Painting 采用基于擴散的逆繪畫方法。

通過學(xué)習(xí)真實藝術(shù)家的繪畫視頻,結(jié)合文本和區(qū)域理解來定義繪畫“指令”,并使用基于擴散的渲染器更新畫布,從而生成類似于人類藝術(shù)家繪畫過程的視頻。

進一步拆解,這一過程主要包括以下步驟:

  • 學(xué)習(xí)藝術(shù)家的繪畫過程。收集了 294 個丙烯酸風(fēng)景畫繪畫過程視頻(平均時長 9 分鐘),并進行視頻幀分割、裁剪和篩選等預(yù)處理操作,讓模型學(xué)習(xí)繪畫過程;

  • 定義繪畫指令。基于對畫作不同元素(比如天空、樹木、人物等)以及元素相互關(guān)系的理解,模型會生成一組“繪畫指令”,告訴模型應(yīng)該先畫什么,后畫什么;

  • 使用擴散模型。用擴散模型生成逼真圖像,并逐步在畫布上添加細節(jié),就像藝術(shù)家繪畫時一樣;

  • 文本和區(qū)域理解。模型還會生成文本指令和區(qū)域掩碼,前者告訴模型要繪制的內(nèi)容,后者用來指定內(nèi)容的確切位置;

  • 逐步渲染。從一個空白畫布開始,逐步生成完整繪畫過程;

  • 時間控制。為了模擬真實世界中藝術(shù)家的繪畫速度,模型還會考慮每步之間的時間間隔;

這些步驟整體可歸為兩階段訓(xùn)練 + 測試,如下所示:

第一階段:指令生成(Instruction Generation)

這個階段主要生成兩個關(guān)鍵指令集,文本指令生成器(Text Instruction Generator)和區(qū)域掩碼生成器(Mask Instruction Generator)。

前者通過比較目標畫作和當(dāng)前畫布的狀態(tài),生成一個簡短的文本指令,比如“畫天空”或“加花朵”,以此決定下一步應(yīng)該添加哪些元素。

后者是一個二進制圖像,指明了畫布上應(yīng)該更新哪些部分。

兩者一結(jié)合,確保模型只在畫布上合適的區(qū)域進行繪制。

生成的文本指令

▲ 生成的文本指令

第二階段:畫布渲染(Canvas Rendering)

接下來使用第一階段生成的指令來更新畫布。

利用文本指令和區(qū)域掩碼,以及當(dāng)前畫布的圖像和目標畫作,一個基于擴散的渲染器被用來更新畫布。

這個渲染器采用了一種叫做“去噪擴散概率模型”的技術(shù),它逐步從噪聲圖像中去除噪音,以生成連續(xù)的圖像幀。

總之,渲染器在更新畫布時會考慮多種條件信號,包括文本指令、區(qū)域掩碼、時間間隔,以及目標畫作和當(dāng)前畫作的特征。

這些條件信號幫助渲染器更準確地模擬人類藝術(shù)家的繪畫風(fēng)格和過程。

測試(Test-Time Generation)

在測試階段,模型使用訓(xùn)練好的管道從頭開始生成一幅畫作。

這里主要有兩個關(guān)鍵:

  • 自回歸過程。每一步都依賴于前一步生成的結(jié)果,以此生成一個連貫的繪畫過程;

  • 固定時間間隔。在每一步之間采用固定時間來更新畫布,模擬真實繪畫過程中的時間流逝;

最終,與三個基線方法(Timecraft、Paint Transformer、Stable Video Diffusion)相比,其生成結(jié)果明顯更優(yōu)。

同時,相關(guān)變體也取得了 SOTA 結(jié)果。

其中兩位作者為華人

簡單介紹下項目作者,一共 5 位,其中兩位是華人。

Bowei Chen (陳柏維),本科就讀于國內(nèi)東北大學(xué)軟件工程專業(yè)(2016 年入學(xué)),后分別在卡內(nèi)基梅隆大學(xué)機器人研究所和華盛頓大學(xué)攻讀碩博。

研究興趣為計算機視覺和圖形學(xué)的交叉點,重點是圖像和視頻生成。

Yifan Wang,本科就讀于上海科技大學(xué)計算機專業(yè),今年剛獲得華盛頓大學(xué) CS 博士學(xué)位。

個人主頁顯示了多段工作經(jīng)歷(含字節(jié)、谷歌、Adobe 等),目前是 Meta Reality Labs Research 的一名研究科學(xué)家。

實際上,這個團隊進行的 AI 逆向繪畫之前也有,網(wǎng)友們還提到了 Paints Undo 這個項目。

當(dāng)時主要應(yīng)用于動漫領(lǐng)域,短短 3 個月已在 GitHub 攬星 3.3K。

對于這事兒,人們一直褒貶不一,最大爭議在于人們擔(dān)心有人會利用 AI 謊稱作者。

畢竟通過講解藝術(shù)思路是作者證明作品原創(chuàng)性的手段之一。

甚至對于它能教人們學(xué)繪畫這事兒,也有網(wǎng)友以自身經(jīng)歷出來反駁:

目前不太符合真實繪畫過程

所以,有了解繪畫的童鞋來說說看嗎?

參考鏈接:

  • [1]https://inversepainting.github.io/

  • [2]https://www.reddit.com/r/singularity/comments/1fybddi/inverse_painting_can_generate_timelapse_videos_of/

本文來自微信公眾號:量子位(ID:QbitAI),作者:一水,原標題《AI 逆向繪畫火了!一鍵重繪梵高《星空》,來自華盛頓大學(xué)》

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI繪畫,梵高

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知