首頁 > 智能時代>人工智能

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

量子位 2022/5/24 13:19:22 責編：長河

評論：

在讓 AI 搞創(chuàng)作這件事上，谷歌和 OpenAI 正面剛起來了。這不，震驚全網(wǎng)的 DALL?E 2 才新鮮出爐一個月，谷歌就派出名為 Imagen 的選手來打擂臺。

直接上圖對比，左邊是谷歌 Imagen 選手眼中的“貓貓絆倒人類雕像”，右邊則是 DALL?E 2 選手的同題創(chuàng)作。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

你覺得哪一位選手的作品更符合題意？而讓網(wǎng)友們直呼“DALL?E 2 這就過時了？”的，還不只是這種正面 PK 的刺激?？吹竭@么一張照片，如果不說是 AI 生成的，是不是要先感嘆一句兩腳獸的擺拍技術(shù)越來越高超了？

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

輸入“折紙作品：一只狐貍和一只獨角獸在飄雪的森林里”，Imagen 創(chuàng)作出的畫面則是醬嬸的：

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

還可以試試把文字寫得長一點。比如《一只非?？鞓返拿仔茇埓虬绯闪嗽趶N房里做面團的廚師的高對比度畫像，他身后的墻上還有一幅畫了鮮花的畫》…（啊先讓我喘口氣）Imagen 也輕松拿下，要素齊全：

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

看到這，機器學習圈的網(wǎng)友反應是這樣的：

不是吧，這才一個月就又更新?lián)Q代了？

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

求求別再震驚我了。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

這事兒熱度一起，很快就破了圈。吃瓜群眾們立刻就想到一塊去了。

以后可能沒圖庫網(wǎng)站什么事兒了。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

那么這個來自谷歌的新 AI，又掌握了什么獨家秘技？具體詳情，我們一起接著往下看。

增強「理解」比優(yōu)化「生成」更重要

文本到圖像生成我們之前介紹過不少，基本都是一個套路：CLIP 負責從文本特征映射到圖像特征，然后指導一個 GAN 或擴散模型生成圖像。

但谷歌 Imagen 這次有個顛覆性的改變 —— 使用純語言模型只負責編碼文本特征，把文本到圖像轉(zhuǎn)換的工作丟給了圖像生成模型。語言模型部分使用的是谷歌自家的 T5-XXL，訓練好后凍結(jié)住文本編碼器。圖像生成部分則是一系列擴散模型，先生成低分辨率圖像，再逐級超采樣。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

這樣做最大的好處，是純文本訓練數(shù)據(jù)要比高質(zhì)量圖文對數(shù)據(jù)容易獲取的多。T5-XXL 的 C4 訓練集包含 800GB 的純文本語料，在文本理解能力上會比用有限圖文對訓練的 CLIP 要強。這一點也有著實驗數(shù)據(jù)做支撐，人類評估上，T5-XXL 在保真度和語義對齊方面表現(xiàn)都比 CLIP 要好。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

在實驗中谷歌還發(fā)現(xiàn)，擴大語言模型的規(guī)模對最后效果影響更大，超過擴大圖像生成模型的影響。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

看到這有網(wǎng)友指出，谷歌最后采用的 T5-XXL 參數(shù)規(guī)模還不到最新 PaLM 語言模型 5400 億參數(shù)的 1%，如果用上 PaLM，又會是啥樣？

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

除了語言模型部分的發(fā)現(xiàn)，谷歌通過 Imagen 的研究對擴算模型作出不少優(yōu)化。首先，增加無分類器引導（classifier-free guidance）的權(quán)重可以改善圖文對齊，但會損害圖像保真度。解決的辦法是每一步采樣時使用動態(tài)閾值，能夠防止過飽和。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

第二，使用高引導權(quán)重的同時在低分辨率圖像上增加噪聲，可以改善擴散模型多樣性不足的問題。第三，對擴散模型的經(jīng)典結(jié)構(gòu) U-Net 做了改進，新的 Efficient U-Net 改善了內(nèi)存使用效率、收斂速度和推理時間。

對語言理解和圖像生成都做出改進之后，Imagen 模型作為一個整體在評估中也取得了很好的成績。比如在 COCO 基準測試上達到新 SOTA，卻根本沒用 COCO 數(shù)據(jù)集訓練。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

在 COCO 測試的人類評估部分也發(fā)現(xiàn)了 Imagen 的一個缺點，不擅長生成人類圖像。具體表現(xiàn)是，無人類圖像在寫實度上獲得更高的人類偏好度。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

同時，谷歌推出了比 COCO 更有挑戰(zhàn)性的測試基準 DrawBench，包含各種刁鉆的提示詞。實驗發(fā)現(xiàn)，DALL?E 2 難以準確理解同時出現(xiàn)兩個顏色要求的情況，而 Imagen 就沒問題。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

反常識情況，比如“馬騎著宇航員”兩者表現(xiàn)都不佳，只能畫出“宇航員騎著馬”。但是 Imagen 對“一只熊貓在做咖啡拉花”理解更準確，只錯了一次。DALL?E 2 則全都把熊貓畫進了拉花圖案里。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

△ 大概“馬騎著宇航員”有點反常識（狗頭）

對于要求圖像中出現(xiàn)文字的，也是 Imagen 做得更好。除了最基本的把文字寫對以外，還可以正確給文字加上煙花效果。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

AI 畫畫越來越出圈

說起來，AI 作畫這件事，最早便源起于谷歌。2015 年，谷歌推出 DeepDream，開創(chuàng)了 AI 根據(jù)文本生成圖像的先河。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

△ DeepDream 作品

但要說相關(guān)技術(shù)真正開“卷”、出圈，標志性事件還得數(shù) 2021 年 OpenAI 的 DALL?E 橫空出世。當時，吳恩達、Keras 之父等一眾大佬都紛紛轉(zhuǎn)發(fā)、點贊，DALL?E 甚至被稱為 2021 年第一個令人興奮的 AI 技術(shù)突破。

隨后，語言理解模型和圖像生成模型多年來的技術(shù)進展，便在“AI 作畫”這件事上集中爆發(fā)，一系列 CLIP+GAN、CLIP + 擴散模型的研究和應用，頻頻在網(wǎng)絡上掀起熱潮。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

從此一發(fā)不可收拾，技術(shù)更新迭代越來越快。DALL?E 2 剛發(fā)布的時候就有網(wǎng)友發(fā)起一個投票，問多長時間會出現(xiàn)新的 SOTA。當時大多數(shù)人選了幾個月或 1 年以上。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

但現(xiàn)在，Imagen 的出現(xiàn)只用了 6 周。隨著 AI 畫畫效果越來越強大，受眾范圍也不斷擴大，突破技術(shù)圈進入大眾視野。前一陣，就有 AI 畫畫應用登上蘋果 App Store 圖形與設計排行榜榜首。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

現(xiàn)在最新的潮流，是各路設計師排隊申請 Midjourney、Tiamat 等商業(yè)化產(chǎn)品的內(nèi)測，刷爆社交網(wǎng)絡。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

如此出圈，也給 OpenAI 和谷歌這樣的大公司帶來很大壓力。出于 AI 倫理、公平性等方面考慮，DALL?E 2 和 Imagen 都沒有直接開源或開放 API。各自也都在論文里有大篇幅涉及風險、社會影響力的內(nèi)容。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

OpenAI 選擇了內(nèi)測模式，而谷歌還在做進一步研究和規(guī)范，等到確保 AI 不被濫用之后再擇機公開。現(xiàn)在想體驗 Imagen 的話，有一個在線 Demo 演示?？梢詮慕o定的幾個提示詞中自由組合出不同場景。

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

快來試試吧～

Demo 地址：

https://gweb-research-imagen.appspot.com

論文地址：

https://gweb-research-imagen.appspot.com/paper.pdf

參考鏈接：

https://twitter.com/ak92501/status/1528861980702146560

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度

增強「理解」比優(yōu)化「生成」更重要

AI 畫畫越來越出圈

相關(guān)文章

讓 AI 搞創(chuàng)作：谷歌奪回“畫語權(quán)”，機器想象力達到全新高度