首頁(yè) > 智能時(shí)代>人工智能

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑

新智元 2024/1/16 23:40:52 責(zé)編：清源

評(píng)論：

新智元報(bào)道

編輯：LRS

【新智元導(dǎo)讀】將圖片集反演到語(yǔ)義空間的分布，生成多樣個(gè)性化圖片或 3D 渲染，支持靈活文本編輯、多樣性控制、概念混合等。

最近，來(lái)自南加州大學(xué)、哈佛大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種全新的基于提示學(xué)習(xí)的方法 ——DreamDistribution。

這種方法可以讓任何基于文字提示的生成模型（比如文生圖、文生 3D 等），通過(guò)一組參照?qǐng)D片來(lái)學(xué)習(xí)對(duì)應(yīng)的視覺(jué)屬性共性和變化的文本提示分布。

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑

論文地址：https://arxiv.org/ abs / 2312.14216

項(xiàng)目主頁(yè)：https://briannlongzhao.github.io/ DreamDistribution/

代碼鏈接：https://github.com/ briannlongzhao / DreamDistribution

不僅如此，學(xué)習(xí)到的提示分布可以用來(lái)生成近似于參照?qǐng)D片但更具多樣性的圖片，同時(shí)也支持調(diào)整分布的方差來(lái)控制多樣性，結(jié)合多個(gè)提示分布生成混合概念圖片等操作。

簡(jiǎn)單來(lái)說(shuō)就是，僅用幾張到十幾張參照?qǐng)D片就能無(wú)限生成符合參照?qǐng)D片視覺(jué)效果并具有顯著多樣性的圖片，輕松生成高達(dá)玩具模型多樣新設(shè)計(jì)！

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑

在 3D 生成模型上即插即用，還可以生成不同樣式的跑車(chē)，建筑等：

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑

同樣支持類(lèi)似于 Textual Inversion，DreamBooth 的文本引導(dǎo)編輯能力：

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑

在 3D 生成上同樣具有編輯能力：

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑

在訓(xùn)練后支持控制生成的多樣性的操作（第二行向下多樣性增加）：

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑

支持多種概念的混合：

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑

如下圖所示，用戶(hù)只需提供一組參照?qǐng)D片，比如不同的高達(dá)玩具圖像，DreamDistribution 就可以學(xué)習(xí)到一個(gè)對(duì)應(yīng)于這一組圖片的文本提示分布 D*。

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑

然后，在推理時(shí)通過(guò)從 D * 中采樣，生成有足夠變化和多樣性的分布內(nèi)輸出圖像。

此外，D * 同樣支持由文本引導(dǎo)的編輯來(lái)生成圖像的變化，比如從 Jumping D * 的提示分布中采樣即可生成跳躍姿勢(shì)的高達(dá)玩具圖片等等。

由于方法相對(duì)獨(dú)立于下游的生成模型，學(xué)習(xí)到的提示分布同樣適用于其他基于文本提示的生成任務(wù)。

除了展示中基于 MVDream 文本到 3D 生成作為例子，通過(guò)類(lèi)似的提示修改也可生成具有適當(dāng)變化的符合文本提示的 3D 模型渲染。

研究動(dòng)機(jī)

在擴(kuò)散生成模型日益蓬勃發(fā)展的今天，視覺(jué)生成的質(zhì)量隨之提高。

最先進(jìn)的圖片生成模型，如 DALL?E，Imagen，Stable Diffusion，MidJourney 等系列的文本生成圖像模型，已經(jīng)可以生成非常高質(zhì)量的圖片。

但同時(shí)，由于文本提示很難概括視覺(jué)概念上的細(xì)節(jié)，一些研究如 Textual Inversion，DreamBooth 等通過(guò)圖片引導(dǎo)的方法追求模型生成的可控性以及個(gè)性化（personalization / customization）能力，即根據(jù)參照?qǐng)D片使生成模型理解一個(gè)個(gè)性化概念，如特定的一條寵物狗，一個(gè)特定的玩具，等等，再通過(guò)文字引導(dǎo)的提示編輯來(lái)生成基于個(gè)性化概念變化的圖片。

然而，這些方法都著重于個(gè)性化一個(gè)具體的實(shí)例，但在很多情況下用戶(hù)可能需要個(gè)性化一個(gè)更抽象的視覺(jué)特征并生成新的實(shí)例，比如生成設(shè)計(jì)風(fēng)格一致的新高達(dá)玩具，或者相似畫(huà)風(fēng)的新卡通角色、新畫(huà)作、等等。

如果使用已有的實(shí)例層面的個(gè)性化方法則很難生成不同于參照?qǐng)D片中給定的實(shí)例的圖片，并且如果參考圖片表述的并非同一個(gè)實(shí)例時(shí)，現(xiàn)有的實(shí)例層面的個(gè)性化方法則無(wú)法捕捉到參考圖片中的變化，并在生成過(guò)程中導(dǎo)致有限的多樣性。

方法概述

DreamDistribution 訓(xùn)練方法主要分為三部分。

1. 基于類(lèi)似 Textual Inversion 的提示學(xué)習(xí)的方法，只更新固定長(zhǎng)度的提示嵌入，凍結(jié)其余下游文本編碼器以及擴(kuò)散模型的參數(shù)。

2. 在提示學(xué)習(xí)的基礎(chǔ)上，引入了提示分布學(xué)習(xí)，即保存多個(gè)長(zhǎng)度相同的文本提示嵌入，并在語(yǔ)義空間內(nèi)用這些提示的語(yǔ)義特征去擬合一個(gè)提示的高斯分布。

同時(shí)為保證不同的提示在語(yǔ)義空間內(nèi)的特征不同，引入了正交損失項(xiàng)（Orthogonal Loss）去最小化不同提示之間在語(yǔ)義空間內(nèi)的的余弦相似度。

3. 為了優(yōu)化整體分布，使用了重參數(shù)的方法進(jìn)行多次可導(dǎo)采樣，最后的損失函數(shù)為與訓(xùn)練下游生成模型相同的圖片重建損失或噪聲預(yù)測(cè)的均方損失函數(shù)，以及由超參數(shù)控制的正交損失函數(shù)。

推理時(shí)即可直接從學(xué)習(xí)到的文本提示分布中采樣，作為下游生成模型的提示輸入來(lái)輸出圖片。

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑

如果需要進(jìn)行文本引導(dǎo)的提示修改，則對(duì)所有提示在嵌入空間加同樣的文本前綴或后綴，并重新在語(yǔ)義特征空間擬合高斯分布并采樣作為下游生成模型的輸入。

實(shí)驗(yàn)和結(jié)果

多樣個(gè)性化生成

我們首先展示方法生成多樣的個(gè)性化圖像的能力。通過(guò) DreamDistribution 生成的圖像保留了訓(xùn)練圖片中的共有視覺(jué)特征，同時(shí)與訓(xùn)練圖片不同并且具有高多樣性。

給定一組不容易用文本描述，但同時(shí)具有一些相似的視覺(jué)屬性的訓(xùn)練圖像（通常為 5-20 張），可以通過(guò)簡(jiǎn)單地從學(xué)習(xí)的分布中采樣作為輸入提示生成多樣化的分布內(nèi)圖像。

因此，學(xué)習(xí)到的提示分布可以被視為與訓(xùn)練圖像集相對(duì)應(yīng)的描述的分布。

對(duì)比基線(xiàn)

我們與流行的實(shí)例級(jí)個(gè)性化方法進(jìn)行比較，包括 Textual Inversion、DreamBooth、Custom Diffusion。

我們還對(duì)比了使用簡(jiǎn)短描述作為文本提示的方法，以及使用詳細(xì)描述的長(zhǎng)文本作為提示的方法。這些比較強(qiáng)調(diào)了我們的方法在處理訓(xùn)練圖像的相似性和多樣性方面的能力。

使用相同的預(yù)訓(xùn)練 Stable Diffusion 版本 2.1，并且使用基線(xiàn)工作中提供的默認(rèn)超參數(shù)。

對(duì)比結(jié)果

下圖顯示了與基線(xiàn)方法的可視化比較。無(wú)論是短文本提示方法還是長(zhǎng)文本提示方法，在視覺(jué)上都無(wú)法生成與參照?qǐng)D片相符的結(jié)果，因?yàn)轭A(yù)訓(xùn)練的生成模型所理解的名詞很可能與參照?qǐng)D像有偏差，而且參照?qǐng)D像的細(xì)節(jié)很難用語(yǔ)言描述。

使用基線(xiàn)個(gè)性化方法生成的圖像通常在所有示例中顯示有限的變化或與參照?qǐng)D片不一致的視覺(jué)屬性。這些方法都嘗試將圖片中的概念與單個(gè)固定的提示嵌入關(guān)聯(lián)起來(lái)，所以在語(yǔ)義上固定的嵌入缺少變化。

盡管去噪的過(guò)程能夠引入一些隨機(jī)性，但由于訓(xùn)練目標(biāo)是將各種不同的概念與同一個(gè)固定的嵌入建立聯(lián)系，這將導(dǎo)致 1）提示嵌入欠擬合并且僅學(xué)習(xí)到一個(gè)過(guò)于廣泛的概念，比如物體類(lèi)別的名詞本身，從而導(dǎo)致生成出的圖片與參照?qǐng)D片不符（如下圖中間一列倒數(shù)第 2，4 行），或者 2）擬合于訓(xùn)練圖像的某一個(gè)特定的視覺(jué)上的組合，從而導(dǎo)致生成圖像缺乏多樣性（如下圖左列倒數(shù)第 2，3，4 行）。

通過(guò)使用多個(gè)提示模型和優(yōu)化提示分布來(lái)建模多個(gè)概念，我們提出的方法能夠產(chǎn)生更多樣的外觀(guān)，視角等實(shí)質(zhì)性變化，例如左列最后一行。我們的方法還可以建模材質(zhì)和背景信息，并生成顏色和姿態(tài)方面具有顯著變化的新實(shí)例，如中間列示例中最后一行所示。

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑

以及線(xiàn)條、整體風(fēng)格等變化，并生成像右列中最后一行展示的新涂鴉創(chuàng)作。總體而言，DreamDistribution 能夠生成在顏色，視角、姿態(tài)、布局，細(xì)節(jié)設(shè)計(jì)等方面產(chǎn)生實(shí)質(zhì)性的變化的圖像，同時(shí)保持與參照?qǐng)D像相符的適當(dāng)視覺(jué)屬性。

質(zhì)量和多樣性評(píng)估

我們?cè)诙鄻有院唾|(zhì)量方面進(jìn)行了定量評(píng)估，在包括真實(shí)物體照片（大尺度和小尺度）、著名藝術(shù)家的作品，具有顯著風(fēng)格的卡通人物插畫(huà)以及在線(xiàn)社區(qū)插畫(huà)師的作品等 12 種多樣化圖像場(chǎng)景上訓(xùn)練了 DreamBooth、Textual Inversion、Custom Diffusion 和 DreamDistribution。

自動(dòng)評(píng)估指標(biāo)

我們使用既定的自動(dòng)評(píng)估指標(biāo)對(duì)生成圖像進(jìn)行評(píng)估，這些指標(biāo)衡量了合成圖像的多樣性和真實(shí)圖像之間的相似性。

在下表中，使用 FID、CLIP-I 和 DINO 等流行指標(biāo)來(lái)評(píng)估圖像質(zhì)量。我們的方法在所有三個(gè)質(zhì)量度量中均達(dá)到最佳質(zhì)量，表明我們的方法能夠創(chuàng)建更多滿(mǎn)足提示要求的高質(zhì)量圖像。

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑

此外，在表 1 中報(bào)告了 Density 和 Coverage 指標(biāo)。Density 衡量真實(shí)樣本密集聚集的區(qū)域，而 Coverage 計(jì)算真實(shí)樣本領(lǐng)域中包含至少一個(gè)生成樣本的比例，反映圖片的多樣程度。我們的方法在整體上實(shí)現(xiàn)了最佳的覆蓋率和多樣性。

人類(lèi)評(píng)估

我們進(jìn)行了基于 12 組參考圖像的人工評(píng)估。對(duì)于每個(gè)參考圖像集，我們分別使用基線(xiàn)方法和我們的方法生成圖像，每種方法生成 40 張圖像，總計(jì) 1,920 張圖像。我們指派了 10 位獨(dú)立的注釋者。

對(duì)于這 12 個(gè)參考集中的每一個(gè)，注釋者被要求根據(jù)他們對(duì)生成圖像與參考集的相似性以及生成集內(nèi)的多樣性的感知，選擇最傾向的生成圖像集。

這些方法是匿名的，因此注釋者不知道哪個(gè)生成集對(duì)應(yīng)于哪種方法。我們收集了總共 120 個(gè)樣本并統(tǒng)計(jì)了偏好的頻率。與三個(gè)基線(xiàn)模型相比，我們生成的圖像在多樣性方面表現(xiàn)整體更好。

提示分布的可控性

下圖展示了更多文本引導(dǎo)的提示編輯生成結(jié)果。

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑

除了文本引導(dǎo)的提示編輯，學(xué)習(xí)到的提示分布還可以通過(guò)縮放方差來(lái)控制生成的多樣性。如下圖所示，當(dāng)縮放系數(shù) γ 變大時(shí)，生成的圖像更具隨機(jī)性，而縮放系數(shù)等于 0 時(shí)則生成圖片的多樣性和隨機(jī)性顯著下降。

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑

不同的提示分布還可以通過(guò)按權(quán)重相加來(lái)得到生成具有混合概念的圖片的效果，如下圖所示，按不同比例混合中國(guó)山水畫(huà)和梵高畫(huà)作所對(duì)應(yīng)的提示分布，可以生成多樣的混合兩種特征的圖片。

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑

應(yīng)用于 3D 生成

由于方法獨(dú)立于下游生成模型，學(xué)習(xí)到的提示分布可以即插即用于其他文字提示驅(qū)動(dòng)的生成任務(wù)，譬如文字生成 3D。

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑

我們實(shí)驗(yàn)使用 MVDream 作為 3D 生成模型，結(jié)果顯示在 3D 生成任務(wù)上同樣可以體現(xiàn)多樣性生成，以及文本提示編輯等功能。

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑

總結(jié)

這項(xiàng)工作注重于不同于實(shí)例層面而時(shí)更廣泛的圖片集層面的個(gè)性化生成任務(wù)，從而使得生成的圖像更具多樣性、創(chuàng)新性，但同時(shí)符合參照?qǐng)D片的一些視覺(jué)屬性。

工作還有一些不足，比如生成效果高度依賴(lài)于訓(xùn)練圖片的質(zhì)量和多樣性，并且在 3D 生成上的結(jié)果還有提高空間。

研究人員希望未來(lái)能有辦法將方法優(yōu)化得更魯棒，同時(shí)提升在類(lèi)似 3D 生成任務(wù)上的效果。更多細(xì)節(jié)請(qǐng)參考原文章。

參考資料

https://briannlongzhao.github.io/DreamDistribution/

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑

研究動(dòng)機(jī)

方法概述

實(shí)驗(yàn)和結(jié)果

多樣個(gè)性化生成

對(duì)比基線(xiàn)

對(duì)比結(jié)果

質(zhì)量和多樣性評(píng)估

自動(dòng)評(píng)估指標(biāo)

人類(lèi)評(píng)估

提示分布的可控性

應(yīng)用于 3D 生成

總結(jié)

相關(guān)文章

“文生圖”再升級(jí)！學(xué)習(xí)個(gè)性化參照，無(wú)限生成多樣圖片，輕松設(shè)計(jì)玩具建筑