首頁(yè) > 科學(xué)探索>科技前沿

AI 自給自足，用合成數(shù)據(jù)做訓(xùn)練，效果比真實(shí)數(shù)據(jù)還好

量子位 2023/2/22 21:13:13 責(zé)編：夢(mèng)澤

評(píng)論：

AI 生成的圖像太逼真，為什么不能拿來(lái)訓(xùn)練 AI 呢？

可別說(shuō)，現(xiàn)在還真有人這么做了。

來(lái)自香港大學(xué)、牛津大學(xué)和字節(jié)跳動(dòng)的幾名研究人員，決定嘗試一下能否使用高質(zhì)量 AI 合成圖片，來(lái)提升圖像分類模型的性能。

為了避免 AI 合成的圖像過(guò)于單一、或是質(zhì)量不穩(wěn)定，他們還提出了幾類提升數(shù)據(jù)多樣性和可靠性的方法，幫助 AI 合成更好的數(shù)據(jù)集（來(lái)喂給 AI 的同類 doge）。

結(jié)果他們發(fā)現(xiàn)，不僅效果不錯(cuò)，有的 AI 在訓(xùn)練后，效果竟然比用真實(shí)數(shù)據(jù)訓(xùn)練還要好！

AI 自給自足，用合成數(shù)據(jù)做訓(xùn)練，效果比真實(shí)數(shù)據(jù)還好

目前這篇論文已經(jīng)被 ICLR 2023 收錄。

AI 自給自足，用合成數(shù)據(jù)做訓(xùn)練，效果比真實(shí)數(shù)據(jù)還好

把 AI 生成的數(shù)據(jù)喂給 AI

作者們分別從零樣本（zero-shot）、少樣本（few-shot）圖像分類、模型預(yù)訓(xùn)練（pre-training）與遷移學(xué)習(xí)三個(gè)??進(jìn)?了探討，并給出了提升數(shù)據(jù)多樣性與可靠性的方法。

零樣本圖像分類

零樣本（Zero-shot）圖像分類任務(wù)，指沒(méi)有任何?標(biāo)類別的訓(xùn)練圖?，只有對(duì)?標(biāo)類別的描述。

作者們先是提出了一種名為語(yǔ)言增強(qiáng)（Language Enhancement，LE）的?法，用于增強(qiáng)合成數(shù)據(jù)多樣性。

具體來(lái)說(shuō)，這種方法會(huì)給標(biāo)簽“擴(kuò)句”，如果原標(biāo)簽是簡(jiǎn)單的“飛機(jī)”，那么經(jīng)過(guò)“擴(kuò)句”后的提示詞就會(huì)變成“一架盤旋在海灘和城市上空的白色飛機(jī)”。

隨后，還采用了一種叫做 CLIP 過(guò)濾器（CLIP Filter）的?法確保合成數(shù)據(jù)的可靠性，即過(guò)濾掉合成質(zhì)量不行的圖片，確保 AI 數(shù)據(jù)質(zhì)量過(guò)硬。

在 17 個(gè)數(shù)據(jù)集上，相?此前效果最好的 CLIP 模型，相關(guān)??模型均獲得了顯著提升（4.31%/2.90%），展示了合成數(shù)據(jù)的有效性。

AI 自給自足，用合成數(shù)據(jù)做訓(xùn)練，效果比真實(shí)數(shù)據(jù)還好

少樣本圖像分類

少樣本圖像（Few-shot）分類任務(wù)，通常僅有極少數(shù)量（1～16 張）的?標(biāo)類別圖?，與零樣本任務(wù)的區(qū)別是增加了類別與任務(wù)特定領(lǐng)域信息。

因此，作者們決定將域內(nèi)數(shù)據(jù)（in-domain）的知識(shí)?于圖像?成，即將少量的?標(biāo)類別圖??于噪聲疊加的初始狀態(tài)（Real Guidance），進(jìn)?步發(fā)揮?成模型的能?，從而進(jìn)?步提升性能。

AI 自給自足，用合成數(shù)據(jù)做訓(xùn)練，效果比真實(shí)數(shù)據(jù)還好

預(yù)訓(xùn)練與遷移學(xué)習(xí)

模型預(yù)訓(xùn)練（pre-training）任務(wù)，即將模型在?量數(shù)據(jù)上進(jìn)?訓(xùn)練，將訓(xùn)練后的模型作為“起始點(diǎn)”，來(lái)幫助提升下游任務(wù)的性能。

作者們利?合成數(shù)據(jù)，對(duì)模型進(jìn)?了預(yù)訓(xùn)練，并對(duì)數(shù)據(jù)量、數(shù)據(jù)多樣性程度、預(yù)訓(xùn)練模型結(jié)構(gòu)和預(yù)訓(xùn)練?法進(jìn)?了實(shí)驗(yàn)研究。

最終發(fā)現(xiàn)：

?合成數(shù)據(jù)進(jìn)?預(yù)訓(xùn)練。已經(jīng)可以達(dá)到甚?超越?真實(shí)數(shù)據(jù)預(yù)訓(xùn)練的效果。
?更?的數(shù)據(jù)量和數(shù)據(jù)多樣性的合成數(shù)據(jù)，可以獲得更好的預(yù)訓(xùn)練效果。
從模型結(jié)構(gòu)和預(yù)訓(xùn)練?法來(lái)看，ViT-based 模型（相比 convolutional-based 模型）、?監(jiān)督?法（相比有監(jiān)督?法）會(huì)更適合合成數(shù)據(jù)下的預(yù)訓(xùn)練。

AI 自給自足，用合成數(shù)據(jù)做訓(xùn)練，效果比真實(shí)數(shù)據(jù)還好

論文認(rèn)為，利??成模型產(chǎn)?的合成數(shù)據(jù)來(lái)幫助圖像分類任務(wù)是可行的，不過(guò)也存在?定的局限性。

例如，如何處理特定任務(wù)的 domain gap 和數(shù)據(jù)多樣性之間的 trade-off，以及如何更有效地利?潛在?窮量的合成圖??于預(yù)訓(xùn)練，都是需要進(jìn)一步去解決的問(wèn)題。

作者介紹

AI 自給自足，用合成數(shù)據(jù)做訓(xùn)練，效果比真實(shí)數(shù)據(jù)還好

一作何睿飛，香港大學(xué)在讀博士生 @CVMI Lab，指導(dǎo)老師為齊曉娟老師，本科畢業(yè)于浙江大學(xué)竺可楨學(xué)院，研究方向是 data-efficient learning, vision-language model, knowledge distillation, semi / self-supervised learning。CVMI Lab 正在招收計(jì)算機(jī)視覺(jué)與深度學(xué)習(xí)方向的博士生，感興趣的伙伴可以直接 email 老師！

對(duì)于將 AI 合成圖像用于預(yù)訓(xùn)練模型這件事，你還能想到更高效的方法嗎？

論文地址：

https://arxiv.org/abs/2210.07574

項(xiàng)目地址：

https://github.com/CVMI-Lab/SyntheticData

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：關(guān)注前沿科技

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AI 自給自足，用合成數(shù)據(jù)做訓(xùn)練，效果比真實(shí)數(shù)據(jù)還好

把 AI 生成的數(shù)據(jù)喂給 AI

零樣本圖像分類

少樣本圖像分類

預(yù)訓(xùn)練與遷移學(xué)習(xí)

作者介紹

相關(guān)文章

AI 自給自足，用合成數(shù)據(jù)做訓(xùn)練，效果比真實(shí)數(shù)據(jù)還好