AI 生成的圖像太逼真,為什么不能拿來(lái)訓(xùn)練 AI 呢?
可別說(shuō),現(xiàn)在還真有人這么做了。
來(lái)自香港大學(xué)、牛津大學(xué)和字節(jié)跳動(dòng)的幾名研究人員,決定嘗試一下能否使用高質(zhì)量 AI 合成圖片,來(lái)提升圖像分類模型的性能。
為了避免 AI 合成的圖像過(guò)于單一、或是質(zhì)量不穩(wěn)定,他們還提出了幾類提升數(shù)據(jù)多樣性和可靠性的方法,幫助 AI 合成更好的數(shù)據(jù)集(來(lái)喂給 AI 的同類 doge)。
結(jié)果他們發(fā)現(xiàn),不僅效果不錯(cuò),有的 AI 在訓(xùn)練后,效果竟然比用真實(shí)數(shù)據(jù)訓(xùn)練還要好!
目前這篇論文已經(jīng)被 ICLR 2023 收錄。
把 AI 生成的數(shù)據(jù)喂給 AI
作者們分別從零樣本(zero-shot)、少樣本(few-shot)圖像分類、模型預(yù)訓(xùn)練(pre-training)與遷移學(xué)習(xí)三個(gè)??進(jìn)?了探討,并給出了提升數(shù)據(jù)多樣性與可靠性的方法。
零樣本圖像分類
零樣本(Zero-shot)圖像分類任務(wù),指沒(méi)有任何?標(biāo)類別的訓(xùn)練圖?,只有對(duì)?標(biāo)類別的描述。
作者們先是提出了一種名為語(yǔ)言增強(qiáng)(Language Enhancement,LE)的?法,用于增強(qiáng)合成數(shù)據(jù)多樣性。
具體來(lái)說(shuō),這種方法會(huì)給標(biāo)簽“擴(kuò)句”,如果原標(biāo)簽是簡(jiǎn)單的“飛機(jī)”,那么經(jīng)過(guò)“擴(kuò)句”后的提示詞就會(huì)變成“一架盤旋在海灘和城市上空的白色飛機(jī)”。
隨后,還采用了一種叫做 CLIP 過(guò)濾器(CLIP Filter)的?法確保合成數(shù)據(jù)的可靠性,即過(guò)濾掉合成質(zhì)量不行的圖片,確保 AI 數(shù)據(jù)質(zhì)量過(guò)硬。
在 17 個(gè)數(shù)據(jù)集上,相?此前效果最好的 CLIP 模型,相關(guān)??模型均獲得了顯著提升(4.31%/2.90%),展示了合成數(shù)據(jù)的有效性。
少樣本圖像分類
少樣本圖像(Few-shot)分類任務(wù),通常僅有極少數(shù)量(1~16 張)的?標(biāo)類別圖?,與零樣本任務(wù)的區(qū)別是增加了類別與任務(wù)特定領(lǐng)域信息。
因此,作者們決定將域內(nèi)數(shù)據(jù)(in-domain)的知識(shí)?于圖像?成,即將少量的?標(biāo)類別圖??于噪聲疊加的初始狀態(tài)(Real Guidance),進(jìn)?步發(fā)揮?成模型的能?,從而進(jìn)?步提升性能。
預(yù)訓(xùn)練與遷移學(xué)習(xí)
模型預(yù)訓(xùn)練(pre-training)任務(wù),即將模型在?量數(shù)據(jù)上進(jìn)?訓(xùn)練,將訓(xùn)練后的模型作為“起始點(diǎn)”,來(lái)幫助提升下游任務(wù)的性能。
作者們利?合成數(shù)據(jù),對(duì)模型進(jìn)?了預(yù)訓(xùn)練,并對(duì)數(shù)據(jù)量、數(shù)據(jù)多樣性程度、預(yù)訓(xùn)練模型結(jié)構(gòu)和預(yù)訓(xùn)練?法進(jìn)?了實(shí)驗(yàn)研究。
最終發(fā)現(xiàn):
?合成數(shù)據(jù)進(jìn)?預(yù)訓(xùn)練。已經(jīng)可以達(dá)到甚?超越?真實(shí)數(shù)據(jù)預(yù)訓(xùn)練的效果。
?更?的數(shù)據(jù)量和數(shù)據(jù)多樣性的合成數(shù)據(jù),可以獲得更好的預(yù)訓(xùn)練效果。
從模型結(jié)構(gòu)和預(yù)訓(xùn)練?法來(lái)看,ViT-based 模型(相比 convolutional-based 模型)、?監(jiān)督?法(相比有監(jiān)督?法)會(huì)更適合合成數(shù)據(jù)下的預(yù)訓(xùn)練。
論文認(rèn)為,利??成模型產(chǎn)?的合成數(shù)據(jù)來(lái)幫助圖像分類任務(wù)是可行的,不過(guò)也存在?定的局限性。
例如,如何處理特定任務(wù)的 domain gap 和數(shù)據(jù)多樣性之間的 trade-off,以及如何更有效地利?潛在?窮量的合成圖??于預(yù)訓(xùn)練,都是需要進(jìn)一步去解決的問(wèn)題。
作者介紹
一作何睿飛,香港大學(xué)在讀博士生 @CVMI Lab,指導(dǎo)老師為齊曉娟老師,本科畢業(yè)于浙江大學(xué)竺可楨學(xué)院,研究方向是 data-efficient learning, vision-language model, knowledge distillation, semi / self-supervised learning。CVMI Lab 正在招收計(jì)算機(jī)視覺(jué)與深度學(xué)習(xí)方向的博士生,感興趣的伙伴可以直接 email 老師!
對(duì)于將 AI 合成圖像用于預(yù)訓(xùn)練模型這件事,你還能想到更高效的方法嗎?
論文地址:
https://arxiv.org/abs/2210.07574
項(xiàng)目地址:
https://github.com/CVMI-Lab/SyntheticData
本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:關(guān)注前沿科技
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。