給 AI 下指令時,總覺得和人溝通不太一樣?
沒錯,AI 雖然能聽懂一些具體的人類指令,例如:
幫忙從餐廳搬個椅子過來。
但要是換成只有代詞(他 / 她 / 它 / 這 / 那 / 東西…)和動詞的模糊指令,AI 就一頭霧水了:
幫忙找個能墊腳的東西。
現(xiàn)在,終于有研究人員想出了一種新的應(yīng)對方法:讓 AI 學(xué)會理解動詞不就行了?
動詞本身就和一些特定的名詞綁定,例如“抹黃油”這個動作肯定離不開“刀”、“叉”這樣的名詞。
只需要將它們進(jìn)行匹配,不需要“刀叉”這類名詞指令,AI 也能準(zhǔn)確找出目標(biāo)物體:
目前,這篇論文正式被 NeurIPS 2022 收錄,相關(guān)模型也已經(jīng)開源:
所以它究竟是如何訓(xùn)練 AI 理解動詞的?
遮住名詞讓 AI“看圖找物”
論文提出了一種名叫 TOIST 的框架。
TOIST 即“任務(wù)導(dǎo)向的實例分割 Transformer”(Task Oriented Instance Segmentation Transformer),是一種基于 Transformer 的實例分割新方案。
實例分割與語義分割的“全圖切割”不同,它還具備目標(biāo)檢測的特點,例如下圖憑借名詞“掀背車”(hatchback car),直接找出對應(yīng)物體:
此前,實例分割模型通常分為“兩步走”,第一步檢測可能的目標(biāo),第二步對可能的目標(biāo)進(jìn)行排序,預(yù)測出最有可能的結(jié)果。
但與這種方式不同,TOIST 框架直接采用一整個 Transformer 架構(gòu),其中解碼器中的自注意力機(jī)制可以建立候選目標(biāo)之間的偏好關(guān)系。
TOIST 框架整體分為三個部分。
其中,多模態(tài)編碼器(棕色部分)負(fù)責(zé)提取特征標(biāo)記,Transformer 編碼器(綠色部分)負(fù)責(zé)將兩種模態(tài)的特征聚合起來,并基于 Transformer 解碼器(藍(lán)色部分)中的注意力機(jī)制來預(yù)測最合適的目標(biāo)。
隨后,論文提出了一種新的名詞-代詞蒸餾方法 (noun-pronoun distillation)來訓(xùn)練模型。
具體來說,即基于知識蒸餾(上圖教師-學(xué)生模型)框架,以無監(jiān)督學(xué)習(xí)的方式,訓(xùn)練 AI 憑借上下文來“猜測”名詞原型。
例如原本的實例分割任務(wù)是“用滑板挖洞”,但在訓(xùn)練模型時,會把名詞“滑板”(skateboard)用代詞“某個東西”(something)替代:
這樣 AI 在不知道名詞的時候,也能憑空猜測出正確的名詞,并在圖中分割出正確的目標(biāo):
這樣的分割效果,在實際案例中表現(xiàn)如何?
目標(biāo)檢測提升 10.9% 精度
論文在大規(guī)模任務(wù)數(shù)據(jù)集 COCO-Tasks 上對 TOIST 進(jìn)行了測試。
評估方法采用的是目標(biāo)檢測等視覺任務(wù)中常見的 mAP(mean Average Precision)。
簡單來說,TOIST 比此前的實例分割和目標(biāo)檢測模型 SOTA 模型表現(xiàn)更好,而有了名詞-代詞蒸餾方法加成的“強(qiáng)化版”TOIST,表現(xiàn)又比 TOIST 更上一層樓。
其中在目標(biāo)檢測任務(wù)上,相比當(dāng)前最好的 Yolo+GGNN,“強(qiáng)化版”TOIST 的判定框精度 mAP 提升了 10.9%,在實例分割任務(wù)上,遮罩精度則比 Mask-RCNN+GGNN 高 6.6%。
至于提出的名詞-代詞蒸餾方法,相比 TOIST 原版,又在實例分割任務(wù)上分別提高了 2.8% 和 3.8% 的精度。
具體到案例表現(xiàn)上,模型效果也與實際分割真值非常接近。
例如在圖(d)中,算法甚至識別出來了能用桌子開啤酒瓶蓋,可以說是理解能力滿分了:
對于做這項研究的初衷,作者回應(yīng)稱:
我們實驗室其實是負(fù)責(zé)研究機(jī)器人的,但在平時的調(diào)研中發(fā)現(xiàn),用戶有時候會更傾向于給機(jī)器人描述“需求”,而不是直接告訴機(jī)器人做什么。
換而言之,就是用 AI 算法讓機(jī)器人“多想一步”,而非只是一個聽從命令的助手。
作者介紹
這篇論文的作者來自清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)、北京大學(xué)和英特爾研究院,AIR 院長張亞勤也是作者之一。
論文一作李鵬飛,清華大學(xué)智能產(chǎn)業(yè)研究院的在讀博士生,本科畢業(yè)于中國科學(xué)院大學(xué),研究方向是自動駕駛、計算機(jī)視覺等。
通訊作者趙昊,清華大學(xué)智能產(chǎn)業(yè)研究院助理教授(incoming Assistant Professor)、英特爾中國研究院研究科學(xué)家、北大聯(lián)合博士后,本博畢業(yè)于清華大學(xué)電子工程系,研究興趣是機(jī)器人、計算機(jī)視覺方向。
對視覺-語言大模型感興趣的小伙伴們,可以試試這個新思路了~
論文地址:
https://arxiv.org/abs/2210.10775
項目地址:
https://github.com/AIR-DISCOVER/TOIST
本文來自微信公眾號:量子位 (ID:QbitAI),作者:蕭簫
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。