給 AI 下指令時(shí),總覺得和人溝通不太一樣?
沒錯(cuò),AI 雖然能聽懂一些具體的人類指令,例如:
幫忙從餐廳搬個(gè)椅子過來(lái)。
但要是換成只有代詞(他 / 她 / 它 / 這 / 那 / 東西…)和動(dòng)詞的模糊指令,AI 就一頭霧水了:
幫忙找個(gè)能墊腳的東西。
現(xiàn)在,終于有研究人員想出了一種新的應(yīng)對(duì)方法:讓 AI 學(xué)會(huì)理解動(dòng)詞不就行了?
動(dòng)詞本身就和一些特定的名詞綁定,例如“抹黃油”這個(gè)動(dòng)作肯定離不開“刀”、“叉”這樣的名詞。
只需要將它們進(jìn)行匹配,不需要“刀叉”這類名詞指令,AI 也能準(zhǔn)確找出目標(biāo)物體:
目前,這篇論文正式被 NeurIPS 2022 收錄,相關(guān)模型也已經(jīng)開源:
所以它究竟是如何訓(xùn)練 AI 理解動(dòng)詞的?
遮住名詞讓 AI“看圖找物”
論文提出了一種名叫 TOIST 的框架。
TOIST 即“任務(wù)導(dǎo)向的實(shí)例分割 Transformer”(Task Oriented Instance Segmentation Transformer),是一種基于 Transformer 的實(shí)例分割新方案。
實(shí)例分割與語(yǔ)義分割的“全圖切割”不同,它還具備目標(biāo)檢測(cè)的特點(diǎn),例如下圖憑借名詞“掀背車”(hatchback car),直接找出對(duì)應(yīng)物體:
此前,實(shí)例分割模型通常分為“兩步走”,第一步檢測(cè)可能的目標(biāo),第二步對(duì)可能的目標(biāo)進(jìn)行排序,預(yù)測(cè)出最有可能的結(jié)果。
但與這種方式不同,TOIST 框架直接采用一整個(gè) Transformer 架構(gòu),其中解碼器中的自注意力機(jī)制可以建立候選目標(biāo)之間的偏好關(guān)系。
TOIST 框架整體分為三個(gè)部分。
其中,多模態(tài)編碼器(棕色部分)負(fù)責(zé)提取特征標(biāo)記,Transformer 編碼器(綠色部分)負(fù)責(zé)將兩種模態(tài)的特征聚合起來(lái),并基于 Transformer 解碼器(藍(lán)色部分)中的注意力機(jī)制來(lái)預(yù)測(cè)最合適的目標(biāo)。
隨后,論文提出了一種新的名詞-代詞蒸餾方法 (noun-pronoun distillation)來(lái)訓(xùn)練模型。
具體來(lái)說(shuō),即基于知識(shí)蒸餾(上圖教師-學(xué)生模型)框架,以無(wú)監(jiān)督學(xué)習(xí)的方式,訓(xùn)練 AI 憑借上下文來(lái)“猜測(cè)”名詞原型。
例如原本的實(shí)例分割任務(wù)是“用滑板挖洞”,但在訓(xùn)練模型時(shí),會(huì)把名詞“滑板”(skateboard)用代詞“某個(gè)東西”(something)替代:
這樣 AI 在不知道名詞的時(shí)候,也能憑空猜測(cè)出正確的名詞,并在圖中分割出正確的目標(biāo):
這樣的分割效果,在實(shí)際案例中表現(xiàn)如何?
目標(biāo)檢測(cè)提升 10.9% 精度
論文在大規(guī)模任務(wù)數(shù)據(jù)集 COCO-Tasks 上對(duì) TOIST 進(jìn)行了測(cè)試。
評(píng)估方法采用的是目標(biāo)檢測(cè)等視覺任務(wù)中常見的 mAP(mean Average Precision)。
簡(jiǎn)單來(lái)說(shuō),TOIST 比此前的實(shí)例分割和目標(biāo)檢測(cè)模型 SOTA 模型表現(xiàn)更好,而有了名詞-代詞蒸餾方法加成的“強(qiáng)化版”TOIST,表現(xiàn)又比 TOIST 更上一層樓。
其中在目標(biāo)檢測(cè)任務(wù)上,相比當(dāng)前最好的 Yolo+GGNN,“強(qiáng)化版”TOIST 的判定框精度 mAP 提升了 10.9%,在實(shí)例分割任務(wù)上,遮罩精度則比 Mask-RCNN+GGNN 高 6.6%。
至于提出的名詞-代詞蒸餾方法,相比 TOIST 原版,又在實(shí)例分割任務(wù)上分別提高了 2.8% 和 3.8% 的精度。
具體到案例表現(xiàn)上,模型效果也與實(shí)際分割真值非常接近。
例如在圖(d)中,算法甚至識(shí)別出來(lái)了能用桌子開啤酒瓶蓋,可以說(shuō)是理解能力滿分了:
對(duì)于做這項(xiàng)研究的初衷,作者回應(yīng)稱:
我們實(shí)驗(yàn)室其實(shí)是負(fù)責(zé)研究機(jī)器人的,但在平時(shí)的調(diào)研中發(fā)現(xiàn),用戶有時(shí)候會(huì)更傾向于給機(jī)器人描述“需求”,而不是直接告訴機(jī)器人做什么。
換而言之,就是用 AI 算法讓機(jī)器人“多想一步”,而非只是一個(gè)聽從命令的助手。
作者介紹
這篇論文的作者來(lái)自清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)、北京大學(xué)和英特爾研究院,AIR 院長(zhǎng)張亞勤也是作者之一。
論文一作李鵬飛,清華大學(xué)智能產(chǎn)業(yè)研究院的在讀博士生,本科畢業(yè)于中國(guó)科學(xué)院大學(xué),研究方向是自動(dòng)駕駛、計(jì)算機(jī)視覺等。
通訊作者趙昊,清華大學(xué)智能產(chǎn)業(yè)研究院助理教授(incoming Assistant Professor)、英特爾中國(guó)研究院研究科學(xué)家、北大聯(lián)合博士后,本博畢業(yè)于清華大學(xué)電子工程系,研究興趣是機(jī)器人、計(jì)算機(jī)視覺方向。
對(duì)視覺-語(yǔ)言大模型感興趣的小伙伴們,可以試試這個(gè)新思路了~
論文地址:
https://arxiv.org/abs/2210.10775
項(xiàng)目地址:
https://github.com/AIR-DISCOVER/TOIST
本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:蕭簫
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。