設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AI 理解不了“他她它”咋辦?動詞成為新突破口,機(jī)器人聽到抹黃油就知道拿刀叉

量子位 2022/12/2 12:53:08 責(zé)編:遠(yuǎn)生

給 AI 下指令時,總覺得和人溝通不太一樣?

沒錯,AI 雖然能聽懂一些具體的人類指令,例如:

幫忙從餐廳搬個椅子過來。

但要是換成只有代詞(他 / 她 / 它 / 這 / 那 / 東西…)和動詞的模糊指令,AI 就一頭霧水了:

幫忙找個能墊腳的東西。

現(xiàn)在,終于有研究人員想出了一種新的應(yīng)對方法:讓 AI 學(xué)會理解動詞不就行了?

動詞本身就和一些特定的名詞綁定,例如“抹黃油”這個動作肯定離不開“刀”、“叉”這樣的名詞。

只需要將它們進(jìn)行匹配,不需要“刀叉”這類名詞指令,AI 也能準(zhǔn)確找出目標(biāo)物體:

目前,這篇論文正式被 NeurIPS 2022 收錄,相關(guān)模型也已經(jīng)開源:

所以它究竟是如何訓(xùn)練 AI 理解動詞的?

遮住名詞讓 AI“看圖找物”

論文提出了一種名叫 TOIST 的框架。

TOIST 即“任務(wù)導(dǎo)向的實例分割 Transformer”(Task Oriented Instance Segmentation Transformer),是一種基于 Transformer 的實例分割新方案。

實例分割與語義分割的“全圖切割”不同,它還具備目標(biāo)檢測的特點,例如下圖憑借名詞“掀背車”(hatchback car),直接找出對應(yīng)物體:

此前,實例分割模型通常分為“兩步走”,第一步檢測可能的目標(biāo),第二步對可能的目標(biāo)進(jìn)行排序,預(yù)測出最有可能的結(jié)果。

但與這種方式不同,TOIST 框架直接采用一整個 Transformer 架構(gòu),其中解碼器中的自注意力機(jī)制可以建立候選目標(biāo)之間的偏好關(guān)系。

TOIST 框架整體分為三個部分。

其中,多模態(tài)編碼器(棕色部分)負(fù)責(zé)提取特征標(biāo)記,Transformer 編碼器(綠色部分)負(fù)責(zé)將兩種模態(tài)的特征聚合起來,并基于 Transformer 解碼器(藍(lán)色部分)中的注意力機(jī)制來預(yù)測最合適的目標(biāo)。

隨后,論文提出了一種新的名詞-代詞蒸餾方法 (noun-pronoun distillation)來訓(xùn)練模型。

具體來說,即基于知識蒸餾(上圖教師-學(xué)生模型)框架,以無監(jiān)督學(xué)習(xí)的方式,訓(xùn)練 AI 憑借上下文來“猜測”名詞原型。

例如原本的實例分割任務(wù)是“用滑板挖洞”,但在訓(xùn)練模型時,會把名詞“滑板”(skateboard)用代詞“某個東西”(something)替代:

這樣 AI 在不知道名詞的時候,也能憑空猜測出正確的名詞,并在圖中分割出正確的目標(biāo):

這樣的分割效果,在實際案例中表現(xiàn)如何?

目標(biāo)檢測提升 10.9% 精度

論文在大規(guī)模任務(wù)數(shù)據(jù)集 COCO-Tasks 上對 TOIST 進(jìn)行了測試。

評估方法采用的是目標(biāo)檢測等視覺任務(wù)中常見的 mAP(mean Average Precision)。

簡單來說,TOIST 比此前的實例分割和目標(biāo)檢測模型 SOTA 模型表現(xiàn)更好,而有了名詞-代詞蒸餾方法加成的“強(qiáng)化版”TOIST,表現(xiàn)又比 TOIST 更上一層樓。

其中在目標(biāo)檢測任務(wù)上,相比當(dāng)前最好的 Yolo+GGNN,“強(qiáng)化版”TOIST 的判定框精度 mAP 提升了 10.9%,在實例分割任務(wù)上,遮罩精度則比 Mask-RCNN+GGNN 高 6.6%。

至于提出的名詞-代詞蒸餾方法,相比 TOIST 原版,又在實例分割任務(wù)上分別提高了 2.8%3.8% 的精度。

具體到案例表現(xiàn)上,模型效果也與實際分割真值非常接近。

例如在圖(d)中,算法甚至識別出來了能用桌子開啤酒瓶蓋,可以說是理解能力滿分了:

對于做這項研究的初衷,作者回應(yīng)稱:

我們實驗室其實是負(fù)責(zé)研究機(jī)器人的,但在平時的調(diào)研中發(fā)現(xiàn),用戶有時候會更傾向于給機(jī)器人描述“需求”,而不是直接告訴機(jī)器人做什么。

換而言之,就是用 AI 算法讓機(jī)器人“多想一步”,而非只是一個聽從命令的助手。

作者介紹

這篇論文的作者來自清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)、北京大學(xué)和英特爾研究院,AIR 院長張亞勤也是作者之一。

論文一作李鵬飛,清華大學(xué)智能產(chǎn)業(yè)研究院的在讀博士生,本科畢業(yè)于中國科學(xué)院大學(xué),研究方向是自動駕駛、計算機(jī)視覺等。

通訊作者趙昊,清華大學(xué)智能產(chǎn)業(yè)研究院助理教授(incoming Assistant Professor)、英特爾中國研究院研究科學(xué)家、北大聯(lián)合博士后,本博畢業(yè)于清華大學(xué)電子工程系,研究興趣是機(jī)器人、計算機(jī)視覺方向。

對視覺-語言大模型感興趣的小伙伴們,可以試試這個新思路了~

論文地址:

https://arxiv.org/abs/2210.10775

項目地址:

https://github.com/AIR-DISCOVER/TOIST

本文來自微信公眾號:量子位 (ID:QbitAI),作者:蕭簫

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知