首頁(yè) > 智能時(shí)代>人工智能

AI 理解不了“他她它”咋辦？動(dòng)詞成為新突破口，機(jī)器人聽到抹黃油就知道拿刀叉

量子位 2022/12/2 12:53:08 責(zé)編：遠(yuǎn)生

評(píng)論：

給 AI 下指令時(shí)，總覺得和人溝通不太一樣？

沒錯(cuò)，AI 雖然能聽懂一些具體的人類指令，例如：

幫忙從餐廳搬個(gè)椅子過來(lái)。

但要是換成只有代詞（他 / 她 / 它 / 這 / 那 / 東西…）和動(dòng)詞的模糊指令，AI 就一頭霧水了：

幫忙找個(gè)能墊腳的東西。

AI 理解不了“他她它”咋辦？動(dòng)詞成為新突破口，機(jī)器人聽到抹黃油就知道拿刀叉

現(xiàn)在，終于有研究人員想出了一種新的應(yīng)對(duì)方法：讓 AI 學(xué)會(huì)理解動(dòng)詞不就行了？

動(dòng)詞本身就和一些特定的名詞綁定，例如“抹黃油”這個(gè)動(dòng)作肯定離不開“刀”、“叉”這樣的名詞。

只需要將它們進(jìn)行匹配，不需要“刀叉”這類名詞指令，AI 也能準(zhǔn)確找出目標(biāo)物體：

AI 理解不了“他她它”咋辦？動(dòng)詞成為新突破口，機(jī)器人聽到抹黃油就知道拿刀叉

目前，這篇論文正式被 NeurIPS 2022 收錄，相關(guān)模型也已經(jīng)開源：

AI 理解不了“他她它”咋辦？動(dòng)詞成為新突破口，機(jī)器人聽到抹黃油就知道拿刀叉

所以它究竟是如何訓(xùn)練 AI 理解動(dòng)詞的？

遮住名詞讓 AI“看圖找物”

論文提出了一種名叫 TOIST 的框架。

TOIST 即“任務(wù)導(dǎo)向的實(shí)例分割 Transformer”（Task Oriented Instance Segmentation Transformer），是一種基于 Transformer 的實(shí)例分割新方案。

實(shí)例分割與語(yǔ)義分割的“全圖切割”不同，它還具備目標(biāo)檢測(cè)的特點(diǎn)，例如下圖憑借名詞“掀背車”（hatchback car），直接找出對(duì)應(yīng)物體：

AI 理解不了“他她它”咋辦？動(dòng)詞成為新突破口，機(jī)器人聽到抹黃油就知道拿刀叉

此前，實(shí)例分割模型通常分為“兩步走”，第一步檢測(cè)可能的目標(biāo)，第二步對(duì)可能的目標(biāo)進(jìn)行排序，預(yù)測(cè)出最有可能的結(jié)果。

但與這種方式不同，TOIST 框架直接采用一整個(gè) Transformer 架構(gòu)，其中解碼器中的自注意力機(jī)制可以建立候選目標(biāo)之間的偏好關(guān)系。

TOIST 框架整體分為三個(gè)部分。

其中，多模態(tài)編碼器（棕色部分）負(fù)責(zé)提取特征標(biāo)記，Transformer 編碼器（綠色部分）負(fù)責(zé)將兩種模態(tài)的特征聚合起來(lái)，并基于 Transformer 解碼器（藍(lán)色部分）中的注意力機(jī)制來(lái)預(yù)測(cè)最合適的目標(biāo)。

隨后，論文提出了一種新的名詞-代詞蒸餾方法（noun-pronoun distillation）來(lái)訓(xùn)練模型。

具體來(lái)說(shuō)，即基于知識(shí)蒸餾（上圖教師-學(xué)生模型）框架，以無(wú)監(jiān)督學(xué)習(xí)的方式，訓(xùn)練 AI 憑借上下文來(lái)“猜測(cè)”名詞原型。

例如原本的實(shí)例分割任務(wù)是“用滑板挖洞”，但在訓(xùn)練模型時(shí)，會(huì)把名詞“滑板”（skateboard）用代詞“某個(gè)東西”（something）替代：

AI 理解不了“他她它”咋辦？動(dòng)詞成為新突破口，機(jī)器人聽到抹黃油就知道拿刀叉

這樣 AI 在不知道名詞的時(shí)候，也能憑空猜測(cè)出正確的名詞，并在圖中分割出正確的目標(biāo)：

AI 理解不了“他她它”咋辦？動(dòng)詞成為新突破口，機(jī)器人聽到抹黃油就知道拿刀叉

這樣的分割效果，在實(shí)際案例中表現(xiàn)如何？

目標(biāo)檢測(cè)提升 10.9% 精度

論文在大規(guī)模任務(wù)數(shù)據(jù)集 COCO-Tasks 上對(duì) TOIST 進(jìn)行了測(cè)試。

評(píng)估方法采用的是目標(biāo)檢測(cè)等視覺任務(wù)中常見的 mAP（mean Average Precision）。

簡(jiǎn)單來(lái)說(shuō)，TOIST 比此前的實(shí)例分割和目標(biāo)檢測(cè)模型 SOTA 模型表現(xiàn)更好，而有了名詞-代詞蒸餾方法加成的“強(qiáng)化版”TOIST，表現(xiàn)又比 TOIST 更上一層樓。

其中在目標(biāo)檢測(cè)任務(wù)上，相比當(dāng)前最好的 Yolo+GGNN，“強(qiáng)化版”TOIST 的判定框精度 mAP 提升了 10.9%，在實(shí)例分割任務(wù)上，遮罩精度則比 Mask-RCNN+GGNN 高 6.6%。

AI 理解不了“他她它”咋辦？動(dòng)詞成為新突破口，機(jī)器人聽到抹黃油就知道拿刀叉

至于提出的名詞-代詞蒸餾方法，相比 TOIST 原版，又在實(shí)例分割任務(wù)上分別提高了 2.8% 和 3.8% 的精度。

AI 理解不了“他她它”咋辦？動(dòng)詞成為新突破口，機(jī)器人聽到抹黃油就知道拿刀叉

具體到案例表現(xiàn)上，模型效果也與實(shí)際分割真值非常接近。

例如在圖（d）中，算法甚至識(shí)別出來(lái)了能用桌子開啤酒瓶蓋，可以說(shuō)是理解能力滿分了：

AI 理解不了“他她它”咋辦？動(dòng)詞成為新突破口，機(jī)器人聽到抹黃油就知道拿刀叉

對(duì)于做這項(xiàng)研究的初衷，作者回應(yīng)稱：

我們實(shí)驗(yàn)室其實(shí)是負(fù)責(zé)研究機(jī)器人的，但在平時(shí)的調(diào)研中發(fā)現(xiàn)，用戶有時(shí)候會(huì)更傾向于給機(jī)器人描述“需求”，而不是直接告訴機(jī)器人做什么。

換而言之，就是用 AI 算法讓機(jī)器人“多想一步”，而非只是一個(gè)聽從命令的助手。

作者介紹

這篇論文的作者來(lái)自清華大學(xué)智能產(chǎn)業(yè)研究院（AIR）、北京大學(xué)和英特爾研究院，AIR 院長(zhǎng)張亞勤也是作者之一。

AI 理解不了“他她它”咋辦？動(dòng)詞成為新突破口，機(jī)器人聽到抹黃油就知道拿刀叉

論文一作李鵬飛，清華大學(xué)智能產(chǎn)業(yè)研究院的在讀博士生，本科畢業(yè)于中國(guó)科學(xué)院大學(xué)，研究方向是自動(dòng)駕駛、計(jì)算機(jī)視覺等。

AI 理解不了“他她它”咋辦？動(dòng)詞成為新突破口，機(jī)器人聽到抹黃油就知道拿刀叉

通訊作者趙昊，清華大學(xué)智能產(chǎn)業(yè)研究院助理教授（incoming Assistant Professor）、英特爾中國(guó)研究院研究科學(xué)家、北大聯(lián)合博士后，本博畢業(yè)于清華大學(xué)電子工程系，研究興趣是機(jī)器人、計(jì)算機(jī)視覺方向。

AI 理解不了“他她它”咋辦？動(dòng)詞成為新突破口，機(jī)器人聽到抹黃油就知道拿刀叉

對(duì)視覺-語(yǔ)言大模型感興趣的小伙伴們，可以試試這個(gè)新思路了~

論文地址：

https://arxiv.org/abs/2210.10775

項(xiàng)目地址：

https://github.com/AIR-DISCOVER/TOIST

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：蕭簫

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AI 理解不了“他她它”咋辦？動(dòng)詞成為新突破口，機(jī)器人聽到抹黃油就知道拿刀叉

遮住名詞讓 AI“看圖找物”

目標(biāo)檢測(cè)提升 10.9% 精度

作者介紹

相關(guān)文章

AI 理解不了“他她它”咋辦？動(dòng)詞成為新突破口，機(jī)器人聽到抹黃油就知道拿刀叉