設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

GPT-4V 都搞不明白的未來(lái)推理有解法了!來(lái)自華科大 & 上科大

量子位 2023/12/17 21:26:29 責(zé)編:問(wèn)舟

多模態(tài)大語(yǔ)言模型展現(xiàn)了強(qiáng)大的圖像理解和推理能力。但要讓它們基于當(dāng)前觀測(cè)來(lái)對(duì)未來(lái)事件進(jìn)行預(yù)測(cè)推理仍然非常困難。

即便是當(dāng)前最強(qiáng)大的 GPT-4V(如下圖所示),也無(wú)法很好地解決這一問(wèn)題。

△ GPT-4V 的錯(cuò)誤案例

現(xiàn)在,華科大和上科大團(tuán)隊(duì)提出了一個(gè)賦予多模態(tài)大語(yǔ)言模型前瞻性思維的學(xué)習(xí)范式,并基于這一范式構(gòu)建了多模態(tài)大語(yǔ)言模型 Merlin(梅林)。

Merlin(梅林)是亞瑟王傳說(shuō)中的一個(gè)傳奇人物,以其強(qiáng)大的魔法和智慧而聞名于亞瑟王傳說(shuō)。傳說(shuō)中梅林擁有預(yù)見(jiàn)未來(lái)的能力,并對(duì)命運(yùn)有著深刻的理解。

來(lái)看看它具體是如何做的?

注:人類(lèi)可以根據(jù)當(dāng)前觀測(cè)狀態(tài)來(lái)推理出即將或者接下來(lái)一段時(shí)間可能會(huì)發(fā)生的事件,我們將這一能力稱(chēng)為前瞻性思維。

一個(gè)簡(jiǎn)單的例子:

當(dāng)你在電視上觀看 NBA 球賽時(shí),你可以根據(jù)場(chǎng)上不同球員的狀態(tài)來(lái)判斷接下來(lái)可能會(huì)出現(xiàn)的場(chǎng)景。

比如當(dāng)一名進(jìn)攻球員在持球突破防守人之后,我們有理由判斷這名球員即將沖到籃下進(jìn)行上籃或者灌籃。

再比如當(dāng)持球人在三分線停下并面向籃筐時(shí),我們則有理由預(yù)測(cè)這名球員即將進(jìn)行三分射籃(當(dāng)然也有可能是假動(dòng)作為了晃開(kāi)防守人進(jìn)行突破)。

Merlin 大模型就可以進(jìn)行此類(lèi)預(yù)測(cè)。

方法介紹

為了探究如何賦予激發(fā)多模態(tài)大語(yǔ)言模型的前瞻性思維。

我們首先深入分析了人類(lèi)是如何進(jìn)行未來(lái)事件的預(yù)測(cè)的。

我們將人類(lèi)進(jìn)行未來(lái)事件的推理預(yù)測(cè)視為一個(gè)兩階段的系統(tǒng)。

首先一階段我們會(huì)對(duì)當(dāng)前場(chǎng)景進(jìn)行觀測(cè),觀測(cè)過(guò)程當(dāng)中重點(diǎn)捕捉相關(guān)主體的動(dòng)態(tài)線索,第二階段我們的大腦會(huì)根據(jù)這個(gè)獲取的動(dòng)態(tài)線索來(lái)分析主體的行為模式(比如奔行走或者奔跑等)及行為意圖,進(jìn)而推理出即將可能發(fā)生的事件。

對(duì)標(biāo)多模態(tài)大語(yǔ)言模型,我們認(rèn)為第二階段是可以較好地完成的,這得益于大語(yǔ)言模型強(qiáng)大的邏輯推理能力。

所以問(wèn)題出在了第一階段,也就是當(dāng)前的多模態(tài)大語(yǔ)言模型難以成功捕獲相關(guān)主體的動(dòng)態(tài)信息,進(jìn)而限制了其對(duì)于未來(lái)事件推理的能力。

得到這一結(jié)論之后,接下來(lái)我們要做就是探究如何讓多模態(tài)大語(yǔ)言模型學(xué)會(huì)從當(dāng)前觀測(cè)中捕捉相關(guān)主體的動(dòng)態(tài)線索信息。

為了實(shí)現(xiàn)這一目標(biāo),一個(gè)直接的方案就是讓多模態(tài)大語(yǔ)言模型學(xué)習(xí)預(yù)測(cè)下一幀的全部信息(也就是以重建下一幀為優(yōu)化目標(biāo))。

不過(guò)這么做一方面學(xué)習(xí)難度較大,另一方面圖像或者視頻序列存在大量的冗余視覺(jué)信息,這并不利于模型學(xué)會(huì)捕獲對(duì)應(yīng)主體的動(dòng)態(tài)信息。

基于上述分析,本文提出了一個(gè)以“軌跡”這一結(jié)構(gòu)化表示作為優(yōu)化目標(biāo)來(lái)建立過(guò)去與未來(lái)之間的動(dòng)態(tài)關(guān)聯(lián)。我們認(rèn)為以軌跡作為優(yōu)化目標(biāo)有以下幾點(diǎn)好處:

(1)軌跡作為一種高度結(jié)構(gòu)化的表征具有較強(qiáng)的信息凝練性,能夠幫助模型有效地提取出主體在連續(xù)動(dòng)作中的關(guān)鍵動(dòng)態(tài)信息,從而減少了對(duì)冗余視覺(jué)信息的學(xué)習(xí)需求,計(jì)算成本更低。

(2)軌跡可以很自然地將過(guò)去和未來(lái)關(guān)聯(lián)在一起,通過(guò)學(xué)習(xí)預(yù)測(cè)主體的軌跡,多模態(tài)大語(yǔ)言模型必須學(xué)會(huì)精確地關(guān)注對(duì)應(yīng)的主體在不同幀中的對(duì)應(yīng)位置,可以極大地增強(qiáng)模型多圖多身份 (Id) 的對(duì)齊能力。

基于這些優(yōu)點(diǎn),我們?cè)O(shè)計(jì)了一個(gè)新型的學(xué)習(xí)框架,它專(zhuān)注于從多模態(tài)輸入(如圖像、視頻和文本)中提取和理解主體的運(yùn)動(dòng)軌跡并進(jìn)行預(yù)測(cè)。此框架具體如下:

受到當(dāng)前主流 LLM 學(xué)習(xí)范式的啟發(fā),我們也構(gòu)建了一個(gè)兩階段的學(xué)習(xí)范式,分別為前瞻思維預(yù)訓(xùn)練(Foresight Pre-Training, FPT)以及前瞻思維指令微調(diào)(Foresight Instruction-Tuning, FIT)。

在 FPT 中,我們首先會(huì)輸入包含數(shù)幀圖片的視覺(jué)上下文 tokens 給模型,然后我們會(huì)給予相關(guān)主體的第一幀的初始觀測(cè)(初始位置,表觀描述或者是動(dòng)作描述),接著我們要求模型需要根據(jù)初始觀測(cè)來(lái)預(yù)測(cè)出對(duì)應(yīng)主體的整條軌跡。

通過(guò)學(xué)習(xí)預(yù)測(cè)整條軌跡,模型必須學(xué)會(huì)正確關(guān)注多圖中的對(duì)應(yīng)主體并捕捉其動(dòng)態(tài)信息。

而在 FIT 中,則會(huì)加入一些相關(guān)的 user prompt 來(lái)進(jìn)行關(guān)于相關(guān)主體的對(duì)話。

值得注意的是,為了在這一階段激發(fā)模型的前瞻性思維,我們也設(shè)計(jì)了一種以“軌跡”為核心的指令交互形式,我們將其稱(chēng)之為軌跡思維鏈技術(shù)(Trajectory Chain-of-Thought,T-CoT)。

具體來(lái)說(shuō),當(dāng)和模型進(jìn)行對(duì)話時(shí),我們會(huì)要求模型將提及的相關(guān)主體的軌跡一并輸出(如上圖所示)。

通過(guò)輸出整條軌跡,強(qiáng)制要求模型關(guān)注多圖中的對(duì)應(yīng)主體,為后續(xù)的未來(lái)事件推理提供足夠的動(dòng)態(tài)信息。更多方法細(xì)節(jié),請(qǐng)閱讀論文。

數(shù)據(jù)構(gòu)造

設(shè)計(jì)好了我們的學(xué)習(xí)范式之后,接下來(lái)更重要的是構(gòu)建合適的數(shù)據(jù)來(lái)讓模型進(jìn)行學(xué)習(xí),我們基于現(xiàn)在市面上開(kāi)源的數(shù)據(jù)精心構(gòu)建了一整套多任務(wù)學(xué)習(xí)數(shù)據(jù),數(shù)據(jù)分布具體如下:

主要包括 Caption,Referring,Detection,Tracking,Reasoning 以及 Dialogue 數(shù)據(jù) * 表示數(shù)據(jù)只用于指令微調(diào)階段(FIT)。

這里梅林首次使用了由 tracking 數(shù)據(jù)構(gòu)造的 FPT 數(shù)據(jù)來(lái)賦予模型軌跡感知及預(yù)測(cè)能力。

另一方面,我們也提出了精確任務(wù)及輸出形式提示(Precise Definition of Task Prompt and Answer Format)技術(shù):

通過(guò)告訴大模型具體的任務(wù)以及輸出形式來(lái)避免多任務(wù)學(xué)習(xí)之間的沖突以及對(duì)通用多模態(tài)能力的損害。

我們后續(xù)的實(shí)驗(yàn)也表明采用這一技術(shù)可以讓大模型兼顧學(xué)習(xí)多任務(wù)專(zhuān)有能力以及通用多模態(tài)能力。

能力展示

結(jié)合上述兩個(gè)學(xué)習(xí)過(guò)程以及構(gòu)建的高質(zhì)量數(shù)據(jù),我們搭建了一個(gè)全新的通用多模態(tài)大語(yǔ)言模型,梅林(Merlin)。

Merlin 可以支持單圖或多幀圖像序列的輸入,可以完成包括檢測(cè),跟蹤,REC,REG 等一系列任務(wù)。

同時(shí)得益于我們提出的 FPT 以及 FIT,Merlin 展現(xiàn)了強(qiáng)大基于軌跡的未來(lái)推理能力,這里我們挑一些 cases 來(lái)展示 Merlin 的能力,更多的測(cè)試結(jié)果請(qǐng)閱讀我們的論文以及后續(xù)開(kāi)放的 demo。

實(shí)驗(yàn)分析

為了全面評(píng)測(cè) Merlin 的各方面能力,我們?cè)O(shè)計(jì)了一系列性能比較試驗(yàn)以及性質(zhì)探究實(shí)驗(yàn),這里我們著重挑選幾個(gè)有啟發(fā)性的實(shí)驗(yàn)來(lái)進(jìn)行分享,更多實(shí)驗(yàn)細(xì)節(jié),請(qǐng)閱讀我們的論文。

1、未來(lái)推理(Future Reasoning)評(píng)測(cè)

由于當(dāng)前領(lǐng)域內(nèi)并沒(méi)有成熟的可以對(duì)多模態(tài)大語(yǔ)言模型進(jìn)行評(píng)測(cè)的 benchmark,所以本工作基于 MMBench 搭建了一套新的 Future Reasoning Benchmark。

在這一 benchmark 上,Merlin 顯著超越了現(xiàn)有的主流多模態(tài)大模型,展現(xiàn)了強(qiáng)大的未來(lái)推理能力。

    2、軌跡關(guān)聯(lián)及預(yù)測(cè)評(píng)測(cè)

由于 Merlin 將基于初始觀測(cè)進(jìn)行相關(guān)主體軌跡預(yù)測(cè)作為預(yù)訓(xùn)練中的一項(xiàng)核心學(xué)習(xí)目標(biāo),為了更全面的評(píng)測(cè)這一學(xué)習(xí)情況,我們重點(diǎn)選擇了 tracking 這一下游任務(wù)來(lái)進(jìn)行評(píng)測(cè)。

這是由于軌跡關(guān)聯(lián)是 tracking 任務(wù)中的一個(gè)核心子任務(wù),tracking 的評(píng)測(cè)指標(biāo)可以一定程度上反應(yīng)大模型的多圖多 id 的對(duì)齊能力。

從結(jié)果可以看到 Merlin 作為一個(gè)通用多模態(tài)大語(yǔ)言模型,在 tarcking 任務(wù)上甚至超越了一些專(zhuān)家模型,同時(shí)值得注意的是這也是多模態(tài)大語(yǔ)言模型首次可以執(zhí)行 tracking 相關(guān)的任務(wù)。

   3、幻覺(jué)評(píng)測(cè)

幻覺(jué)問(wèn)題是大模型領(lǐng)域的一個(gè)重要研究課題,由于多模態(tài)大語(yǔ)言模型引入了視覺(jué)模態(tài),由主體描述和對(duì)應(yīng)的視覺(jué)信息無(wú)法準(zhǔn)確對(duì)齊而導(dǎo)致的 bias 也進(jìn)一步帶來(lái)了更加嚴(yán)重的幻覺(jué)。

本文中我們?cè)?POPE 上對(duì) Merlin 進(jìn)行了幻覺(jué)評(píng)測(cè)來(lái)評(píng)估模型的圖文之間的對(duì)齊能力。如下表所示:

可以看到,Merlin 展現(xiàn)了強(qiáng)大的抗幻覺(jué)能力,顯著領(lǐng)先當(dāng)前的主流多模態(tài)大語(yǔ)言模型,這證明了我們提出的前瞻性思維訓(xùn)練范式可以增強(qiáng)模型的“識(shí)圖”能力,讓模型減少對(duì)圖片內(nèi)容的誤識(shí)別以及圖文之間的不一致問(wèn)題。

   4、多模態(tài)綜合性能評(píng)測(cè)

Merlin 同樣在當(dāng)前的主流多模態(tài)大語(yǔ)言模型綜合能力(包括 MMBench 以及 MMVet)以及視覺(jué)問(wèn)答能力(包括 GQA 以及 VisWiz)評(píng)測(cè) Benchmark 上進(jìn)行了評(píng)測(cè)。

評(píng)測(cè)結(jié)果表明 Merlin 都取得了非常有競(jìng)爭(zhēng)力的結(jié)果,展現(xiàn)了 Merlin 強(qiáng)大的通用綜合能力。

    5、可視化分析

為了更直觀的展現(xiàn) Merlin 對(duì)于動(dòng)態(tài)信息線索的捕捉情況,本文也進(jìn)行了一個(gè)有趣的可視化實(shí)驗(yàn),對(duì)于一個(gè)具體的對(duì)話問(wèn)答,我們將模型輸出的軌跡坐標(biāo)的 word embedding 與多幀圖片的視覺(jué) tokens 之間的注意力圖進(jìn)行了可視化,如下圖所示:

我們可以看到,模型輸出的估計(jì)坐標(biāo)的 word embedding 可以準(zhǔn)確的關(guān)注到對(duì)應(yīng)幀中的對(duì)應(yīng)目標(biāo)主體。

這個(gè)可視化結(jié)果也進(jìn)一步證明了“軌跡”是一個(gè)非常好的中間表示來(lái)幫助多模態(tài)大語(yǔ)言模型建立起語(yǔ)言描述和多幀圖像對(duì)應(yīng)主體之間的動(dòng)態(tài)關(guān)聯(lián)。

這也從另一個(gè)角度解釋了為什么 Merlin 具有強(qiáng)大的多模態(tài)綜合能力以及抗幻覺(jué)能力。

思考和總結(jié)

Merlin 這一工作向我們展示了“軌跡”這一結(jié)構(gòu)化表示在幫助多模態(tài)大語(yǔ)言模型具備前瞻性思維中的重要作用。

從這一點(diǎn)出發(fā)我們可以進(jìn)一步思考回歸框(bounding box)以及軌跡(trajectory)究竟在多模態(tài)大語(yǔ)言模型的學(xué)習(xí)中究竟起到了什么樣的作用 ——

是作為一種中間形式還是可以作為一種單獨(dú)的學(xué)習(xí)優(yōu)化目標(biāo)?

另一方面現(xiàn)有的坐標(biāo)編碼是否合理,有沒(méi)有什么更加適配自然語(yǔ)言的表示形式呢?

我想這些目前都還沒(méi)有標(biāo)準(zhǔn)答案,需要各位研究者們進(jìn)一步深入地探索。最后希望 Merlin 這個(gè)工作能給多模態(tài)大模型社區(qū)帶來(lái)一些新的思考和認(rèn)知,也歡迎大家持續(xù)關(guān)注我們的工作,多多交流。

論文:

  • https://arxiv.org/pdf/2312.00589.pdf

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知