誰能想到,只是讓大模型講笑話,論文竟入選了頂會(huì) CVPR(國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議)!
沒開玩笑,這還真真兒的是一項(xiàng)正兒八經(jīng)的研究。例如看下面這張圖,如果讓你根據(jù)它來講個(gè)笑話或梗,你會(huì)想到什么?
現(xiàn)在的大模型看完后會(huì)說:
腦子短路。
再看一眼 蜘蛛俠 的海報(bào),大模型會(huì)配一句“剛擦的玻璃不能弄臟”。
李云龍 、 奧本海默 也被玩得飛起:
導(dǎo)師讀了我的論文之后……
真男人不回頭看爆炸。
還有醬紫的:
不得不說,大模型這腦洞還是挺大的。
這項(xiàng)研究正是來自中山大學(xué) HCP 實(shí)驗(yàn)室林倞教授團(tuán)隊(duì)、Sea AI Lab 和哈佛大學(xué)等單位,主打的就是打破常規(guī)思維思考(Think Outside the Box),探索多模態(tài)大模型的創(chuàng)造力。
要知道,同樣的圖要是“喂”給 ChatGPT(GPT-4)等主流大模型,讓它們講笑話或梗,畫風(fēng)可并非如此:
太正經(jīng)了!So boring~~~~
那么中山大學(xué)等單位的這個(gè)“梗王大模型”,是怎么煉成的呢?
先讓大模型看搞笑的數(shù)據(jù)
在數(shù)據(jù)的選擇上,團(tuán)隊(duì) pick 的是來自日本的“大喜利”(Oogiri)創(chuàng)新響應(yīng)游戲。
“大喜利”本來是指一系列日本傳統(tǒng)戲劇游戲,隨著時(shí)代的快速發(fā)展?,F(xiàn)代的“大喜利”,目前一般是指一種叫 Tonchi (頓智)的游戲,通常以游戲節(jié)目或智力問答節(jié)目的形式呈現(xiàn)。
玩家被提供各種多模態(tài)內(nèi)容,可以是簡(jiǎn)單的問題、隨機(jī)圖像等,然后提示玩家想出幽默的、有創(chuàng)意的反應(yīng),以達(dá)到令人驚訝的喜劇效果。
例如下面這個(gè)“圖文到文”的例子:
玩家要求閱讀圖像,和上面對(duì)應(yīng)的文字,嘗試想出一段文字填入對(duì)應(yīng)的問號(hào)“?”位置,使得整個(gè)圖文可以展示出幽默且有創(chuàng)意的效果。
在第一個(gè)例子中,老人向年輕人尋求幫助,從正常的思維來看,可能的填寫方式可以是“請(qǐng)問 xxx 路怎么走?”或者是“可以帶我回家嗎,我迷路了”之類的。
然而,所給出的“你… 你能幫我解開手銬嗎?”的寫法具有沖擊感、幽默感,且看起來確實(shí)是這么一回事,讓人忍俊不禁。
再看下“圖到文”的例子:
玩家要求看圖配文,并使得圖文搭配起來具有幽默效果。
這張圖看起來是一個(gè)很普通的拖車的圖片(需要注意的是,在“大喜利”游戲中,一般圖片都是很普通的日常圖片)。
配文“快讓開!我的兄弟傷得很嚴(yán)重”讓傾斜著身體 45° 向上的車看起來像是一個(gè)奄奄一息的車子;在道路上快速的馳騁也確實(shí)體現(xiàn)了位于下方的車很著急,急著送兄弟去醫(yī)院。
還有第三種“文到文”的例子:
玩家被要求根據(jù)所給的文字進(jìn)行回復(fù),使得回復(fù)和問題合在一起具備幽默感。
這個(gè)例子中的回復(fù)似乎在調(diào)侃程序員的日常工作主要就是代碼的“復(fù)制 + 粘貼”(注:CV 工程師除了可以表示 computer vision 工程師也可以表示 ctrl+c / ctrl+v 工程師 )。
這項(xiàng)工作主要關(guān)注的就是這三種類型的“大喜利”游戲,相關(guān)數(shù)據(jù) Oogiri-GO 如下表所示,含中英日三種語言:
至于為什么要選擇“大喜利”這個(gè)游戲,是因?yàn)閳F(tuán)隊(duì)認(rèn)為它是用于探索多模態(tài)大模型創(chuàng)新能力的理想平臺(tái)。具體原因如下:
“大喜利”游戲是天然的創(chuàng)新響應(yīng)任務(wù)。如上所提到的,現(xiàn)代“大喜利”也被稱為 Tonchi (頓智)。“頓”在日文和中文中都表示“突然”,而“智”的意思是“智力、洞察力或直覺”,該游戲天然地要求玩家給出令人眼前一亮、靈光一閃的創(chuàng)新響應(yīng);
“大喜利”的數(shù)據(jù)格式是高度合適的。不管是“圖文到文”、“圖到文”還是“文到文”,這些類型都天然地和目前多模特大模型的輸入輸出格式吻合,即輸入為“圖文”,輸出僅為“文”。
“大喜利”數(shù)據(jù)質(zhì)量高。創(chuàng)新是一件很難的事情,即使是人類,因此能作為“創(chuàng)新”相關(guān)的數(shù)據(jù)集并不多。鑒于該游戲長(zhǎng)期在互聯(lián)網(wǎng)上非?;钴S(在中文社區(qū)中,一般也叫日式神吐槽 / 冷吐槽),而且?guī)в写罅奎c(diǎn)評(píng)數(shù)據(jù),比如點(diǎn)贊數(shù)等等。正好積累了大量高質(zhì)量人類創(chuàng)新幽默響應(yīng)可以被用于研究。
再讓大模型打破常規(guī)思考
傳統(tǒng)的鏈?zhǔn)剿伎?/strong>(Chain-of-Thought,CoT)方法是一種順序思考過程,通過逐步推理指導(dǎo)大模型進(jìn)行邏輯推理,每個(gè)后續(xù)的思考都建立在前一個(gè)思考的基礎(chǔ)上:
這一思考過程一定程度上確保了精確性和嚴(yán)謹(jǐn)性,但對(duì)于創(chuàng)造性問題表現(xiàn)不佳。
因此,團(tuán)隊(duì)探索了一種新的非順序、創(chuàng)造性思維范式 —— 跳躍思維 Leap-of-Thought(LoT)。
這種范式涉及到思考關(guān)聯(lián)性和知識(shí)跳躍。遠(yuǎn)距離的思考也被認(rèn)為是聯(lián)想。
與 CoT 強(qiáng)調(diào)邏輯緊密的思維鏈不同,LoT 強(qiáng)調(diào)打破常規(guī)思維思考問題,激發(fā)模型的創(chuàng)造力。
基于此,團(tuán)隊(duì)在 Oogiri-GO 數(shù)據(jù)集基礎(chǔ)之上,進(jìn)一步提出了一套激發(fā)多模態(tài)大模型創(chuàng)造力的訓(xùn)練方法 CLoT。
具體而言,CLoT 包括兩個(gè)階段。
首先是關(guān)聯(lián)性指令微調(diào)。
在這一階段,本文設(shè)計(jì)生成式和判別式模板,將 Oogiri-GO 數(shù)據(jù)集轉(zhuǎn)換為指令微調(diào)的訓(xùn)練數(shù)據(jù),用于訓(xùn)練多模態(tài)大模型,使得模型具備初步的創(chuàng)新響應(yīng)能力。
其次是探索性自我調(diào)整。
在這一階段中,本文首先通過設(shè)計(jì)遠(yuǎn)關(guān)聯(lián)的條件詞,促使(1)中的模型生成多樣化且與輸入遠(yuǎn)關(guān)聯(lián)的回答,并設(shè)計(jì)篩選流程,獲得可靠的新 LoT 數(shù)據(jù)。隨后,新數(shù)據(jù)被轉(zhuǎn)換成指令微調(diào)的訓(xùn)練數(shù)據(jù),用于進(jìn)一步微調(diào)模型。
這一階段可以再細(xì)分為兩個(gè)步驟:
探索性遠(yuǎn)程關(guān)聯(lián):這一步驟鼓勵(lì) LLM 在給定的弱關(guān)聯(lián)條件下產(chǎn)生創(chuàng)新的回應(yīng)。通過這種方式,LLM 學(xué)習(xí)在看似不相關(guān)的概念之間建立聯(lián)系,從而生成多樣化的創(chuàng)意內(nèi)容。
自我精煉:在探索性遠(yuǎn)程關(guān)聯(lián)的基礎(chǔ)上,通過設(shè)計(jì)一系列篩選流程,收集到的創(chuàng)意回應(yīng)被用來進(jìn)一步訓(xùn)練 LLM。這樣做可以提高 LLM 在處理創(chuàng)造性任務(wù)時(shí)的表現(xiàn),使其能夠生成更高質(zhì)量和多樣性的內(nèi)容。
性能評(píng)估
為了盡可能全面評(píng)估 CLoT,這項(xiàng)研究基于 Oogiri-GO 數(shù)據(jù)集,設(shè)計(jì)了選擇題和排序題作為量化評(píng)估方式。
實(shí)驗(yàn)結(jié)果表明,CLoT 能夠顯著提高多模態(tài)大模型(如 Qwen 和 CogVLM)的性能,顯著超越包括 GPT4v 在內(nèi)的先進(jìn)模型。
另外,與其他先進(jìn)推理框架 CoT 等相比,在各項(xiàng)量化指標(biāo)下也是有顯著優(yōu)勢(shì)的。
此外,研究團(tuán)隊(duì)還通過用戶調(diào)查,證實(shí)了 CLoT 幫助模型生成了更好的幽默內(nèi)容。
研究團(tuán)隊(duì)還考慮到了 CLoT 的泛化性,用“看云猜物 CGG”和“發(fā)散思維測(cè)試 DAT”兩個(gè)其他任務(wù)評(píng)估 CLoT 的性能,實(shí)驗(yàn)結(jié)果顯示 CLoT 相對(duì)于基準(zhǔn)模型具有更好的準(zhǔn)確度,說明 CLoT 具備不錯(cuò)的泛化能力。
DAT 是一種用于評(píng)估人類聯(lián)想創(chuàng)造能力的測(cè)試。
團(tuán)隊(duì)介紹
中山大學(xué)人機(jī)物智能融合實(shí)驗(yàn)室 (HCP Lab) 由林倞教授于 2010 年創(chuàng)辦,近年來在多模態(tài)內(nèi)容理解、因果及認(rèn)知推理、具身學(xué)習(xí)等方面取得豐富學(xué)術(shù)成果,數(shù)次獲得國(guó)內(nèi)外科技獎(jiǎng)項(xiàng)及最佳論文獎(jiǎng),并致力于打造產(chǎn)品級(jí)的 AI 技術(shù)及平臺(tái)。
論文:https://arxiv.org/ abs / 2312.02439
Project:https://zhongshsh.github.io/CLoT/
Code:https://github.com/sail-sg/CLoT
本文來自微信公眾號(hào):量子位 (ID:QbitAI),作者:關(guān)注前沿科技
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。