設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AI 變鑒片大師,星際穿越都能看懂!賈佳亞團(tuán)隊(duì)新作,多模態(tài)大模型挑戰(zhàn)超長 3 小時(shí)視頻

量子位 2023/12/10 15:39:24 責(zé)編:遠(yuǎn)洋

啥?AI 都能自己看電影大片了?

賈佳亞團(tuán)隊(duì)最新研究成果,讓大模型直接學(xué)會了處理超長視頻。

丟給它一部科幻大片《星際穿越》(片長 2 小時(shí) 49 分鐘):

它“看”完之后,不僅能結(jié)合電影情節(jié)和人物輕松對電影進(jìn)行點(diǎn)評

還能很精準(zhǔn)地回答出劇中所涉的細(xì)節(jié)

例如:蟲洞的作用和創(chuàng)造者是誰?

答:未來的智慧生物放置在土星附近,用于幫助人類進(jìn)行遠(yuǎn)距離星際穿越。

男主庫珀是如何將黑洞中的信息傳遞給女兒墨菲?

答:通過手表以摩斯密碼的方式傳遞數(shù)據(jù)。

啊這,感覺電影博主的飯碗也要被 AI 搶走了。

這就是最新多模態(tài)大模型 LLaMA-VID,它支持單圖、短視頻和長視頻三種輸入。

對比來看,包括 GPT-4V 等在內(nèi)的同類模型基本只能處理圖像。

而背后原理更有看頭。

據(jù)介紹,LLaMA-VID 只通過一個(gè)非常簡單的辦法就達(dá)成了如上能力,那就是:

把表示每一幀圖像的 token 數(shù)量,壓縮到僅有 2 個(gè)。

具體效果如何以及如何實(shí)現(xiàn)?一起來看。

人物理解分析、電影細(xì)節(jié)都 OK

對于電影來說,除了精準(zhǔn)回答所涉細(xì)節(jié),LLaMA-VID 也能對角色進(jìn)行十分準(zhǔn)確的理解和分析。

還是《星際穿越》,我們讓它看完后分析米勒星球上相對地球時(shí)間的快慢及原因。

結(jié)果完全正確:

LLaMA-VID 表示是因?yàn)槊桌招乔蛟诤诙锤浇?,?dǎo)致 1 小時(shí)相當(dāng)于地球 7 年。

再丟給它時(shí)長近倆小時(shí)的《阿甘正傳》。

對于“珍妮對于阿甘有何意義?”這一問題,LLaMA-VID 的回答是:

孩童時(shí)期的朋友,后來成為阿甘的妻子,是阿甘生活和心靈的慰藉。

對于阿甘在戰(zhàn)爭及退伍后的事件也能進(jìn)行分析,且回答也很到位:

丹中尉責(zé)怪阿甘救了自己,因?yàn)檫@讓他無法戰(zhàn)死沙場。

除了看電影,成為一個(gè)無所不知的的“電影搭子”,它也能很好地理解宣傳片的意圖,回答一些開放問題。

比如給它一段最近很火的 GTA6 預(yù)告片。

問它“這個(gè)游戲哪里最吸引你?”,它“看”完后給出的想法是:

一是游戲場景和設(shè)置非常多(從賽車、特技駕駛到射擊等),二是視覺效果比較驚艷。

哦對了,LLaMA-VID 還能根據(jù)游戲中的場景和特征,推測出預(yù)告片是 Rockstar 游戲公司的推廣:

以及認(rèn)出游戲的背景城市為邁阿密(根據(jù)夜生活、海灘等信息,以及在作者提示游戲設(shè)置在佛羅里達(dá)之后)。

最后,在宣傳片、時(shí)長高達(dá) 2-3 小時(shí)的電影這些視頻材料之外,我們也來看看 LLaMA-VID 對最基礎(chǔ)的圖片信息的理解能力。

吶,準(zhǔn)確識別出這是一塊布料,上面有個(gè)洞:

讓它扮演“福爾摩斯”也不在話下。面對這樣一張房間內(nèi)景照片:

它可以從門上掛了很多外套分析出房間主人可能生活繁忙 / 經(jīng)常外出。

看得出來,LLaMA-VID 對視頻的準(zhǔn)確解讀正是建立在這樣的圖片水準(zhǔn)之上的,但最關(guān)鍵的點(diǎn)還是它如何完成如此長時(shí)間的視頻處理。

幾行代碼實(shí)現(xiàn)單幀 2 token 表示

LLaMA-VID 的關(guān)鍵創(chuàng)新是將每幀畫面的 token 數(shù)量壓縮到很低,從而實(shí)現(xiàn)可處理超長視頻。

很多傳統(tǒng)多模態(tài)大模型對于單張圖片編碼的 token 數(shù)量過多,導(dǎo)致了視頻時(shí)間加長后,所需 token 數(shù)量暴增,模型難以承受。

為此研究團(tuán)隊(duì)重新設(shè)計(jì)了圖像的編碼方式,采用上下文編碼(Context Token)和圖像內(nèi)容編碼(Content Token)來對視頻中的單幀進(jìn)行編碼。

從而實(shí)現(xiàn)了將每一幀用 2 個(gè) token 表示

具體來看 LLaMA-VID 的框架。

只包含 3 個(gè)部分:

采用編解碼器產(chǎn)生視覺嵌入和文本引導(dǎo)特征。

根據(jù)特定 token 生成策略轉(zhuǎn)換上下文 token 和圖像內(nèi)容 token。

指令調(diào)優(yōu)進(jìn)一步優(yōu)化。

根據(jù)指令,LLaMA-VID 選取單個(gè)圖像或視頻幀作為輸入,然后從大語言模型上生成回答。

這個(gè)過程從一個(gè)可視編碼器開始,該編碼器將輸入幀轉(zhuǎn)換為可視幀嵌入。

然后文本解碼器根據(jù)用戶輸入和圖像編碼器提取的特征,來生成與輸入指令相關(guān)的跨模態(tài)索引(Text Query)。

然后利用注意力機(jī)制(Context Attention),將視覺嵌入中和文本相關(guān)的視覺線索聚合起來,也就是特征采樣和組合,從而生成高質(zhì)量的指令相關(guān)特征。

為了提高效率,模型將可視化嵌入樣本壓縮到不同 token 大小,甚至是一個(gè) token。

其中,上下文 token 根據(jù)用戶輸入的問題生成,盡可能保留和用戶問題相關(guān)的視覺特征。

圖像內(nèi)容 token 則直接根據(jù)用戶指令對圖像特征進(jìn)行池化采樣,更關(guān)注圖像本身的內(nèi)容信息,對上下文 token 未關(guān)注到的部分進(jìn)行補(bǔ)充。

文本引導(dǎo)上下文 token 和圖像 token 來一起表示每一幀。

最后,大語言模型將用戶指令和所有視覺 token 作為輸入,生成回答。

而且這種 token 的生成方法很簡單,僅需幾行代碼。

實(shí)驗(yàn)結(jié)果方面,LLaMA-VID 在多個(gè)視頻問答和推理榜單上實(shí)現(xiàn) SOTA

僅需加入 1 個(gè)上下文 token 拓展,LLaMA-VID 在多個(gè)圖片問答指標(biāo)上也能獲得顯著提升。

在 16 個(gè)視頻、圖片理解及推理數(shù)據(jù)集上,LLaMA-VID 實(shí)現(xiàn)了很好效果。

在 GitHub 上,團(tuán)隊(duì)提供了不同階段的所有微調(diào)模型,以及第一階段的預(yù)訓(xùn)練權(quán)重。

具體訓(xùn)練包括 3 個(gè)過程:特征對齊、指令微調(diào)、長視頻微調(diào)(相應(yīng)步驟可參考 GitHub)。

此外,LLaMA-VID 還收集了 400 部電影并生成 9K 條長視頻問答語料,包含電影影評、人物成長及情節(jié)推理等。

結(jié)合之前賈佳亞團(tuán)隊(duì)所發(fā)布的長文本數(shù)據(jù)集 LongAlpaca-12k(9k 條長文本問答語料對、3k 短文本問答語料對), 可輕松將現(xiàn)有多模態(tài)模型拓展來支持長視頻輸入。

值得一提的是,今年 8 月開始賈佳亞團(tuán)隊(duì)就發(fā)布了主攻推理分割的 LISA 多模態(tài)大模型。

10 月還發(fā)布了長文本開源大語言模型 LongAlpaca(70 億參數(shù))和超長文本擴(kuò)展方法 LongLoRA。

LongLoRA 只需兩行代碼便可將 7B 模型的文本長度拓展到 100k tokens,70B 模型的文本長度拓展到 32k tokens。

最后,團(tuán)隊(duì)也提供了 demo 地址,可自己上傳視頻和 LLaMA-VID 對話(部署在單塊 3090,需要的小伙伴可以參考 code 用更大的顯存部署,直接和整個(gè)電影對話)。

看來,以后看不懂諾蘭電影,可以請教 AI 試試

~

論文地址:

https://arxiv.org/abs/2311.17043

GitHub 地址:

https://github.com/dvlab-research/LLaMA-VID

demo 地址:

http://103.170.5.190:7864/

本文來自微信公眾號:量子位 (ID:QbitAI),作者:豐色 明敏

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知