首頁 > 科學探索>科技前沿

「多模態(tài) LLM」最新介紹，數(shù)據(jù)、論文集直接打包帶走

新智元 2023/6/11 13:26:11 責編：夢澤

評論：

全面了解多模態(tài)大語言模型，首個跟蹤 MLLM 進展的論文集合發(fā)布。

進展跟蹤鏈接（Awesome-MLLM，實時更新）：https://github.com/ BradyFU / Awesome-Multimodal-Large-Language-Models

近年來，大型語言模型 Large Language Models（LLM）的研究取得了顯著的進展（例如 GPT-3，LLaMa，ChatGPT，GPT-4），這些模型在各項自然語言處理（NLP）任務上展現(xiàn)了出色的性能。

通過在海量數(shù)據(jù)上預訓練，LLM 獲得了豐富的知識以及強大的推理能力。只需要輸入一些用戶指令，這些模型就可以解析指令、進行推理并給出符合用戶預期的回答。

LLM 具有的一些典型能力包括：

?執(zhí)行訓練時未見過的新任務；

?通過少量樣例完成新任務；

?通過推理鏈條執(zhí)行復雜的推理任務；

?協(xié)調(diào)各種模型與工具完成復合任務。

這些能力背后蘊含著眾多關(guān)鍵思想和技術(shù)，包括指令微調(diào)（Instruction Tuning），上下文學習（In-Context Learning）和思維鏈（Chain of Thought）等。

多模態(tài)大型語言模型

盡管大語言模型在 NLP 領(lǐng)域取得了長足的發(fā)展，相應的模型與技術(shù)在多模態(tài)領(lǐng)域則較少探索，且傳統(tǒng)視覺-語言模型仍存在著泛化性不足以及缺乏推理能力等局限。

為此，近期眾多學者將注意力轉(zhuǎn)向一個新興的方向：多模態(tài)大型語言模型 Multimodal Large Language Models（MLLM）。

其主要思想是以 LLM 作為「大腦」對輸入的多模態(tài)信息進行整合、推理、分析和決斷，從而完成人類交付的任務。

「多模態(tài) LLM」最新介紹，數(shù)據(jù)、論文集直接打包帶走

從發(fā)展通用人工智能的視角看，相比于 LLM，MLLM 又向前邁進了一步，且具有以下優(yōu)點：

?更符合人類認知世界的習慣。人類具有多種感官，接受多種模態(tài)信息，這些信息常常是互補的、協(xié)同作用的。因此，使用多模態(tài)信息一般可以更好地認知與完成復雜任務；

?更加強大與用戶友好 (User-Friendly) 的接口。通過支持多模態(tài)輸入，用戶可以通過更加靈活的方式傳達信息；

?更廣泛的任務支持。LLM 通常只能完成 NLP 相關(guān)任務，而 MLLM 通過接入多模態(tài)可以完成更多任務。

從系統(tǒng)設計的角度來看，MLLM 可以分為兩類：

?LLM 作為推理器的、支持多模態(tài)輸入的認知推理系統(tǒng)；

?LLM 作為規(guī)劃器 / 調(diào)度器 / 決策器的多工具協(xié)作系統(tǒng)。

前者一般通過可訓練的多模態(tài)轉(zhuǎn)換接口將多模態(tài)信息轉(zhuǎn)化為 LLM 可以直接接收、處理的形態(tài)，使 LLM 可以基于這些多模態(tài)信息以及用戶指令進行認知與推理。

后者通常以 LLM 作為規(guī)劃器 / 調(diào)度器 / 決策器 [1]，將用戶交付的復雜任務分解為更簡單的子任務，并派發(fā)給合適的模型 / 工具，最后整合結(jié)果并輸出。

我們采取另一種視角，聚焦于 MLLM 背后的關(guān)鍵技術(shù)與實現(xiàn)方式，對相關(guān)工作進行了調(diào)研與總結(jié)，將 MLLM 劃分為以下幾類：

?多模態(tài)指令微調(diào)（Multimodal Instruction Tuning）

?多模態(tài)上下文學習（Multimodal In-Context Learning）

?多模態(tài)思維鏈（Multimodal Chain-of-Thought）

?LLM 輔助的視覺推理（LLM-Aided Visual Reasoning）

下面我們將對這幾類工作進行簡要介紹。

多模態(tài)指令微調(diào)（Multimodal Instruction Tuning）

多模態(tài)指令微調(diào)的基本做法是使用統(tǒng)一的模板將各類數(shù)據(jù)統(tǒng)一起來，并以指令的形式描述任務需求，形成多模態(tài)指令數(shù)據(jù)，再使用這種數(shù)據(jù)去微調(diào) MLLM。

由于訓練與測試時的指令形式具有一致性，LLM 可以憑借其強大的語義理解和推理能力，更靈活地泛化到其他任務，獲得強大的零樣本學習能力。

多模態(tài)指令數(shù)據(jù)的基本形式可以概括為（指令，多模態(tài)輸入，回答）三元組。

一種直觀的獲得這種數(shù)據(jù)的方式是改造基準（Benchmark）數(shù)據(jù)集，我們以圖像描述（Image Captioning）為例，如下圖 1 所示：

「多模態(tài) LLM」最新介紹，數(shù)據(jù)、論文集直接打包帶走

圖 1. 多模態(tài)指令數(shù)據(jù)示例

原本的 Caption 數(shù)據(jù)樣本包括一張圖片和一段文字描述（Ground Truth），這種數(shù)據(jù)-GT 的配對數(shù)據(jù)自然構(gòu)成了指令數(shù)據(jù)的多模態(tài)輸入和回答部分。

指令部分則為相應任務的描述，一般由人工編寫或者調(diào)用 GPT 生成。

在進行多模態(tài)指令微調(diào)時，MLLM 轉(zhuǎn)化多模態(tài)輸入并送入 LLM 中，LLM 基于多模態(tài)信息與指令文本預測答案。

多模態(tài)上下文學習（Multimodal In-Context Learning）

多模態(tài)上下文學習的核心思想是從類比中學習。比如，我們在學習時一般接觸到的形式如下：

「多模態(tài) LLM」最新介紹，數(shù)據(jù)、論文集直接打包帶走

通過學習例題，我們在遇到新的問題時，可以通過類比例題學習基本思想與方法，從而解決新的問題。

此外，例題還能規(guī)范我們的回答格式，更有利于得到正確的、符合預期要求的答案。

如下圖 2 所示，通過樣例讓模型預測 3x7 的計算結(jié)果。

「多模態(tài) LLM」最新介紹，數(shù)據(jù)、論文集直接打包帶走

圖 2. 多模態(tài)上下文數(shù)據(jù)示例，通過樣例讓模型預測 3x7 的計算結(jié)果

多模態(tài)思維鏈（Multimodal Chain-of-Thought）

思維鏈即一系列中間推理步驟 [2]。多模態(tài)思維鏈的基本思想是使模型學會逐步輸出中間步驟，最后推理出最終答案，如下圖 3 所示：

「多模態(tài) LLM」最新介紹，數(shù)據(jù)、論文集直接打包帶走

圖 3. 多模態(tài)思維鏈數(shù)據(jù)示例

相比于直接輸出答案的方式，思維鏈：

?更符合人類推理習慣：基于之前的推理步驟與結(jié)果，逐步導向最終答案；

?適用于復雜的推理任務，將復雜問題分步求解，提高回答的準確性。

LLM 輔助的視覺推理（LLM-Aided Visual Reasoning）

利用 LLM 作為決策與推理機構(gòu)，調(diào)用各種多模態(tài)模型和工具并整合輸出，得到最后的答案。根據(jù)完成任務的方式一般可分為單輪模型與多輪模型。

單輪模型的基本思想是由 LLM 作為規(guī)劃器、調(diào)度器和決策器協(xié)調(diào)各個模型 / 工具完成任務，一般需要完成以下職能 [1]:

?規(guī)劃器：將復雜任務分解為可解的子任務；

?調(diào)度器：將子任務派發(fā)給合適的模型 / 工具；

?決策器：管理子任務執(zhí)行順序，整合子任務結(jié)果得到最終答案。

多輪模型基于迭代的思想，不斷積累視覺認知，直到足夠自信得到最終答案。在這個過程中，LLM 需要整合之前的步驟 (提出的問題與已獲得的視覺認知信息)，判斷是否可以輸出最終答案 [3]。

相關(guān)論文詳見：https://github.com/ BradyFU / Awesome-Multimodal-Large-Language-Models

「多模態(tài) LLM」最新介紹，數(shù)據(jù)、論文集直接打包帶走

參考資料：

[1] Shen, Yongliang, et al. "Hugginggpt: Solving ai tasks with chatgpt and its friends in huggingface." arXiv preprint arXiv:2303.17580 (2023).
[2] Wei, Jason, et al. "Chain of thought prompting elicits reasoning in large language models." arXiv preprint arXiv:2201.11903 (2022).
[3] You, Haoxuan, et al. "IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models." arXiv preprint arXiv:2305.14985 (2023).

本文來自微信公眾號：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

「多模態(tài) LLM」最新介紹，數(shù)據(jù)、論文集直接打包帶走

多模態(tài)大型語言模型

多模態(tài)指令微調(diào)（Multimodal Instruction Tuning）

多模態(tài)上下文學習（Multimodal In-Context Learning）

多模態(tài)思維鏈（Multimodal Chain-of-Thought）

LLM 輔助的視覺推理（LLM-Aided Visual Reasoning）

相關(guān)文章

「多模態(tài) LLM」最新介紹，數(shù)據(jù)、論文集直接打包帶走