設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

HuggingGPT 火了:一個 ChatGPT 控制所有 AI 模型,自動幫人完成 AI 任務(wù)

量子位 2023/4/3 23:43:08 責(zé)編:夢澤

原文標題:《HuggingGPT 火了:一個 ChatGPT 控制所有 AI 模型,自動幫人完成 AI 任務(wù),網(wǎng)友:留口飯吃吧》

最強組合:HuggingFace+ChatGPT ——

HuggingGPT,它來了!

只要給定一個 AI 任務(wù),例如“下面這張圖片里有什么動物,每種有幾只”。

它就能幫你自動分析需要哪些 AI 模型,然后直接去調(diào)用 HuggingFace 上的相應(yīng)模型,來幫你執(zhí)行并完成。

整個過程,你要做的就只是用自然語言將你的需求輸出。

這項由浙大與微軟亞研院的合作成果,一經(jīng)發(fā)布就迅速爆火。

英偉達 AI 研究科學(xué)家 Jim Fan 直呼:

這是我本周讀到的最有意思的論文。它的思想非常接近“Everything App”(萬物皆 App,被 AI 直接讀取信息)。

而一位網(wǎng)友則“直拍大腿”:

這不就是 ChatGPT“調(diào)包俠”嗎?

AI 進化速度一日千里,給我們留口飯吃吧……

所以,具體怎么回事兒?

HuggingGPT:你的 AI 模型“調(diào)包俠”

其實,若說這個組合物只是“調(diào)包俠”,那格局小了。

它的真正用義,是 AGI。

如作者所言,邁向 AGI 的關(guān)鍵一步是能夠解決具有不同領(lǐng)域和模式的復(fù)雜 AI 任務(wù)。

我們目前的成果離此還有距離 —— 大量模型只能出色地完成某一特定任務(wù)。

然而大語言模型 LLM 在語言理解、生成、交互和推理方面的表現(xiàn),讓作者想到:

可以將它們作為中間控制器,來管理現(xiàn)有的所有 AI 模型,通過“調(diào)動和組合每個人的力量”,來解決復(fù)雜的 AI 任務(wù)。

在這個系統(tǒng)中,語言是通用的接口。

于是,HuggingGPT 就誕生了。

它的工程流程分為四步:

首先,任務(wù)規(guī)劃。ChatGPT 將用戶的需求解析為任務(wù)列表,并確定任務(wù)之間的執(zhí)行順序和資源依賴關(guān)系。

其次,模型選擇。ChatGPT 根據(jù) HuggingFace 上托管的各專家模型的描述,為任務(wù)分配合適的模型。

接著,任務(wù)執(zhí)行。混合端點(包括本地推理和 HuggingFace 推理)上被選定的專家模型根據(jù)任務(wù)順序和依賴關(guān)系執(zhí)行分配的任務(wù),并將執(zhí)行信息和結(jié)果給到 ChatGPT。

最后,輸出結(jié)果。由 ChatGPT 總結(jié)各模型的執(zhí)行過程日志和推理結(jié)果,給出最終的輸出。

如下圖所示。

假定我們給出這樣一個請求:

請生成一個女孩正在看書的圖片,她的姿勢與 example.jpg 中的男孩相同。然后請用你的聲音描述新圖片。

可以看到 HuggingGPT 是如何將它拆解為 6 個子任務(wù),并分別選定模型執(zhí)行得到最終結(jié)果的。

具體效果怎么樣?

作者采用 gpt-3.5-turbo 和 text-davinci-003 這倆可以通過 OpenAI API 公開訪問的變體,進行了實測。

如下圖所示:

在任務(wù)之間存在資源依賴關(guān)系的情況下,HuggingGPT 可以根據(jù)用戶的抽象請求正確解析出具體任務(wù),完成圖片轉(zhuǎn)換。

在音頻和視頻任務(wù)中,它也展現(xiàn)了組織模型之間合作的能力,通過分別并行和串行執(zhí)行兩個模型的方式,完了一段“宇航員在太空行走”的視頻和配音作品。

此外,它還可以集成多個用戶的輸入資源執(zhí)行簡單的推理,比如在以下三張圖片中,數(shù)出其中有多少匹斑馬。

一句話總結(jié):HuggingGPT 可以在各種形式的復(fù)雜任務(wù)上表現(xiàn)出良好的性能。

項目已開源,名叫「賈維斯」

目前,HuggingGPT 的論文已經(jīng)發(fā)布,項目則正在建設(shè)中,代碼只開源了一部分,已攬獲 1.4k 標星。

我們注意到,它的項目名稱很有意思,不叫本名 HuggingGPT,而是鋼鐵俠里的 AI 管家賈維斯(JARVIS)。

有人發(fā)現(xiàn)它和 3 月份剛發(fā)布的 Visual ChatGPT 的思想非常像:后者 HuggingGPT,主要是可調(diào)用的模型范圍擴展到了更多,包括數(shù)量和類型。

不錯,其實它們都有一個共同作者:微軟亞研院。

具體而言,Visual ChatGPT 的一作是 MSRA 高級研究員吳晨飛,通訊作者為 MSRA 首席研究員段楠。

HuggingGPT 則包括兩位共同一作:

Shen Yongliang,TA 來自浙江大學(xué),在 MSRA 實習(xí)期間完成此項工作;

Song Kaitao,MSRA 研究員。

其通訊作者為浙大計算機系教授莊越挺。

最后,對于這個強大新工具的誕生,網(wǎng)友們很是興奮,有人表示:

ChatGPT 已成為人類創(chuàng)建的所有 AI 的總指揮官了。

也有人據(jù)此認為:

AGI 可能不是一個 LLM,而是由一個“中間人”LLM 連接的多個相互關(guān)聯(lián)的模型。

那么,我們是否已經(jīng)開啟“半 AGI”的時代了?

論文地址:

https://arxiv.org/abs/2303.17580

項目鏈接:

https://github.com/microsoft/JARVIS

參考鏈接:

  • https://twitter.com/DrJimFan/status/1642563455298473986

本文來自微信公眾號:量子位 (ID:QbitAI),作者:豐色

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:ChatGPT,人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知