原文標題:《HuggingGPT 火了:一個 ChatGPT 控制所有 AI 模型,自動幫人完成 AI 任務(wù),網(wǎng)友:留口飯吃吧》
最強組合:HuggingFace+ChatGPT ——
HuggingGPT,它來了!
只要給定一個 AI 任務(wù),例如“下面這張圖片里有什么動物,每種有幾只”。
它就能幫你自動分析需要哪些 AI 模型,然后直接去調(diào)用 HuggingFace 上的相應(yīng)模型,來幫你執(zhí)行并完成。
整個過程,你要做的就只是用自然語言將你的需求輸出。
這項由浙大與微軟亞研院的合作成果,一經(jīng)發(fā)布就迅速爆火。
英偉達 AI 研究科學(xué)家 Jim Fan 直呼:
這是我本周讀到的最有意思的論文。它的思想非常接近“Everything App”(萬物皆 App,被 AI 直接讀取信息)。
而一位網(wǎng)友則“直拍大腿”:
這不就是 ChatGPT“調(diào)包俠”嗎?
AI 進化速度一日千里,給我們留口飯吃吧……
所以,具體怎么回事兒?
HuggingGPT:你的 AI 模型“調(diào)包俠”
其實,若說這個組合物只是“調(diào)包俠”,那格局小了。
它的真正用義,是 AGI。
如作者所言,邁向 AGI 的關(guān)鍵一步是能夠解決具有不同領(lǐng)域和模式的復(fù)雜 AI 任務(wù)。
我們目前的成果離此還有距離 —— 大量模型只能出色地完成某一特定任務(wù)。
然而大語言模型 LLM 在語言理解、生成、交互和推理方面的表現(xiàn),讓作者想到:
可以將它們作為中間控制器,來管理現(xiàn)有的所有 AI 模型,通過“調(diào)動和組合每個人的力量”,來解決復(fù)雜的 AI 任務(wù)。
在這個系統(tǒng)中,語言是通用的接口。
于是,HuggingGPT 就誕生了。
它的工程流程分為四步:
首先,任務(wù)規(guī)劃。ChatGPT 將用戶的需求解析為任務(wù)列表,并確定任務(wù)之間的執(zhí)行順序和資源依賴關(guān)系。
其次,模型選擇。ChatGPT 根據(jù) HuggingFace 上托管的各專家模型的描述,為任務(wù)分配合適的模型。
接著,任務(wù)執(zhí)行。混合端點(包括本地推理和 HuggingFace 推理)上被選定的專家模型根據(jù)任務(wù)順序和依賴關(guān)系執(zhí)行分配的任務(wù),并將執(zhí)行信息和結(jié)果給到 ChatGPT。
最后,輸出結(jié)果。由 ChatGPT 總結(jié)各模型的執(zhí)行過程日志和推理結(jié)果,給出最終的輸出。
如下圖所示。
假定我們給出這樣一個請求:
請生成一個女孩正在看書的圖片,她的姿勢與 example.jpg 中的男孩相同。然后請用你的聲音描述新圖片。
可以看到 HuggingGPT 是如何將它拆解為 6 個子任務(wù),并分別選定模型執(zhí)行得到最終結(jié)果的。
具體效果怎么樣?
作者采用 gpt-3.5-turbo 和 text-davinci-003 這倆可以通過 OpenAI API 公開訪問的變體,進行了實測。
如下圖所示:
在任務(wù)之間存在資源依賴關(guān)系的情況下,HuggingGPT 可以根據(jù)用戶的抽象請求正確解析出具體任務(wù),完成圖片轉(zhuǎn)換。
在音頻和視頻任務(wù)中,它也展現(xiàn)了組織模型之間合作的能力,通過分別并行和串行執(zhí)行兩個模型的方式,完了一段“宇航員在太空行走”的視頻和配音作品。
此外,它還可以集成多個用戶的輸入資源執(zhí)行簡單的推理,比如在以下三張圖片中,數(shù)出其中有多少匹斑馬。
一句話總結(jié):HuggingGPT 可以在各種形式的復(fù)雜任務(wù)上表現(xiàn)出良好的性能。
項目已開源,名叫「賈維斯」
目前,HuggingGPT 的論文已經(jīng)發(fā)布,項目則正在建設(shè)中,代碼只開源了一部分,已攬獲 1.4k 標星。
我們注意到,它的項目名稱很有意思,不叫本名 HuggingGPT,而是鋼鐵俠里的 AI 管家賈維斯(JARVIS)。
有人發(fā)現(xiàn)它和 3 月份剛發(fā)布的 Visual ChatGPT 的思想非常像:后者 HuggingGPT,主要是可調(diào)用的模型范圍擴展到了更多,包括數(shù)量和類型。
不錯,其實它們都有一個共同作者:微軟亞研院。
具體而言,Visual ChatGPT 的一作是 MSRA 高級研究員吳晨飛,通訊作者為 MSRA 首席研究員段楠。
HuggingGPT 則包括兩位共同一作:
Shen Yongliang,TA 來自浙江大學(xué),在 MSRA 實習(xí)期間完成此項工作;
Song Kaitao,MSRA 研究員。
其通訊作者為浙大計算機系教授莊越挺。
最后,對于這個強大新工具的誕生,網(wǎng)友們很是興奮,有人表示:
ChatGPT 已成為人類創(chuàng)建的所有 AI 的總指揮官了。
也有人據(jù)此認為:
AGI 可能不是一個 LLM,而是由一個“中間人”LLM 連接的多個相互關(guān)聯(lián)的模型。
那么,我們是否已經(jīng)開啟“半 AGI”的時代了?
論文地址:
https://arxiv.org/abs/2303.17580
項目鏈接:
https://github.com/microsoft/JARVIS
參考鏈接:
https://twitter.com/DrJimFan/status/1642563455298473986
本文來自微信公眾號:量子位 (ID:QbitAI),作者:豐色
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。