首頁 > 科學(xué)探索>科技前沿

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

新智元 2023/4/10 13:50:01 責(zé)編：夢澤

評論：

浙大 & 微軟推出的 HuggingGPT 爆火之后，剛剛開放了 demo，急不可待的網(wǎng)友自己上手體驗(yàn)了一番。

最強(qiáng)組合 HuggingFace+ChatGPT=「賈維斯」現(xiàn)在開放 demo 了。

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

前段時間，浙大 & 微軟發(fā)布了一個大模型協(xié)作系統(tǒng) HuggingGPT 直接爆火。

研究者提出了用 ChatGPT 作為控制器，連接 HuggingFace 社區(qū)中的各種 AI 模型，完成多模態(tài)復(fù)雜任務(wù)。

整個過程，只需要做的是：用自然語言將你的需求輸出。

英偉達(dá)科學(xué)家稱，這是我本周讀到的最有意思的論文。它的思想非常接近我之前說的「Everything App」，即萬物皆 App，被 AI 直接讀取信息。

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

上手體驗(yàn)

現(xiàn)在，HuggingGPT 增加了 Gradio 演示。

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

項(xiàng)目地址：https://github.com/ microsoft / JARVIS

有網(wǎng)友便上手體驗(yàn)了一番，先來「識別圖上有幾個人」？

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

HuggingGPT 根據(jù)推理結(jié)果，得出圖片中有 2 個人正在街道上行走。

具體過程如下：

首先使用圖像到文本模型 nlpconnect / vit-gpt2-image-captioning 進(jìn)行圖像描述，生成的文本「2 個女人在有火車的街道上行走」。

接著，使用了目標(biāo)檢測模型 facebook / detrresnet 50 來檢測圖片中的人數(shù)。模型檢測出 7 個物體，2 個人。

再使用視覺問題回答模型 dandelin / vilt-b32-finetuned-vqa 得出結(jié)果。最后，系統(tǒng)提供了詳細(xì)的響應(yīng)和用于解答問題的模型信息。

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

另外，讓它理解「我愛你」這句話的情感，并將其翻譯成泰米爾語（Tami?）。

HuggingGPT 調(diào)用了以下模型：

首先，使用了模型「dslim / bert-base-NER」對文本「l love you」進(jìn)行情感分類，是「浪漫」。

然后，使用「ChatGPT」將文本翻譯成泰米爾語，即「Nan unnai kadalikiren」。

在推理結(jié)果中沒有生成的圖片、音頻或視頻文件。

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

轉(zhuǎn)錄 MP3 文件時，HuggingGPT 卻失敗了。網(wǎng)友表示，「不確定這是否是我的輸入文件的問題?！?/p>

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

再來看看圖像生成的能力。

輸入「一只貓?zhí)琛箞D像上添加文字「I LOVE YOU」作為疊加層。

HuggingGPT 首先使用了「runwayml / stable-diffusion-1-5」模型根據(jù)給定的文本生成「跳舞的貓」的圖片。

然后，使用同一個模型根據(jù)給定的文本生成了「I LOVE YOU」的圖片。

最后，將 2 個圖片合并在一起，輸出如下圖：

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

賈維斯照進(jìn)現(xiàn)實(shí)

項(xiàng)目公開沒幾天，賈維斯已經(jīng)在 GitHub 上收獲了 12.5k 星，以及 811 個 fork。

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

研究者指出解決大型語言模型（LLMs）當(dāng)前的問題，可能是邁向 AGI 的第一步，也是關(guān)鍵的一步。

因?yàn)楫?dāng)前大型語言模型的技術(shù)仍然存在著一些缺陷，因此在構(gòu)建 AGI 系統(tǒng)的道路上面臨著一些緊迫的挑戰(zhàn)。

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

為了處理復(fù)雜的人工智能任務(wù)，LLMs 應(yīng)該能夠與外部模型協(xié)調(diào)，以利用它們的能力。

因此，關(guān)鍵點(diǎn)在于如何選擇合適的中間件來橋接 LLMs 和 AI 模型。

在這篇研究論文中，研究者提出在 HuggingGPT 中語言是通用的接口。其工作流程主要分為四步：

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

論文地址：https://arxiv.org/ pdf / 2303.17580.pdf

首先是任務(wù)規(guī)劃，ChatGPT 解析用戶請求，將其分解為多個任務(wù)，并根據(jù)其知識規(guī)劃任務(wù)順序和依賴關(guān)系。

接著，進(jìn)行模型選擇。LLM 根據(jù) HuggingFace 中的模型描述將解析后的任務(wù)分配給專家模型。

然后執(zhí)行任務(wù)。專家模型在推理端點(diǎn)上執(zhí)行分配的任務(wù)，并將執(zhí)行信息和推理結(jié)果記錄到 LLM 中。

最后是響應(yīng)生成。LLM 總結(jié)執(zhí)行過程日志和推理結(jié)果，并將摘要返回給用戶。

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

假如給出這樣一個請求：

請生成一個女孩正在看書的圖片，她的姿勢與 example.jpg 中的男孩相同。然后請用你的聲音描述新圖片。

可以看到 HuggingGPT 是如何將它拆解為 6 個子任務(wù)，并分別選定模型執(zhí)行得到最終結(jié)果的。

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

通過將 AI 模型描述納入提示中，ChatGPT 可以被視為管理人工智能模型的大腦。因此，這一方法可以讓 ChatGPT 能夠調(diào)用外部模型，來解決實(shí)際任務(wù)。

簡單來講，HuggingGPT 是一個協(xié)作系統(tǒng)，并非是大模型。

它的作用就是連接 ChatGPT 和 HuggingFace，進(jìn)而處理不同模態(tài)的輸入，并解決眾多復(fù)雜的人工智能任務(wù)。

所以，HuggingFace 社區(qū)中的每個 AI 模型，在 HuggingGPT 庫中都有相應(yīng)的模型描述，并將其融合到提示中以建立與 ChatGPT 的連接。

隨后，HuggingGPT 將 ChatGPT 作為大腦來確定問題的答案。

到目前為止，HuggingGPT 已經(jīng)圍繞 ChatGPT 在 HuggingFace 上集成了數(shù)百個模型，涵蓋了文本分類、目標(biāo)檢測、語義分割、圖像生成、問答、文本到語音、文本到視頻等 24 個任務(wù)。

實(shí)驗(yàn)結(jié)果證明，HuggingGPT 可以在各種形式的復(fù)雜任務(wù)上表現(xiàn)出良好的性能。

網(wǎng)友熱評

有網(wǎng)友稱，HuggingGPT 類似于微軟此前提出的 Visual ChatGPT，似乎他們把最初的想法擴(kuò)展到了一組龐大的預(yù)訓(xùn)練模型上。

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

Visual ChatGPT 是直接基于 ChatGPT 構(gòu)建，并向其注入了許多可視化模型（VFMs）。文中提出了 Prompt Manage。

在 PM 的幫助下，ChatGPT 可以利用這些 VFMs，并以迭代的方式接收其反饋，直到滿足用戶的要求或達(dá)到結(jié)束條件。

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

還有網(wǎng)友認(rèn)為，這個想法確實(shí)與 ChatGPT 插件非常相似。以 LLM 為中心進(jìn)行語義理解和任務(wù)規(guī)劃，可以無限提升 LLM 的能力邊界。通過將 LLM 與其他功能或領(lǐng)域?qū)＜蚁嘟Y(jié)合，我們可以創(chuàng)建更強(qiáng)大、更靈活的 AI 系統(tǒng)，能夠更好地適應(yīng)各種任務(wù)和需求。

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

這就是我一直以來對 AGI 的看法，人工智能模型能夠理解復(fù)雜任務(wù)，然后將較小的任務(wù)分派給其他更專業(yè)的 AI 模型。

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

就像大腦一樣，它也有不同的部分來完成特定的任務(wù)，聽起來很符合邏輯。

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

參考資料：

https://twitter.com/1littlecoder/status/1644466883813408768
https://www.youtube.com/watch?v=3_5FRLYS-2A
https://huggingface.co/spaces/microsoft/HuggingGPT

本文來自微信公眾號：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了

上手體驗(yàn)

賈維斯照進(jìn)現(xiàn)實(shí)

網(wǎng)友熱評

相關(guān)文章

炫到爆炸，HuggingGPT 在線演示驚艷亮相，網(wǎng)友親測圖像生成絕了