繼草泥馬(Alpaca)后,斯坦福聯(lián)手 CMU、UC 伯克利等機(jī)構(gòu)的學(xué)者再次發(fā)布了 130 億參數(shù)模型駱馬(Vicuna),僅需 300 美元就能實(shí)現(xiàn) ChatGPT 90% 的性能。
繼 Meta 的 LLaMA 模型開源后,AI 界研究人員就在這個模型基礎(chǔ)上衍生出許多版本。
前段時間,斯坦福發(fā)布了 Alpaca,是由 Meta 的 LLaMA 7B 微調(diào)而來,僅用了 52k 數(shù)據(jù),性能可以與 GPT-3.5 匹敵。
今天,斯坦福學(xué)者聯(lián)手 CMU、UC 伯克利等,再次推出一個全新模型 ——130 億參數(shù)的 Vicuna,俗稱「小羊駝」(駱馬)。
Vicuna 是通過在 ShareGPT 收集的用戶共享對話上對 LLaMA 進(jìn)行微調(diào)訓(xùn)練而來,訓(xùn)練成本近 300 美元。
研究人員設(shè)計(jì)了 8 個問題類別,包括數(shù)學(xué)、寫作、編碼,對 Vicuna-13B 與其他四個模型進(jìn)行了性能測試。
測試過程使用 GPT-4 作為評判標(biāo)準(zhǔn),結(jié)果顯示 Vicuna-13B 在超過 90% 的情況下實(shí)現(xiàn)了與 ChatGPT 和 Bard 相匹敵的能力。
同時,在超過 90% 的情況下勝過了其他模型,如 LLaMA 和斯坦福的 Alpaca。
團(tuán)隊(duì)成員來自加州大學(xué)伯克利分校、卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)、加州大學(xué)圣地亞哥分校和穆罕默德?本?扎耶德人工智能大學(xué)。
90% 匹敵 ChatGPT
研究人員讓斯坦福的 Alpaca 和 Vicuna 來了一輪大比拼,分別對基準(zhǔn)問題回答進(jìn)行了演示。
在使用 70K 用戶共享的 ChatGPT 對話數(shù)據(jù)對 Vicuna 進(jìn)行微調(diào)后,研究發(fā)現(xiàn) Vicuna 能夠生成比 Alpaca 更詳細(xì)、結(jié)構(gòu)更合理的答案。
問:寫一篇關(guān)于最近去夏威夷旅行的有趣的旅游博客文章,強(qiáng)調(diào)文化體驗(yàn)和必看景點(diǎn)。
Alpaca 的回答可以說是一個濃縮版,短短幾行就寫完了,沒有按照要求完成任務(wù)。它僅是提到了自己寫了一篇博客,并對博客內(nèi)容做了一個概述。
再來看 Vicuna,撰寫了一篇詳細(xì)且引人入勝的旅行博客文章,不僅內(nèi)容有趣,還詳細(xì)地介紹了夏威夷的文化體驗(yàn)和必看景點(diǎn)。
由此,讓 GPT-4 給打分,Alpaca7 分,Vicuna 滿分。
那么和 ChatGPT 對打,Vicuna 的表現(xiàn)又如何呢?
兩者雙雙得了 9 分!
可以看到,這兩個模型提供一次夏威夷之旅的文章不僅引人入勝,而且文筆流暢。
另外,兩個回答中的詳細(xì)程度和準(zhǔn)確性都很出色,而且兩個模型都有效地傳達(dá)了夏威夷之旅的興奮和美麗。
此外,研究人員還將 Vicuna 與 LLaMA,以及谷歌的 Bard 模型進(jìn)行了測試,測試結(jié)果顯示,LLaMA 表現(xiàn)最差(1 分),幾乎沒有回應(yīng)。
Bard 回答的準(zhǔn)確性和相關(guān)性也是比較高,有 9 分的成績,但是在更具吸引力回答方面,略低于 Vicuna。
除了寫作,研究人員在編碼、數(shù)學(xué)、角色扮演、常識等方面分別對 Vicuna 模型與其他四個模型的能力進(jìn)行了對比,總共 80 道題。
最后,研究人員基于 GPT-4 的初步評估總結(jié)如圖所示??梢钥吹?,Vicuna 達(dá)到了 Bard / ChatGPT 的 90% 以上的能力。
由 GPT-4 評估的相對響應(yīng)質(zhì)量
有趣的是,在這次 Vicuna 的 demo 中,團(tuán)隊(duì)還加入了 Alpaca 和 LLaMA 的試用,而前者剛被關(guān)閉不久。
Demo 地址:https://chat.lmsys.org/
模型介紹
ChatGPT 橫空出世讓人興奮不已,但 OpenAI 不 Open 的事實(shí)讓圈內(nèi)人實(shí)在懊惱。
恰恰,Meta 的 LLaMA 模型開源,為許多研究人員動手研發(fā)自己的模型提供了選擇。
Vicuna-13B 誕生正是受到 LLaMA 和斯坦福 Alpaca 項(xiàng)目的啟發(fā)。這是一個基于增強(qiáng)數(shù)據(jù)集和易于使用、可擴(kuò)展的基礎(chǔ)設(shè)施的開源聊天機(jī)器人。
該模型的訓(xùn)練數(shù)據(jù)來自于 ShareGPT 收集的用戶分享的對話,然后研究人員通過對 LLaMA 基本模型進(jìn)行微調(diào),Vicuna-13B 就誕生了。
Vicuna-13B 展示了與其他開源模型(如斯坦福 Alpaca)相媲美的性能。
研究人員對 Vicuna-13B 的性能進(jìn)行了初步評估,并描述了其訓(xùn)練和服務(wù)基礎(chǔ)設(shè)施。
同時,這一模型演示 demo 已經(jīng)上線,所有研究人員都能參與在線演示互動,以測試這個聊天機(jī)器人的能力。
工作流程概述
對于 Vicuna-13B 訓(xùn)練流程,具體如下:
首先,研究人員從 ChatGPT 對話分享網(wǎng)站 ShareGPT 上,收集了大約 70K 對話。
接下來,研究人員優(yōu)化了 Alpaca 提供的訓(xùn)練腳本,使模型能夠更好地處理多輪對話和長序列。之后利用 PyTorch FSDP 在 8 個 A100 GPU 上進(jìn)行了一天的訓(xùn)練。
在模型的質(zhì)量評估方面,研究人員創(chuàng)建了 80 個不同的問題,并用 GPT-4 對模型輸出進(jìn)行了評價。
為了比較不同的模型,研究人員將每個模型的輸出組合成一個單獨(dú)的提示,然后讓 GPT-4 評估哪個模型給出的回答更好。
LLaMA、Alpaca、Vicuna 和 ChatGPT 的對比
訓(xùn)練
Vicuna 是通過使用來自 ShareGPT 公共 API 收集的約 70K 用戶分享對話數(shù)據(jù)微調(diào)創(chuàng)建的。
為了確保數(shù)據(jù)質(zhì)量,研究人員將 HTML 轉(zhuǎn)換回 markdown,并過濾掉一些不適當(dāng)或質(zhì)量較低的樣本。
另外,研究人員將較長的對話劃分為較小的片段,以適應(yīng)模型的最大上下文長度。
Vicuna 的訓(xùn)練方法建立在斯坦福的 Alpaca 基礎(chǔ)上,并進(jìn)行了以下改進(jìn):
內(nèi)存優(yōu)化:
為了使 Vicuna 能夠理解長上下文,將最大上下文長度從 Alpaca 的 512 擴(kuò)展到 2048,這大大增加了 GPU 內(nèi)存需求。在此,研究人員通過使用梯度檢查點(diǎn)和閃存注意力來解決內(nèi)存壓力。
多輪對話:
通過調(diào)整訓(xùn)練損失以考慮多輪對話,并僅在聊天機(jī)器人的輸出上計(jì)算微調(diào)損失。
通過 Spot 實(shí)例降低成本:
40 倍的數(shù)據(jù)集和 4 倍的序列長度對訓(xùn)練帶來了相當(dāng)大的挑戰(zhàn)。研究人員采用 SkyPilot 托管的 Spot 實(shí)例來降低成本,通過利用自動恢復(fù)搶占與自動區(qū)域切換進(jìn)而減少成本。
這種解決方案將 7B 模型的訓(xùn)練成本從 500 美元降低到約 140 美元,將 13B 模型的訓(xùn)練成本從約 1000 美元降低到 300 美元。
評估
評估 AI 聊天機(jī)器人是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)樗枰獧z查語言理解、推理和上下文意識。隨著 AI 聊天機(jī)器人變得越來越先進(jìn),現(xiàn)有的開放基準(zhǔn)可能不再足夠。
例如,斯坦福 Alpaca 中使用的評估數(shù)據(jù)集 self-instruct,可以被 SOTA 聊天機(jī)器人有效地回答,這使得人類難以分辨性能差異。更多的限制包括訓(xùn)練 / 測試數(shù)據(jù)污染和創(chuàng)建新基準(zhǔn)的潛在高成本。
為了解決這些問題,研究人員提出了一個基于 GPT-4 的評估框架,從而實(shí)現(xiàn)對聊天機(jī)器人性能的自動評估。
首先,通過精心設(shè)計(jì)的提示,讓 GPT-4 能夠生成多樣化且具有挑戰(zhàn)性的問題。并利用 8 個不同類別共 80 道題,如角色扮演、編碼 / 數(shù)學(xué)任務(wù)等,來測試這些模型(LLaMA、Alpaca、ChatGPT、Bard 和 Vicuna)在不同領(lǐng)域上表現(xiàn)出的性能。
然后,研究人員要求 GPT-4 根據(jù)幫助程度、相關(guān)性、準(zhǔn)確性和細(xì)節(jié)對答案的質(zhì)量進(jìn)行評分。結(jié)果顯示,GPT-4 不僅可以產(chǎn)生相對一致的分?jǐn)?shù),還可以提供詳細(xì)的解釋來說明為什么給出這樣的分?jǐn)?shù)。但是,GPT-4 并不擅長評判編碼 / 數(shù)學(xué)任務(wù)。
GPT-4 在超過 90% 的問題中更喜歡 Vicuna,而不是現(xiàn)有的 SOTA 開源模型(LLaMA、Alpaca)。
在 45% 的問題中,GPT-4 認(rèn)為 Vicuna 的回答和 ChatGPT 差不多甚至更好。
綜合來看,Vicuna 在總分上達(dá)到 ChatGPT 的 92%。
局限
研究人員指出,與其他大語言模型類似,Vicuna 也存在著一定的局限性。
比如,Vicuna 在涉及編程、推理、數(shù)學(xué)以及事實(shí)準(zhǔn)確性的任務(wù)上表現(xiàn)不佳。
此外,它也沒有經(jīng)過充分優(yōu)化以保證安全性或減輕潛在的毒性或偏見。
為解決安全方面的問題,研究人員在 demo 中采用了 OpenAI 的審查 API 來過濾掉不適當(dāng)?shù)挠脩糨斎搿?/p>
剩下的名字不多了
現(xiàn)在,除了美洲駝(LLaMA),羊駝(Alpaca),駝馬(Vicuna)都安排上了。
研究人員要趕快沖,因?yàn)榱艚o你們的名字不多了(1 個)。
參考資料:
https://vicuna.lmsys.org/
本文來自微信公眾號:新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。