設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

0 門檻克隆 ChatGPT,30 分鐘訓(xùn)完,60 億參數(shù)性能堪比 GPT-3.5

新智元 2023/3/27 20:03:10 責(zé)編:夢澤

破解「CloseAI」,ChatGPT 克隆羊問世!0 門檻實現(xiàn)「自研」,從此大語言模型不再只是少數(shù)大公司的「金手指」。

此前,OpenAI 不 Open 的事件,已經(jīng)引發(fā)了坊間的諸多爭議。

光放出基準和測試結(jié)果,不提供訓(xùn)練數(shù)據(jù)、成本、方法,是真的要「贏家通吃」了。

眼看大語言模型似乎要被巨頭公司壟斷,如今忽然殺出一個初創(chuàng)公司,給了 OpenAI 一槍 —— 用 60 億參數(shù)的「Dolly」實現(xiàn)了和 ChatGPT 相似的能力。

沒錯,我們現(xiàn)在只需要準備一些高質(zhì)量的訓(xùn)練數(shù)據(jù),再隨便拿一個開源的大語言模型,訓(xùn)練 30 分鐘后,就能得到一個 ChatGPT「平替」!

對此,Databricks 自豪地表示,Dolly 的發(fā)布,就是自己在人工智能技術(shù)民主化道路上打響的第一彈。

60 億參數(shù)堪比 ChatGPT,30 分鐘就訓(xùn)好

由于 ChatGPT 需要消耗大量的數(shù)據(jù)和算力資源(利用數(shù)萬個單詞訓(xùn)練,消耗大量 GPU),所以這類大語言模型注定只能被少量巨頭所掌握。

和「CloseAI」相反,Meta 在今年 3 月向?qū)W術(shù)界發(fā)布了一組高質(zhì)量(但不是指令跟隨的)語言模型 LLaMA,每個模型的訓(xùn)練時間超過了 80,000 個 GPU 小時。

隨后,斯坦福大學(xué)基于 LLaMA 構(gòu)建了 Alpaca,但不同之處在于,它利用一個包含 50,000 個問題和答案的小數(shù)據(jù)集進行了微調(diào)。令人驚訝的是,這使得 Alpaca 具有了類似于 ChatGPT 的交互性。

而 Dolly 正是受到了 Alpaca 的啟發(fā)。

更有趣的是,擁有 60 億參數(shù)的 Dolly 并沒有利用現(xiàn)在最新的模型,而是選擇了一個 2021 年發(fā)布的開源模型 ——GPT-J。

由于 Dolly 本身是一個模型的「克隆」,所以團隊最終決定將其命名為「多莉」—— 有史以來第一個被克隆的動物。

與當(dāng)前的大型語言模型(如 GPT-3)相比,Dolly 允許用戶使用更小、更專業(yè)的模型,「復(fù)刻」ChatGPT 的能力。

畢竟對于那些細分用戶來說,能夠利用針對本行業(yè)進行過精調(diào)的模型,可以大大增加性能和準確性。

盡管 Databricks 與 OpenAI 并無直接競爭關(guān)系,但它似乎試圖通過證明構(gòu)建類似 ChatGPT 這樣的服務(wù)并非看起來那么困難,來搶占 OpenAI 的風(fēng)頭。

尤其是,OpenAI 采取了「規(guī)模越大越好」的方法來開發(fā)語言模型,并對其工作越來越保密。

而 Databricks 除了將 Dolly 作為開源軟件發(fā)布外,還強調(diào) Dolly 只有 60 億個參數(shù)(在訓(xùn)練過程中微調(diào)的語言模型部分),OpenAI 的 GPT-3 模型有 1750 億個參數(shù)。(OpenAI 并未透露 GPT-4 的參數(shù)數(shù)量)。

讓老模型,涅槃重生

根據(jù) InstructGPT 論文中描述的指令跟隨能力對 Dolly 進行評估后發(fā)現(xiàn),它在很多能力上的表現(xiàn)和 ChatGPT 十分類似,包括文本生成、頭腦風(fēng)暴和開放式問答。

在這些例子中,值得注意的不是生成文本的質(zhì)量,而是在一個小型的高質(zhì)量數(shù)據(jù)集上,微調(diào)一個舊的開源模型所帶來的指令跟隨能力的巨大改進。

內(nèi)容生成

比如,寫一條 Databricks 官宣大規(guī)模語言模型 Dolly 發(fā)布的推特。

可以看到,原始的 60 億參數(shù)模型(GPT-J)所生成的內(nèi)容驢唇不對馬嘴,而 Dolly 則給出了一個完全可用的推文 ——

不僅內(nèi)容符合要求,而且還貼心地加上了標簽,以及提醒你記得加入發(fā)布的鏈接。

對于這一題,ChatGPT 給出的答案也是符合期待的,相比于 Dolly,ChatGPT 給出的推文包含更多評述性詞句,并且給出的標簽更加精準具體,但整體差距不大。

當(dāng)要寫一條出售 Nikon D-750 相機的廣告時,可以看到,GPT-J 所生成的內(nèi)容基本就在胡編亂造,像是在寫小說一樣杜撰購買和出售相機的劇情……

而 Dolly 則根據(jù) Nikon D-750 相機的特點及優(yōu)勢,給出了一則吸引人的相機轉(zhuǎn)賣廣告語,但遺憾的是像素參數(shù)不對。

ChatGPT 在這一題上也是圓滿完成任務(wù),廣告語中突出該款相機的優(yōu)勢,文末仍然貼心地加上了標簽。

最后一題:給 Edgar Allan Poe(愛倫?坡)寫一封情書。

對此,古早的 GPT-J 直接拒絕回答,究其原因竟然是 —— 愛倫?坡已經(jīng)去世了,你不能給死人寫情書。

而 Dolly 則成功地完成了任務(wù),效果對比起來堪稱「涅槃」。

而這種「創(chuàng)造性」問題,顯然是 ChatGPT 的強項,洋洋灑灑地寫了 300 多個字。

開放問答

在事實性問題的問答測試上,團隊選擇了下面這個:「向我解釋一下核裂變和核聚變之間的區(qū)別?!?/p>

先不管對錯,GPT-J 全篇都是在講太陽如何如何,雖然提到了「聚變」這個詞,但完全無視了「裂變」。

而 Dolly 第一句就直接點題 —— 核裂變和核聚變的區(qū)別在于釋放能量的方式,隨后簡單解釋了他們的不同。

相比之下,ChatGPT 給出的回答明顯要更加翔實。

頭腦風(fēng)暴

當(dāng)讓它們頭腦風(fēng)暴,給出應(yīng)該閱讀的五本科幻小說的名單,GPT-J 則只是在喃喃自語,像是沉浸在了拖延閱讀而產(chǎn)生的愧疚情緒中,完全回避了這個提問。

Dolly 則一如既往的表現(xiàn)穩(wěn)定,按照指令給出了 5 本科幻小說的書名及其作者。

ChatGPT 對于該問題給出了更加豐富的回答,不僅包括書名和作者,還對每一本書的內(nèi)容、類型作了簡要評述和介紹。

你要 Close,我就 Open

對于很多公司而言,寧愿自己建立一個不那么強的模型,也不愿將數(shù)據(jù)發(fā)送給那些只提供 API 的大語言模型供應(yīng)商。

其中一個重要原因便是,這些問題和數(shù)據(jù)集是公司最敏感和專有的知識產(chǎn)權(quán),直接將其交給第三方顯然是不靠譜的。

此外,公司自身可能在模型質(zhì)量、成本和期望行為方面有不同的權(quán)衡,一種可定制化的語言模型更加符合需求。

現(xiàn)在,Dolly 的發(fā)布給了他們希望 —— 即便是一個「過時」的開源大型語言模型 (LLM),也能通過 30 分的訓(xùn)練,賦予它神奇的類似 ChatGPT 的指令跟隨能力。

不難想象,大語言模型或許很快就不是 AI 巨頭公司獨占的玩法了!

正如公司 CEO Ali Ghodsi 所說,「我們的信念是,讓全世界的每個組織都能利用這些技術(shù)?!?/p>

參考資料:

  • https://www.databricks.com/blog/2023/03/24/hello-dolly-democratizing-magic-chatgpt-open-models.html

  • https://venturebeat.com/ai/databricks-debuts-chatgpt-like-dolly-a-clone-any-enterprise-can-own/

本文來自微信公眾號:新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:模型,ChatGPT

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知