就說程序員的手速有多快吧,首個(gè)開源 ChatGPT 項(xiàng)目已經(jīng)出現(xiàn)了!
基于谷歌語言大模型 PaLM 架構(gòu),以及使用從人類反饋中強(qiáng)化學(xué)習(xí)的方法(RLHF),華人小哥 Phillip Wang 復(fù)刻了一個(gè) ChatGPT 出來。
項(xiàng)目 GitHub 星已經(jīng)超過 1.7k 了,而且還在一路飆升 ing。
不過一反常態(tài)的是,網(wǎng)友們看到“開源 ChatGPT”卻沒有火速開沖,反倒齊刷刷在發(fā)問:
這…… 有人能 run?
開源了但沒完全開?
項(xiàng)目的核心內(nèi)容,是在 PaLM 架構(gòu)上實(shí)現(xiàn)基于人類反饋的強(qiáng)化學(xué)習(xí)。
其中,PaLM(Pathways Language Model)是谷歌在今年 4 月發(fā)布的 5400 億參數(shù)全能大模型,基于 Pathways 系統(tǒng)訓(xùn)練,BERT 之父 Jacob Devlin 為主要貢獻(xiàn)者之一。
PaLM 可以完成寫代碼、聊天、語言理解等任務(wù),并且在大多數(shù)任務(wù)上實(shí)現(xiàn)了 SOTA 少樣本學(xué)習(xí)性能。
另一個(gè)核心點(diǎn)是 RLHF“從人類反饋中強(qiáng)化學(xué)習(xí)”。
OpenAI 提出 InstructGPT 時(shí)就用到了這一方法,它能讓 AI 的回答更加符合情景要求,降低“有害性”。
具體分三步:
第一步,找一些人寫下示范答案,來微調(diào) GPT-3 模型,訓(xùn)練監(jiān)督模型 baseline。
第二步,收集某個(gè)問題的幾組不同輸出數(shù)據(jù),由人類對幾組答案進(jìn)行排序,在此數(shù)據(jù)集上訓(xùn)練獎(jiǎng)勵(lì)模型。
第三步,使用 RM 作為獎(jiǎng)勵(lì)函數(shù),近端策略優(yōu)化(PPO)算法微調(diào) GPT-3 策略,以強(qiáng)化學(xué)習(xí)方法最大化獎(jiǎng)勵(lì)。
ChatGPT 使用的 GPT-3.5,其中 text-davinci-002 就是在 code-davinci-002 的基礎(chǔ)上,采用了 InstructGPT 訓(xùn)練方法改進(jìn)得到。
正是基于如上兩方面核心內(nèi)容,作者實(shí)現(xiàn)了 ChatGPT 的復(fù)刻。
大致步驟有 3 步:
首先來訓(xùn)練一下 PaLM,就和其他自回歸 Transformer 一樣。
第二……
等等,訓(xùn)練 PaLM???這確定不是在開玩笑?
現(xiàn)在明白為啥大家都覺得這個(gè)開源項(xiàng)目完全不能 run 了……
打個(gè)不恰當(dāng)?shù)谋确剑@就像如果想吃熊肉,那先自己去打頭熊來。
項(xiàng)目中只有 PaLM 架構(gòu)和代碼,沒有預(yù)先訓(xùn)練好的權(quán)重。
所以完成第一步,大概效果就是……
話雖如此,但還是繼續(xù)接著往下看看……
第二步,就要訓(xùn)練基于 RLHF 的獎(jiǎng)勵(lì)模型了。作者使用的是一種輕量級訓(xùn)練大語言模型方法 LoRA,這種方法是開源的。
然后,再把之前訓(xùn)練好的模型和獎(jiǎng)勵(lì)模型用強(qiáng)化學(xué)習(xí)進(jìn)行微調(diào)。
經(jīng)過這三步后,就能得到一個(gè)開源版的 ChatGPT 了。
這中間面臨的問題包括巨大的計(jì)算量、超大模型和難收集的文本…… 所以有人也不免發(fā)問:
有沒有一種可能,它也沒啥用?
不過有網(wǎng)友覺得這本質(zhì)上還是一件好事啦。
AI 的一個(gè)關(guān)鍵區(qū)別就是,每有一個(gè)重大突破,很快就會出現(xiàn)一個(gè)開源版本。
實(shí)際上,開源項(xiàng)目作者小哥 Philip Wang 一直都熱衷于復(fù)刻各種明星項(xiàng)目,過去還嘗試過 Dall?E 2、AlphaFold 2 等。
以及 LAION 也發(fā)起了一個(gè)類似項(xiàng)目 Open Assistant,他們將通過“眾籌腦力”的方式,共同開發(fā)一個(gè)開源的聊天 AI。
Stable Diffusion 用的開放數(shù)據(jù)集,就是這一組織做的。
感興趣的童鞋不妨去試試看~
PaLM-rlhf-pytorch 主頁:
https://github.com/lucidrains/PaLM-rlhf-pytorch
Open Assistant 主頁:
https://github.com/LAION-AI/Open-Assistant
參考鏈接:
[1]https://twitter.com/rasbt/status/1608133663937495041
[2]https://twitter.com/omarsar0/status/1608143718460055552
本文來自微信公眾號:量子位 (ID:QbitAI),作者:明敏
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。