設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Mistral 攜微軟引爆“小語言模型”風(fēng)潮:代碼能力完勝 GPT-4,成本僅有 1/3

新智元 2023/12/17 20:11:30 責(zé)編:問舟

小模型的風(fēng)潮,最近愈來愈盛,Mistral 和微軟分別有所動(dòng)作。而網(wǎng)友實(shí)測發(fā)現(xiàn),Mistral-medium 的代碼能力竟然完勝了 GPT-4,而所花成本還不到三分之一。

最近,「小語言模型」忽然成為熱點(diǎn)。本周一,剛剛完成 4.15 億美元融資的法國 AI 初創(chuàng)公司 Mistral,發(fā)布了 Mixtral 8x7B 模型。

這個(gè)開源模型盡管尺寸不大,小到足以在一臺(tái)內(nèi)存 100GB 以上的電腦上運(yùn)行,然而在某些基準(zhǔn)測試中卻能和 GPT-3.5 打平,因此迅速在開發(fā)者中贏得了一片稱贊。

之所以叫 Mixtral 8x7B,是因?yàn)樗Y(jié)合了為處理特定任務(wù)而訓(xùn)練的各種較小模型,從而提高了運(yùn)行效率。

這種「稀疏專家混合」模型并不容易實(shí)現(xiàn),據(jù)說 OpenAI 在今年早些時(shí)候因?yàn)闊o法讓 MoE 模型正常運(yùn)行,而不得不放棄了模型的開發(fā)。

緊接著,就在第二天,微軟又發(fā)布了全新版本的 Phi-2 小模型。

跟 Mistral 的 70 億參數(shù)比,Phi-2 小到可以在手機(jī)上跑,只有 27 億參數(shù)。相比之下,GPT-4 的參數(shù)達(dá)到了一萬億。

Phi-2 在精心挑選的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,數(shù)據(jù)集的質(zhì)量足夠高,因此即使手機(jī)的計(jì)算能力有限,也能確保模型生成準(zhǔn)確的結(jié)果。

雖然還不清楚微軟或其他軟件制造商將如何使用小型模型,但最明顯的好處,就是降低了大規(guī)模運(yùn)行 AI 應(yīng)用的成本,并且極大地拓寬了生成式 AI 技術(shù)的應(yīng)用范圍。

這是一件大事。

Mistral-medium 代碼生成完勝 GPT-4

最近,Mistral-medium 已經(jīng)開放內(nèi)測。

有博主對比了開源的 Mistral-medium 和 GPT-4 的代碼生成能力,結(jié)果顯示,Mistral-medium 比 GPT-4 的代碼能力更強(qiáng),然而成本卻只需 GPT-4 的 3 成!

總價(jià)來說就是:

1)Mistral 會(huì)始終完成工作,完成度很高;

2)不會(huì)在冗長的解釋性輸出上浪費(fèi) token;

3)提供的建議非常具體。

第一題,「編寫用于生成斐波那契素?cái)?shù)的 PyTorch 數(shù)據(jù)集的 cuda 優(yōu)化代碼」。

Mistral-Medium 生成的代碼嚴(yán)肅、完整。

而 GPT-4 生成的代碼,就差強(qiáng)人意了。

浪費(fèi)了很多 token,卻沒有輸出有用的信息。

然后,GPT-4 只給出了骨架代碼,并沒有具體的相關(guān)代碼。

第二道題:「編寫高效的 Python 代碼,將大約 10 億個(gè)大型 Apache HTTP 訪問文件攝取到 SqlLite 數(shù)據(jù)庫中,并使用它來生成對 sales.htmlproduct.html 的訪問直方圖」。

Mistral 的輸出非常精彩,雖然 log 不是 CSV 格式的,但修改起來很容易。

GPT-4 依舊拉跨。

此前,這位博主測試過多個(gè)代碼生成模型,GPT-4 一直穩(wěn)居第一。而現(xiàn)在,把它拉下寶座的強(qiáng)勁對手 Mistral-medium 終于出現(xiàn)了。雖然只發(fā)布了兩個(gè)例子,但博主測試了多個(gè)問題,結(jié)果都差不多。

他建議:鑒于 Mistral-medium 在代碼生成質(zhì)量上有更好的體驗(yàn),應(yīng)該把它整合到各地的代碼 copilot 中。

有人按照每 1000token 算出了輸入和輸出的成本,發(fā)現(xiàn) Mistral-medium 比起 GPT-4 直接降低了 70%!

的確,節(jié)省了 70% 的 token 費(fèi)用,可不是一件小事。甚至還可以通過不冗長的輸出,來進(jìn)一步節(jié)省成本。

參考資料:

  • https://www.theinformation.com/articles/the-rise-of-small-language-models-and-reinforcement-learning

  • https://twitter.com/deliprao/status/1734997263024329157

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:微軟,GPT4Mistral

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知