IT之家 6 月 5 日消息,像 OpenAI 的 ChatGPT、谷歌的 Gemini Ultra 這樣的高級(jí) AI 模型,訓(xùn)練它們通常需要數(shù)百萬(wàn)美元的費(fèi)用,且該成本還在迅速上升。
隨著計(jì)算需求的增加,訓(xùn)練它們所需的計(jì)算能力的費(fèi)用也在飆升。為此,AI 公司正在重新考慮如何訓(xùn)練這些生成式 AI 系統(tǒng)。在許多情況下,這些策略包括在當(dāng)前的增長(zhǎng)軌跡下降低計(jì)算成本。
訓(xùn)練成本是如何確定的?
斯坦福大學(xué)與研究公司 Epoch AI 合作,根據(jù)云計(jì)算租金估算了 AI 模型的訓(xùn)練成本。雙方所分析的關(guān)鍵因素包括模型的訓(xùn)練時(shí)長(zhǎng)、硬件的利用率和訓(xùn)練硬件的價(jià)值。
盡管許多人猜測(cè),訓(xùn)練 AI 模型的成本變得越來(lái)越高,但缺乏全面的數(shù)據(jù)來(lái)支持這些說(shuō)法。而斯坦福大學(xué)發(fā)布的《2024 年 AI 指數(shù)報(bào)告》正是支持這些說(shuō)法的罕見(jiàn)來(lái)源之一。
不斷膨脹的訓(xùn)練成本
下表展示了自 2017 年以來(lái),經(jīng)通脹調(diào)整后的主要 AI 模型的培訓(xùn)成本:
去年,OpenAI 的 GPT-4 培訓(xùn)成本估計(jì)為 7840 萬(wàn)美元,遠(yuǎn)高于谷歌 PaLM (540B) 的訓(xùn)練成本。谷歌 PaLM 較 GPT-4 僅早一年推出,但訓(xùn)練成本為 1240 萬(wàn)美元。
相比之下,2017 年開(kāi)發(fā)的早期 AI 模型 Transformer 的訓(xùn)練成本為 930 美元。該模型在塑造當(dāng)前所使用的許多大型語(yǔ)言模型的體系結(jié)構(gòu)方面起著基礎(chǔ)性作用。
谷歌的 AI 模型 Gemini Ultra 的訓(xùn)練成更高,達(dá)到了驚人的 1.91 億美元。截至 2024 年初,該模型在幾個(gè)指標(biāo)上都超過(guò)了 GPT-4,最引人注目的是在“大規(guī)模多任務(wù)語(yǔ)言理解”(MMLU)基準(zhǔn)測(cè)試中勝出。這一基準(zhǔn)是衡量大型語(yǔ)言模型能力的重要標(biāo)尺。例如,它以評(píng)估 57 個(gè)學(xué)科領(lǐng)域的知識(shí)和解決問(wèn)題的熟練程度而聞名。
訓(xùn)練未來(lái)的 AI 模型
鑒于這些挑戰(zhàn),AI 公司正在尋找新的解決方案來(lái)訓(xùn)練語(yǔ)言模型,以應(yīng)對(duì)不斷上漲的成本。
其中的方法有多種,比如創(chuàng)建用于執(zhí)行特定任務(wù)的較小模型,而其他一些公司正在試驗(yàn)創(chuàng)建自家的合成數(shù)據(jù)來(lái)“投喂”AI 系統(tǒng)。但到目前為止,這方面還沒(méi)有取得明確的突破。
例如,使用合成數(shù)據(jù)的 AI 模型有時(shí)會(huì)“胡言亂語(yǔ)”,引發(fā)所謂的“模型崩潰”。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。