模型訓(xùn)練成本“平民化”，前特斯拉 AI 總監(jiān) 24 小時僅用 672 美元“重現(xiàn)”GPT-2

2024/7/13 21:58:53 來源：IT之家作者：清源責(zé)編：清源

評論：

IT之家 7 月 13 日消息，GPT-2 是 OpenAI 于 2019 年推出的模型，其訓(xùn)練費用一度為每小時 256 美元，那么 5 年過后的 GPT-4 時代，軟硬件和數(shù)據(jù)的進步，是否意味著訓(xùn)練同一模型所需的時間和成本會隨之減少呢？答案是肯定的。

據(jù) Tom's Hardware 今日報道，前特斯拉 AI 總監(jiān)、OpenAI 聯(lián)合創(chuàng)始人、項目開發(fā)者 Andrej Karpathy 使用 llm.c“重現(xiàn)”了 GPT-2，其成本降到了每小時僅 28 美元（IT之家備注：當前約 204 元人民幣），在短短 5 年內(nèi)降低了近 90%。

圖源 Pixabay

成本降低的主要因素，則是其使用了單個 8XH100 節(jié)點進行訓(xùn)練。此外，Andrej Karpathy 表示，llm.c 直接實現(xiàn)了 GPT 訓(xùn)練?！坝捎?llm.c 是用 C / CUDA 直接實現(xiàn)的 GPT 訓(xùn)練，因此其要求非常之低 —— 不需要 conda 環(huán)境、Python 解釋器、pip 安裝等。你只需啟動一個云 GPU 節(jié)點，選擇性地安裝 NVIDIA cuDNN、NCCL / MPI，下載.bin 數(shù)據(jù)分片，編譯并運行，幾分鐘內(nèi)就能開始?！?/p>

他補充說：“然后等待 24 小時（28*24=672），就能生成關(guān)于‘安第斯山脈中會說英語的獨角獸’的樣本?！?/p>

據(jù)悉，llm.c 項目最初是作為一個教育視頻的一部分，但很快變成了 Karpathy 在遇到一些 PyTorch 問題后從頭開始構(gòu)建的項目。

然而報道認為，硬件、軟件和訓(xùn)練數(shù)據(jù)的進步并不意味著尖端 AI 訓(xùn)練的成本在下降。例如，Anthropic CEO Dario Amodei 近期就表示，當前正在開發(fā)的 AI 模型可能需要 10 億美元的訓(xùn)練成本，預(yù)計到 2025 年成本更高的模型將達到 1000 億美元。

硬件性能的提高也伴隨著成本的上漲。例如，英偉達 H100 芯片的單價為 4 萬美元，下一代 Blackwell AI 芯片的預(yù)計售價則可能達到 7 萬美元。但即便如此，谷歌 Deepmind CEO 曾表示，當前模型的智商水平仍然僅僅相當于一只貓。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

模型訓(xùn)練成本“平民化”，前特斯拉 AI 總監(jiān) 24 小時僅用 672 美元“重現(xiàn)”GPT-2

相關(guān)文章

模型訓(xùn)練成本“平民化”，前特斯拉 AI 總監(jiān) 24 小時僅用 672 美元“重現(xiàn)”GPT-2