IT之家 9 月 25 日消息,英偉達(dá) 9 月 23 日發(fā)布博文,宣布推出 Llama-3.1-Nemotron-51B AI 模型,源自 Meta 公司的 Llama-3.1-70B,不過(guò)創(chuàng)新使用神經(jīng)架構(gòu)搜索(NAS)方法,建立了一個(gè)高度準(zhǔn)確和高效的模型。
Llama-3.1-Nemotron-51B 簡(jiǎn)介
Llama-3.1-Nemotron-51B AI 模型基于 Meta 公司 2024 年 7 月發(fā)布的 Llama-3.1-70B 模型,共有 510 億參數(shù)。
該 AI 模型主要采用了神經(jīng)架構(gòu)搜索(NAS)技術(shù)微調(diào),平衡性能和效率,在高工作負(fù)荷下,只需要一片 H100 GPU 即可運(yùn)行,大大降低了內(nèi)存消耗、計(jì)算復(fù)雜性以及與運(yùn)行此類大型模型相關(guān)的成本。
英偉達(dá)認(rèn)為這種方式在保持了出色的精度前提下,顯著降低了內(nèi)存占用、內(nèi)存帶寬和 FLOPs,并證明可以在創(chuàng)建另一個(gè)更小、更快的變體來(lái)加以推廣。
Llama-3.1-Nemotron-51B 性能
相比較 Meta 的 Llama-3.1-70B 模型,Llama-3.1-Nemotron-51B 在保持了幾乎相同的精度情況下,推理速度提高了 2.2 倍。
準(zhǔn)確率 | 能效 | |||
MT Bench | MMLU | Text generation (128/1024) | Summarization/ RAG (2048/128) | |
Llama-3.1- Nemotron-51B- Instruct | 8.99 | 80.2% | 6472 | 653 |
Llama 3.1-70B- Instruct | 8.93 | 81.66% | 2975 | 339 |
Llama 3.1-70B- Instruct (single GPU) | — | — | 1274 | 301 |
Llama 3-70B | 8.94 | 80.17% | 2975 | 339 |
效率和性能方面的突破
開發(fā) LLM 過(guò)程中面臨的主要挑戰(zhàn)之一是如何平衡精度與計(jì)算效率。許多大規(guī)模模型都能提供最先進(jìn)的結(jié)果,但卻需要耗費(fèi)大量的硬件和能源資源,這限制了它們的適用性。
英偉達(dá)的新模型在這兩個(gè)相互競(jìng)爭(zhēng)的因素之間取得了微妙的平衡。
Llama-3.1-Nemotron-51B 實(shí)現(xiàn)了令人印象深刻的精度與效率權(quán)衡,減少了內(nèi)存帶寬,降低了每秒浮點(diǎn)運(yùn)算次數(shù) (FLOP),并減少了總體內(nèi)存占用,同時(shí)不影響模型執(zhí)行推理、總結(jié)和語(yǔ)言生成等復(fù)雜任務(wù)的能力。
改進(jìn)工作量管理,提高成本效益
Llama-3.1-Nemotron-51B 的一個(gè)突出特點(diǎn)是能夠在單個(gè) GPU 上管理更大的工作負(fù)載。該型號(hào)允許開發(fā)人員在更具成本效益的環(huán)境中部署高性能 LLMs,在一個(gè) H100 設(shè)備上運(yùn)行以前需要多個(gè) GPU 才能完成的任務(wù)。
Llama-3.1-Nemotron-51B 模型還減少了內(nèi)存占用,在推理過(guò)程中可以在單個(gè) GPU 上運(yùn)行 4 倍以上的工作負(fù)載,從而帶來(lái)了一系列新的機(jī)遇。
架構(gòu)優(yōu)化:成功的關(guān)鍵
Llama-3.1-Nemotron-51B 的成功主要?dú)w功于一種新穎的結(jié)構(gòu)優(yōu)化方法。傳統(tǒng)上,LLMs 是使用相同的塊構(gòu)建的,這些塊在整個(gè)模型中重復(fù)出現(xiàn)。
這雖然簡(jiǎn)化了構(gòu)建過(guò)程,但也帶來(lái)了效率低下的問(wèn)題,特別是在內(nèi)存和計(jì)算成本方面。
英偉達(dá)通過(guò)采用 NAS 技術(shù)來(lái)優(yōu)化推理模型,從而解決了這些問(wèn)題。該團(tuán)隊(duì)采用了分塊蒸餾過(guò)程,即訓(xùn)練更小、更高效的學(xué)生模型(student model),以模仿更大的教師模型(teacher model)的功能。
通過(guò)完善這些學(xué)生模型并評(píng)估其性能,英偉達(dá)開發(fā)出了 Llama-3.1 版本,在大幅降低資源需求的同時(shí),還能提供類似的準(zhǔn)確度。
Puzzle 算法和知識(shí)蒸餾
Llama-3.1-Nemotron-51B 有別于其他模型的另一個(gè)關(guān)鍵組件,就是 Puzzle 算法。
該算法對(duì)模型中的每個(gè)潛在區(qū)塊進(jìn)行評(píng)分,并確定哪些配置能在速度和精度之間取得最佳平衡。
跑分 | Llama-3.1 70B-instruct | Llama-3.1-Nemotron-51B- Instruct | 準(zhǔn)確率 |
winogrande | 85.08% | 84.53% | 99.35% |
arc_challenge | 70.39% | 69.20% | 98.30% |
MMLU | 81.66% | 80.20% | 98.21% |
hellaswag | 86.44% | 85.58% | 99.01% |
gsm8k | 92.04% | 91.43% | 99.34% |
truthfulqa | 59.86% | 58.63% | 97.94% |
xlsum_english | 33.86% | 31.61% | 93.36% |
MMLU Chat | 81.76% | 80.58% | 98.55% |
gsm8k Chat | 81.58% | 81.88% | 100.37% |
Instruct HumanEval (n=20) | 75.85% | 73.84% | 97.35% |
MT Bench | 8.93 | 8.99 | 100.67% |
通過(guò)使用知識(shí)蒸餾技術(shù),Nvidia 縮小了參考模型(Llama-3.1-70B)與 Nemotron-51B 之間的精度差距,同時(shí)顯著降低了訓(xùn)練成本。
場(chǎng)景 | Input/Output Sequence Length | Llama-3.1- Nemotron- Instruct | Llama-3.1-70B-Instruct | Ratio | Llama (TP1) |
Chatbot | 128/128 | 5478 (TP1) | 2645 (TP1) | 2.07 | 2645 |
Text generation | 128/1024 | 6472 (TP1) | 2975 (TP4) | 2.17 | 1274 |
Long text generation | 128/2048 | 4910 (TP2) | 2786 (TP4) | 1.76 | 646 |
System 2 reasoning | 128/4096 | 3855 (TP2) | 1828 (TP4) | 2.11 | 313 |
Summarization/ RAG | 2048/128 | 653 (TP1) | 339 (TP4) | 1.92 | 300 |
Stress test 1 | 2048/2048 | 2622 (TP2) | 1336 (TP4) | 1.96 | 319 |
IT之家附上參考地址
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。