英偉達(dá)發(fā)布 Llama-3.1-Nemotron-51B AI 模型：創(chuàng)新神經(jīng)架構(gòu)搜索等技術(shù)讓單 H100 GPU 運(yùn)行 4 倍以上負(fù)載

2024/9/25 13:40:33 來源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

IT之家 9 月 25 日消息，英偉達(dá) 9 月 23 日發(fā)布博文，宣布推出 Llama-3.1-Nemotron-51B AI 模型，源自 Meta 公司的 Llama-3.1-70B，不過創(chuàng)新使用神經(jīng)架構(gòu)搜索（NAS）方法，建立了一個(gè)高度準(zhǔn)確和高效的模型。

Llama-3.1-Nemotron-51B 簡(jiǎn)介

Llama-3.1-Nemotron-51B AI 模型基于 Meta 公司 2024 年 7 月發(fā)布的 Llama-3.1-70B 模型，共有 510 億參數(shù)。

該 AI 模型主要采用了神經(jīng)架構(gòu)搜索（NAS）技術(shù)微調(diào)，平衡性能和效率，在高工作負(fù)荷下，只需要一片 H100 GPU 即可運(yùn)行，大大降低了內(nèi)存消耗、計(jì)算復(fù)雜性以及與運(yùn)行此類大型模型相關(guān)的成本。

英偉達(dá)認(rèn)為這種方式在保持了出色的精度前提下，顯著降低了內(nèi)存占用、內(nèi)存帶寬和 FLOPs，并證明可以在創(chuàng)建另一個(gè)更小、更快的變體來加以推廣。

Llama-3.1-Nemotron-51B 性能

相比較 Meta 的 Llama-3.1-70B 模型，Llama-3.1-Nemotron-51B 在保持了幾乎相同的精度情況下，推理速度提高了 2.2 倍。

	準(zhǔn)確率		能效
	MT Bench	MMLU	Text generation (128/1024)	Summarization/ RAG (2048/128)
Llama-3.1- Nemotron-51B- Instruct	8.99	80.2%	6472	653
Llama 3.1-70B- Instruct	8.93	81.66%	2975	339
Llama 3.1-70B- Instruct (single GPU)	—	—	1274	301
Llama 3-70B	8.94	80.17%	2975	339

效率和性能方面的突破

開發(fā) LLM 過程中面臨的主要挑戰(zhàn)之一是如何平衡精度與計(jì)算效率。許多大規(guī)模模型都能提供最先進(jìn)的結(jié)果，但卻需要耗費(fèi)大量的硬件和能源資源，這限制了它們的適用性。

英偉達(dá)的新模型在這兩個(gè)相互競(jìng)爭(zhēng)的因素之間取得了微妙的平衡。

英偉達(dá)發(fā)布 Llama-3.1-Nemotron-51B AI 模型：創(chuàng)新神經(jīng)架構(gòu)搜索等技術(shù)讓單 H100 GPU 運(yùn)行 4 倍以上負(fù)載

Llama-3.1-Nemotron-51B 實(shí)現(xiàn)了令人印象深刻的精度與效率權(quán)衡，減少了內(nèi)存帶寬，降低了每秒浮點(diǎn)運(yùn)算次數(shù) (FLOP)，并減少了總體內(nèi)存占用，同時(shí)不影響模型執(zhí)行推理、總結(jié)和語言生成等復(fù)雜任務(wù)的能力。

改進(jìn)工作量管理，提高成本效益

Llama-3.1-Nemotron-51B 的一個(gè)突出特點(diǎn)是能夠在單個(gè) GPU 上管理更大的工作負(fù)載。該型號(hào)允許開發(fā)人員在更具成本效益的環(huán)境中部署高性能 LLMs，在一個(gè) H100 設(shè)備上運(yùn)行以前需要多個(gè) GPU 才能完成的任務(wù)。

Llama-3.1-Nemotron-51B 模型還減少了內(nèi)存占用，在推理過程中可以在單個(gè) GPU 上運(yùn)行 4 倍以上的工作負(fù)載，從而帶來了一系列新的機(jī)遇。

架構(gòu)優(yōu)化：成功的關(guān)鍵

Llama-3.1-Nemotron-51B 的成功主要?dú)w功于一種新穎的結(jié)構(gòu)優(yōu)化方法。傳統(tǒng)上，LLMs 是使用相同的塊構(gòu)建的，這些塊在整個(gè)模型中重復(fù)出現(xiàn)。

這雖然簡(jiǎn)化了構(gòu)建過程，但也帶來了效率低下的問題，特別是在內(nèi)存和計(jì)算成本方面。

英偉達(dá)通過采用 NAS 技術(shù)來優(yōu)化推理模型，從而解決了這些問題。該團(tuán)隊(duì)采用了分塊蒸餾過程，即訓(xùn)練更小、更高效的學(xué)生模型（student model），以模仿更大的教師模型（teacher model）的功能。

英偉達(dá)發(fā)布 Llama-3.1-Nemotron-51B AI 模型：創(chuàng)新神經(jīng)架構(gòu)搜索等技術(shù)讓單 H100 GPU 運(yùn)行 4 倍以上負(fù)載

通過完善這些學(xué)生模型并評(píng)估其性能，英偉達(dá)開發(fā)出了 Llama-3.1 版本，在大幅降低資源需求的同時(shí)，還能提供類似的準(zhǔn)確度。

Puzzle 算法和知識(shí)蒸餾

Llama-3.1-Nemotron-51B 有別于其他模型的另一個(gè)關(guān)鍵組件，就是 Puzzle 算法。

英偉達(dá)發(fā)布 Llama-3.1-Nemotron-51B AI 模型：創(chuàng)新神經(jīng)架構(gòu)搜索等技術(shù)讓單 H100 GPU 運(yùn)行 4 倍以上負(fù)載

該算法對(duì)模型中的每個(gè)潛在區(qū)塊進(jìn)行評(píng)分，并確定哪些配置能在速度和精度之間取得最佳平衡。

跑分	Llama-3.1 70B-instruct	Llama-3.1-Nemotron-51B- Instruct	準(zhǔn)確率
winogrande	85.08%	84.53%	99.35%
arc_challenge	70.39%	69.20%	98.30%
MMLU	81.66%	80.20%	98.21%
hellaswag	86.44%	85.58%	99.01%
gsm8k	92.04%	91.43%	99.34%
truthfulqa	59.86%	58.63%	97.94%
xlsum_english	33.86%	31.61%	93.36%
MMLU Chat	81.76%	80.58%	98.55%
gsm8k Chat	81.58%	81.88%	100.37%
Instruct HumanEval (n=20)	75.85%	73.84%	97.35%
MT Bench	8.93	8.99	100.67%

通過使用知識(shí)蒸餾技術(shù)，Nvidia 縮小了參考模型（Llama-3.1-70B）與 Nemotron-51B 之間的精度差距，同時(shí)顯著降低了訓(xùn)練成本。

場(chǎng)景	Input/Output Sequence Length	Llama-3.1- Nemotron- Instruct	Llama-3.1-70B-Instruct	Ratio	Llama (TP1)
Chatbot	128/128	5478 (TP1)	2645 (TP1)	2.07	2645
Text generation	128/1024	6472 (TP1)	2975 (TP4)	2.17	1274
Long text generation	128/2048	4910 (TP2)	2786 (TP4)	1.76	646
System 2 reasoning	128/4096	3855 (TP2)	1828 (TP4)	2.11	313
Summarization/ RAG	2048/128	653 (TP1)	339 (TP4)	1.92	300
Stress test 1	2048/2048	2622 (TP2)	1336 (TP4)	1.96	319

英偉達(dá)發(fā)布 Llama-3.1-Nemotron-51B AI 模型：創(chuàng)新神經(jīng)架構(gòu)搜索等技術(shù)讓單 H100 GPU 運(yùn)行 4 倍以上負(fù)載

IT之家附上參考地址

Advancing the Accuracy-Efficiency Frontier with Llama-3.1-Nemotron-51B
Nvidia AI Releases Llama-3.1-Nemotron-51B: A New LLM that Enables Running 4x Larger Workloads on a Single GPU During Inference

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

英偉達(dá)發(fā)布 Llama-3.1-Nemotron-51B AI 模型：創(chuàng)新神經(jīng)架構(gòu)搜索等技術(shù)讓單 H100 GPU 運(yùn)行 4 倍以上負(fù)載

Llama-3.1-Nemotron-51B 簡(jiǎn)介

Llama-3.1-Nemotron-51B 性能

效率和性能方面的突破

改進(jìn)工作量管理，提高成本效益

架構(gòu)優(yōu)化：成功的關(guān)鍵

Puzzle 算法和知識(shí)蒸餾

相關(guān)文章

改進(jìn)工作量管理，提高成本效益