中國(guó)聯(lián)通業(yè)界首次提出大模型能力邊界量化基準(zhǔn)，避免“高射炮打蚊子”情況

2024/12/27 21:43:47 來(lái)源：IT之家作者：汪淼責(zé)編：汪淼

評(píng)論：

IT之家 12 月 27 日消息，據(jù)中國(guó)聯(lián)通官方今日消息，該公司借鑒動(dòng)物智能演化規(guī)律，結(jié)合大模型實(shí)際落地應(yīng)用實(shí)踐，在業(yè)界首次提出大模型能力邊界量化基準(zhǔn)，定量分析主流語(yǔ)言大模型能力邊界，詳細(xì)刻畫模型參數(shù)量、模型能力與應(yīng)用場(chǎng)景之間的關(guān)系，為語(yǔ)言大模型的應(yīng)用選型提供理論和經(jīng)驗(yàn)指導(dǎo)，將有助于降低語(yǔ)言大模型應(yīng)用門檻。

相關(guān)研究成果以 <What is the Best Model? Application-Driven Evaluation for Large Language Models> 為題發(fā)表在自然語(yǔ)言處理權(quán)威會(huì)議 NLPCC 2024 上，相應(yīng)的評(píng)估基準(zhǔn)已向業(yè)界開(kāi)源。

借鑒動(dòng)物智能演化規(guī)律

一般來(lái)說(shuō)，動(dòng)物的腦神經(jīng)元越多，腦容量越大，智力水平就越高。另外，不同智力水平的動(dòng)物擅長(zhǎng)的任務(wù)種類和難度也各不相同，即使小如烏鴉的大腦，也可以完成“烏鴉喝水”這樣的任務(wù)。

動(dòng)物智能演化規(guī)律

相似地，在語(yǔ)言大模型中，擴(kuò)展法則指出模型參數(shù)量越大，模型能力越強(qiáng)，相應(yīng)的算法消耗和應(yīng)用成本也越高。然而這樣的定性分析是不夠的，大模型能力邊界定量刻畫的缺乏，導(dǎo)致在實(shí)際應(yīng)用中經(jīng)常出現(xiàn)“高射炮打蚊子”的情況。因此對(duì)大模型能力邊界的定量刻畫是必要且緊迫的。

構(gòu)建大模型能力評(píng)估基準(zhǔn)

中國(guó)聯(lián)通研究團(tuán)隊(duì)從實(shí)際應(yīng)用場(chǎng)景維度出發(fā)，對(duì)語(yǔ)言大模型主要能力進(jìn)行歸納、梳理和總結(jié)，建立了應(yīng)用驅(qū)動(dòng)的大語(yǔ)言模型能力評(píng)估基準(zhǔn)。該評(píng)估基準(zhǔn)包括文本生成、理解、關(guān)鍵信息抽取、邏輯推理、任務(wù)規(guī)劃等 5 大類能力，又細(xì)分為 27 類子能力。

語(yǔ)言大模型主要能力

針對(duì) 27 類子能力，中國(guó)聯(lián)通研究團(tuán)隊(duì)構(gòu)建了相應(yīng)的評(píng)測(cè)任務(wù)和由易、中、難三個(gè)難度等級(jí)的 678 個(gè)問(wèn)答對(duì)構(gòu)成的評(píng)估數(shù)據(jù)集。為避免數(shù)據(jù)泄露問(wèn)題，所有數(shù)據(jù)均由專家團(tuán)隊(duì)人工編寫。

應(yīng)用驅(qū)動(dòng)的語(yǔ)言大模型能力評(píng)估數(shù)據(jù)集

量化主流大模型能力邊界

團(tuán)隊(duì)設(shè)計(jì)了專家評(píng)估和基于大模型的自動(dòng)化評(píng)估方法，對(duì)同一家族 8 個(gè)不同規(guī)模的模型（0.5B、1.8B、4B、7B、14B、32B、72B、110B）進(jìn)行測(cè)試和評(píng)估，避免模型架構(gòu)、訓(xùn)練數(shù)據(jù)等非模型參數(shù)量因素對(duì)評(píng)估結(jié)果產(chǎn)生干擾，得到了不同參數(shù)量模型在各種任務(wù)上的可靠的評(píng)估結(jié)果。從下圖的評(píng)測(cè)結(jié)果可以看出，不同參數(shù)量模型能力不同，模型參數(shù)量越大，模型能力越強(qiáng)，對(duì)于復(fù)雜任務(wù)需要使用大參數(shù)量模型。

不同參數(shù)量模型在各類任務(wù)中的準(zhǔn)確率

依據(jù)能力要求確定模型參數(shù)量

根據(jù)語(yǔ)言大模型能力邊界測(cè)評(píng)結(jié)果，團(tuán)隊(duì)提出了一種簡(jiǎn)單可行的模型選型方法，指導(dǎo)模型落地應(yīng)用時(shí)的參數(shù)選型?？偟膩?lái)說(shuō)，針對(duì)不同任務(wù)，任務(wù)難度越高要求參數(shù)越大；針對(duì)同一任務(wù)，參數(shù)越大模型性能越好。

具體地，可依據(jù)某項(xiàng)任務(wù)對(duì)模型性能的底線要求來(lái)選擇相應(yīng)參數(shù)的規(guī)模，以圖中任務(wù)為例：

在用戶需求準(zhǔn)確率為 80% 的前提下，對(duì)于拼寫錯(cuò)誤校正任務(wù)，14B 以上模型可獲 90 分以上；
對(duì)于邏輯錯(cuò)誤檢測(cè)任務(wù)，110B 以上模型可達(dá) 90 分以上；
如果同時(shí)應(yīng)用多個(gè)任務(wù)，先為每個(gè)任務(wù)選擇合適的模型，再選擇其中參數(shù)量最大的模型即可。

選型過(guò)程中不需要用戶對(duì)大模型有深入了解，這將降低用戶選擇使用大模型的門檻，促進(jìn)大模型普惠化。

模型參數(shù)量選擇方法示例

探索設(shè)計(jì)模型選型使用“說(shuō)明書”

在元景大模型應(yīng)用落地中，中國(guó)聯(lián)通基于上述評(píng)估基準(zhǔn)，打造評(píng)估工具，量化 1B、7B、13B、34B 和 70B 等元景基礎(chǔ)大模型的能力邊界，并分別將其用于違規(guī)短信分類、投訴工單分類、客服助手、漁業(yè)知識(shí)問(wèn)答、元景 App 問(wèn)答等場(chǎng)景，提煉“模型參數(shù)量-模型能力-應(yīng)用場(chǎng)景”關(guān)聯(lián)關(guān)系（如下圖），作為大模型使用“說(shuō)明書”，集成到元景 MaaS 平臺(tái)，為開(kāi)發(fā)者提供選模型指引。

模型參數(shù)量-能力-場(chǎng)景的對(duì)應(yīng)關(guān)系圖

IT之家附論文鏈接：https://arxiv.org/abs/2406.10307

評(píng)估基準(zhǔn)：https://github.com/UnicomAI/UnicomBenchmark/tree/main/A-Eval

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。