設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

上海 AI 實(shí)驗(yàn)室發(fā)布“書(shū)生?浦語(yǔ)”大模型:中文考試超越 ChatGPT

2023/6/7 15:24:52 來(lái)源:IT之家 作者:遠(yuǎn)洋 責(zé)編:遠(yuǎn)洋
感謝IT之家網(wǎng)友 華南吳彥祖、HH_KK 的線索投遞!

IT之家 6 月 7 日消息,IT之家從上海人工智能實(shí)驗(yàn)室官方公眾號(hào)獲悉,6 月 7 日,上海人工智能實(shí)驗(yàn)室(上海 AI 實(shí)驗(yàn)室)、商湯科技聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)及上海交通大學(xué)發(fā)布千億級(jí)參數(shù)大語(yǔ)言模型“書(shū)生?浦語(yǔ)”(InternLM)?!皶?shū)生?浦語(yǔ)”具有 1040 億參數(shù),是在包含 1.6 萬(wàn)億 token 的多語(yǔ)種高質(zhì)量數(shù)據(jù)集上訓(xùn)練而成。

圖源 Pexels

上海人工智能實(shí)驗(yàn)室稱,全面評(píng)測(cè)結(jié)果顯示,“書(shū)生?浦語(yǔ)”不僅在知識(shí)掌握、閱讀理解、數(shù)學(xué)推理、多語(yǔ)翻譯等多個(gè)測(cè)試任務(wù)上表現(xiàn)優(yōu)秀,而且具備很強(qiáng)的綜合能力,因而在綜合性考試中表現(xiàn)突出,在多項(xiàng)中文考試中取得超越 ChatGPT 的成績(jī),其中就包括中國(guó)高考各科目的數(shù)據(jù)集(GaoKao)。

據(jù)介紹,“書(shū)生?浦語(yǔ)”聯(lián)合團(tuán)隊(duì)選取了 20 余項(xiàng)評(píng)測(cè)對(duì)其進(jìn)行檢驗(yàn),其中包含全球最具影響力的四個(gè)綜合性考試評(píng)測(cè)集:由伯克利加州大學(xué)等高校構(gòu)建的多任務(wù)考試評(píng)測(cè)集 MMLU;由微軟研究院推出的學(xué)科考試評(píng)測(cè)集 AGIEval(含中國(guó)高考、司法考試及美國(guó) SAT、LSAT、GRE 和 GMAT 等);由上海交通大學(xué)、清華大學(xué)和愛(ài)丁堡大學(xué)合作構(gòu)建的面向中文語(yǔ)言模型的綜合性考試評(píng)測(cè)集 C-Eval;由復(fù)旦大學(xué)研究團(tuán)隊(duì)構(gòu)建的高考題目評(píng)測(cè)集 Gaokao。

實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)對(duì)“書(shū)生?浦語(yǔ)”、GLM-130B、LLaMA-65B、ChatGPT 和 GPT-4 進(jìn)行了全面測(cè)試,針對(duì)上述四個(gè)評(píng)測(cè)集的成績(jī)對(duì)比如下(滿分 100 分)。

圖片

可以看到,“書(shū)生?浦語(yǔ)”不僅顯著超越了 GLM-130B 和 LLaMA-65B 等學(xué)術(shù)開(kāi)源模型,還在 AGIEval、C-Eval 以及 Gaokao 等多個(gè)綜合性考試中領(lǐng)先于 ChatGPT;在以美國(guó)考試為主的 MMLU 上實(shí)現(xiàn)和 ChatGPT 持平。這些綜合性考試的成績(jī)反映出“書(shū)生?浦語(yǔ)”扎實(shí)的知識(shí)掌握程度和優(yōu)秀的綜合能力。

雖然 “書(shū)生?浦語(yǔ)”在考試評(píng)測(cè)上取得優(yōu)秀成績(jī),但在測(cè)評(píng)中也可以看到,大語(yǔ)言模型仍然存在不少能力局限性?!皶?shū)生?浦語(yǔ)” 受限于 2K 的語(yǔ)境窗口長(zhǎng)度(GPT-4 的語(yǔ)境窗口長(zhǎng)度為 32K),在長(zhǎng)文理解、復(fù)雜推理、撰寫(xiě)代碼以及數(shù)理邏輯演繹等方面還存在明顯局限。另外,在實(shí)際對(duì)話中,大語(yǔ)言模型還普遍存在幻覺(jué)、概念混淆等問(wèn)題;這些局限使得大語(yǔ)言模型在開(kāi)放場(chǎng)景中的使用還有很長(zhǎng)的路要走。

四個(gè)綜合性考試評(píng)測(cè)數(shù)據(jù)集結(jié)果:

MMLU 是由伯克利加州大學(xué)(UC Berkeley)聯(lián)合哥倫比亞大學(xué)、芝加哥大學(xué)和 UIUC 公共構(gòu)建的多任務(wù)考試評(píng)測(cè)集,涵蓋了初等數(shù)學(xué)、物理、化學(xué)、計(jì)算機(jī)科學(xué)、美國(guó)歷史、法律、經(jīng)濟(jì)、外交等多個(gè)學(xué)科。細(xì)分科目結(jié)果如下表所示。

圖片

(粗體表示最佳結(jié)果,下劃線表示第二)

AGIEval 是由微軟研究院在今年新提出的學(xué)科考試評(píng)測(cè)集,主要目標(biāo)是通過(guò)面向的考試來(lái)評(píng)估語(yǔ)言模型的能力,從而實(shí)現(xiàn)模型智能和人類智能的對(duì)比。這個(gè)評(píng)測(cè)集基于中國(guó)和美國(guó)各類考試構(gòu)建了 19 個(gè)評(píng)測(cè)大項(xiàng),包括了中國(guó)各科高考、司法考試以及美國(guó)的 SAT、LSAT、GRE 和 GMAT 等重要考試。值得一提的是,在這 19 個(gè)大項(xiàng)有 9 個(gè)大項(xiàng)是中國(guó)高考,通常也列為一個(gè)重要的評(píng)測(cè)子集 AGIEval(GK)。下列表格中,帶 GK 的是中國(guó)高考科目。

圖片

(粗體表示最佳結(jié)果,下劃線表示第二)

C-Eval 是由上海交通大學(xué)、清華大學(xué)和愛(ài)丁堡大學(xué)合作構(gòu)建的面向中文語(yǔ)言模型的綜合性考試評(píng)測(cè)集。它包含了 52 個(gè)科目的近 14000 道考題,涵蓋數(shù)學(xué)、物理、化學(xué)、生物、歷史、政治、計(jì)算機(jī)等學(xué)科考試,以及面向公務(wù)員、注冊(cè)會(huì)計(jì)師、律師、醫(yī)生的職業(yè)考試。測(cè)試結(jié)果可以通過(guò) leaderboard 獲得。

圖片

Gaokao 是由復(fù)旦大學(xué)研究團(tuán)隊(duì)構(gòu)建的基于中國(guó)高考題目的綜合性考試評(píng)測(cè)集,包含了中國(guó)高考的各個(gè)科目,以及選擇、填空、問(wèn)答等多種題型。在 GaoKao 測(cè)評(píng)中,“書(shū)生?浦語(yǔ)”在超過(guò) 75% 的項(xiàng)目中均領(lǐng)先 ChatGPT。

圖片

分項(xiàng)評(píng)測(cè):閱讀理解、推理能力表現(xiàn)出色

為了避免“偏科”,研究人員還通過(guò)多個(gè)學(xué)術(shù)評(píng)測(cè)集,對(duì)“書(shū)生?浦語(yǔ)”等語(yǔ)言模型的分項(xiàng)能力進(jìn)行了評(píng)測(cè)對(duì)比。結(jié)果顯示,“書(shū)生?浦語(yǔ)”不僅在中英文的閱讀理解方面表現(xiàn)突出,并且在數(shù)學(xué)推理、編程能力等評(píng)測(cè)中也取得了較好的成績(jī)。

圖片

在知識(shí)問(wèn)答方面,“書(shū)生?浦語(yǔ)”在 TriviaQA 和 NaturalQuestions 兩項(xiàng)評(píng)測(cè)上得分為 69.8 和 27.6,均超越 LLaMA-65B(得分為 68.2 和 23.8)。

在閱讀理解(英語(yǔ))方面,“書(shū)生?浦語(yǔ)”明顯領(lǐng)先于 LLaMA-65B 和 ChatGPT。浦語(yǔ)在初中和高中英語(yǔ)閱讀理解中得分為 92.7 和 88.9,? ChatGPT 得分為 85.6 和 81.2,LLaMA-65B 則更低。

在中文理解方面,“書(shū)生?浦語(yǔ)”的成績(jī)?nèi)娉街饕膬蓚€(gè)中文語(yǔ)言模型 ERNIE-260B 和 GLM-130B。

在多語(yǔ)翻譯方面,“書(shū)生?浦語(yǔ)”在多語(yǔ)種互譯中的平均得分為 33.9,顯著超越 LLaMA(平均得分 15.1)。

在數(shù)學(xué)推理方面,“書(shū)生?浦語(yǔ)”在 GSM8K 和 MATH 這兩項(xiàng)被廣泛用于評(píng)測(cè)的數(shù)學(xué)考試中,分別取得 62.9 和 14.9 的得分,明顯領(lǐng)先于 Google 的 PaLM-540B(得分為 56.5 和 8.8)與 LLaMA-65B(得分為 50.9 和 10.9)。

在編程能力方面,“書(shū)生?浦語(yǔ)”在 HumanEval 和 MBPP 這兩項(xiàng)最具代表性的考評(píng)中,分別取得 28.1 和 41.4 的得分(其中經(jīng)過(guò)在代碼領(lǐng)域的微調(diào)后,在 HumanEval 上的得分可以提升至 45.7),明顯領(lǐng)先于 PaLM-540B(得分為 26.2 和 36.8)與 LLaMA-65B(得分為 23.7 和 37.7)。

此外,研究人員還對(duì)“書(shū)生?浦語(yǔ)”的安全性進(jìn)行評(píng)測(cè),在 TruthfulQA(主要評(píng)價(jià)回答的事實(shí)準(zhǔn)確性)以及 CrowS-Pairs(主要評(píng)價(jià)回答是否含有偏見(jiàn))上,“書(shū)生?浦語(yǔ)”均達(dá)到領(lǐng)先水平。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,人工智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知