阿里云通義千問系列 AI 開源模型升至 Qwen2：5 個(gè)尺寸、上下文長度最高支持 128K tokens

2024/6/7 7:42:41 來源：IT之家作者：故淵責(zé)編：故淵

評論：

感謝IT之家網(wǎng)友 killgfat 的線索投遞！

IT之家 6 月 7 日消息，通義千問（Qwen）今天宣布經(jīng)過數(shù)月的努力，Qwen 系列模型從 Qwen1.5 到 Qwen2 的重大升級，并已在 Hugging Face 和 ModelScope 上同步開源。

IT之家附上 Qwen 2.0 主要內(nèi)容如下：

5 個(gè)尺寸的預(yù)訓(xùn)練和指令微調(diào)模型，包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B
在中文英語的基礎(chǔ)上，訓(xùn)練數(shù)據(jù)中增加了 27 種語言相關(guān)的高質(zhì)量數(shù)據(jù)；
多個(gè)評測基準(zhǔn)上的領(lǐng)先表現(xiàn)；
代碼和數(shù)學(xué)能力顯著提升；
增大了上下文長度支持，最高達(dá)到 128K tokens（Qwen2-72B-Instruct）。

模型基礎(chǔ)信息

Qwen2 系列包含 5 個(gè)尺寸的預(yù)訓(xùn)練和指令微調(diào)模型，其中包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。

模型	Qwen2-0.5B	Qwen2-1.5B	Qwen2-7B	Qwen2-57B-A14B	Qwen2-72B
參數(shù)量	0.49B	1.54B	7.07B	57.41B	72.71B
非 Embedding 參數(shù)量	0.35B	1.31B	5.98B	56.32B	70.21B
GQA	True	True	True	True	True
Tie Embedding	True	True	False	False	False
上下文長度	32K	32K	128K	64K	128K

在 Qwen1.5 系列中，只有 32B 和 110B 的模型使用了 GQA。這一次，所有尺寸的模型都使用了 GQA，以便讓大家體驗(yàn)到 GQA 帶來的推理加速和顯存占用降低的優(yōu)勢。

模型評測

相比 Qwen1.5，Qwen2 在大規(guī)模模型實(shí)現(xiàn)了非常大幅度的效果提升。我們對 Qwen2-72B 進(jìn)行了全方位的評測。

在針對預(yù)訓(xùn)練語言模型的評估中，對比當(dāng)前最優(yōu)的開源模型，Qwen2-72B 在包括自然語言理解、知識(shí)、代碼、數(shù)學(xué)及多語言等多項(xiàng)能力上均顯著超越當(dāng)前領(lǐng)先的模型，如 Llama-3-70B 以及 Qwen1.5 最大的模型 Qwen1.5-110B。

阿里云通義千問系列 AI 開源模型升至 Qwen2：5 個(gè)尺寸、上下文長度最高支持 128K tokens

IT之家附上參考地址

你好，Qwen2

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

阿里云通義千問系列 AI 開源模型升至 Qwen2：5 個(gè)尺寸、上下文長度最高支持 128K tokens

模型基礎(chǔ)信息

模型評測

相關(guān)文章