王小川旗下百川智能發(fā)布 Baichuan-13B AI 大模型，號稱“130 億參數(shù)開源可商用”

2023/7/11 18:01:10 來源：IT之家作者：漾仔（實(shí)習(xí)） 責(zé)編：汪淼

評論：

感謝IT之家網(wǎng)友 HH_KK 的線索投遞！

IT之家 7 月 11 日消息，王小川旗下百川智能今日發(fā)布 Baichuan-13B 大模型，號稱“130 億參數(shù)開源可商用”。

▲ 圖源 Baichuang-13B GitHub 頁面

據(jù)官方介紹，Baichuan-13B 是由百川智能繼 Baichuan-7B 之后開發(fā)的包含 130 億參數(shù)的開源可商用的大規(guī)模語言模型，在中英文 Benchmark 上均取得同尺寸模型中最好的效果。本次發(fā)布包含有預(yù)訓(xùn)練（Baichuan-13B-Base）和對齊（Baichuan-13B-Chat) 兩個(gè)版本。

王小川旗下百川智能發(fā)布 Baichuan-13B AI 大模型，號稱“130 億參數(shù)開源可商用”

▲ 圖源 Baichuang-13B GitHub 頁面

官方宣稱，Baichuan-13B 有如下幾個(gè)特點(diǎn)：

更大尺寸、更多數(shù)據(jù)：Baichuan-13B 在 Baichuan-7B 的基礎(chǔ)上進(jìn)一步擴(kuò)大參數(shù)量到 130 億，并且在高質(zhì)量的語料上訓(xùn)練了 1.4 萬億 tokens，超過 LLaMA-13B40%，是當(dāng)前開源 13B 尺寸下訓(xùn)練數(shù)據(jù)量最多的模型。支持中英雙語，使用 ALiBi 位置編碼，上下文窗口長度為 4096。
同時(shí)開源預(yù)訓(xùn)練和對齊模型：預(yù)訓(xùn)練模型是適用開發(fā)者的『基座』，而廣大普通用戶對有對話功能的對齊模型具有更強(qiáng)的需求。因此項(xiàng)目中同時(shí)具有對齊模型（Baichuan-13B-Chat），具有很強(qiáng)的對話能力，開箱即用，幾行代碼即可簡單地部署。
更高效的推理：為了支持更廣大用戶的使用，項(xiàng)目中同時(shí)開源了 int8 和 int4 的量化版本，相對非量化版本在幾乎沒有效果損失的情況下大大降低了部署的機(jī)器資源門檻，可以部署在如英偉達(dá) RTX3090 這樣的消費(fèi)級顯卡上。
開源免費(fèi)可商用：Baichuan-13B 不僅對學(xué)術(shù)研究完全開放，開發(fā)者也僅需郵件申請并獲得官方商用許可后，即可以免費(fèi)商用。

目前該模型已經(jīng)在 HuggingFace、GitHub、Model Scope 公布，感興趣的 IT之家小伙伴們可以前往了解。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

王小川旗下百川智能發(fā)布 Baichuan-13B AI 大模型，號稱“130 億參數(shù)開源可商用”

相關(guān)文章