設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

MiniMax 稀宇科技發(fā)布萬億參數(shù) MoE 模型 abab 6.5,核心能力接近 GPT-4

2024/4/17 14:50:25 來源:IT之家 作者:泓澄(實習) 責編:泓澄

IT之家 4 月 17 日消息,國內(nèi) AI 初創(chuàng)企業(yè) MiniMax 稀宇科技今日正式推出 MoE 混合專家模型架構(gòu)的 abab 6.5 系列模型,核心能力開始接近 GPT-4、 Claude-3、 Gemini-1.5。

abab 6.5 系列包含兩個模型:

  • abab 6.5:包含萬億參數(shù),支持 200k tokens 的上下文長度;

  • abab 6.5s:與 abab 6.5 使用了同樣的訓練技術(shù)和數(shù)據(jù),但是更高效,支持 200k tokens 的上下文長度,可以 1 秒內(nèi)處理近 3 萬字的文本。

自一月發(fā)布國內(nèi)首個基于 MoE 架構(gòu)的 abab 6 模型后,MiniMax 通過改進模型架構(gòu),重構(gòu)數(shù)據(jù) pipeline,訓練算法及并行訓練策略優(yōu)化等,在加速 Scaling Laws 過程上取得階段性成果。

IT之家附 abab 6.5 系列模型測試結(jié)果如下:

abab 6.5 系列模型測試結(jié)果

官方在 200k token 內(nèi)進行了業(yè)界常用的“大海撈針”測試,即在很長的文本中放入一個和該文本無關(guān)的句子(針),然后通過自然語言提問模型,看模型是否準確將這個針回答出來。在 891 次測試中,abab 6.5 均能正確回答。

海螺 AI 頁面

▲ 海螺 AI 頁面

abab 6.5 與 abab 6.5s 模型將滾動更新至 MiniMax 旗下產(chǎn)品,包括海螺 AI 與 MiniMax 開放平臺。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知