蘋果發(fā)布 OpenELM，基于開源訓練和推理框架的高效語言模型

2024/4/24 22:30:54 來源：IT之家作者：問舟責編：問舟

評論：

IT之家 4 月 24 日消息，在 WWDC24 之前，蘋果在 Hugging Face 平臺上發(fā)布了一個“具有開源訓練和推理框架的高效語言模型”，名為 OpenELM。

當然，這是一項開源語言模型，其源碼及預訓練的模型權(quán)重和訓練配方可在蘋果 Github 庫中獲取。

蘋果發(fā)布 OpenELM，基于開源訓練和推理框架的高效語言模型

IT之家將官方簡介翻譯如下：

大型語言模型的可重復性和透明性對于推進開放研究、確保結(jié)果的可信度以及調(diào)查數(shù)據(jù)和模型偏差以及潛在風險至關重要。為此，我們發(fā)布了 OpenELM，一個最先進的開源語言模型。
OpenELM 使用分層縮放策略，可以有效地分配 Transformer 模型每一層的參數(shù)，從而提高準確率。例如，在參數(shù)量約為 10 億的情況下，OpenELM 與 OLMo 相比準確率提升了 2.36%，同時所需的預訓練 tokens 數(shù)量僅有原來的 50%。
與以往只提供模型權(quán)重和推理代碼并在私有數(shù)據(jù)集上進行預訓練的做法不同，我們發(fā)布的版本包含了在公開數(shù)據(jù)集上訓練和評估語言模型的完整框架，包括訓練日志、多個檢查點和預訓練配置。
我們還發(fā)布了將模型轉(zhuǎn)換為 MLX 庫的代碼，以便在蘋果設備上進行推理和微調(diào)。此次全面發(fā)布旨在增強和鞏固開放研究社區(qū)，為未來的開放研究工作鋪平道路。

參考資料：

《[2404.14619] OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework》

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：蘋果，開源大模型

蘋果發(fā)布 OpenELM，基于開源訓練和推理框架的高效語言模型

相關文章

蘋果發(fā)布 OpenELM，基于開源訓練和推理框架的高效語言模型