IT之家 7 月 20 日消息,如今小語言模型開始升溫,許多廠商開始推出適用于手機等輕量級設(shè)備的“小模型”,本周 Hugging Face 便公布了“SmolLM”小語言模型家族,其中包含 1.35 億、3.6 億及 17 億參數(shù)模型,IT之家附項目如下(點此訪問)。
據(jù)介紹,這些模型號稱是以精心策劃的高質(zhì)量訓(xùn)練數(shù)據(jù)集訓(xùn)練而成,號稱在 Python 程序編寫性能上相當強大,團隊指出他們重點優(yōu)化了模型所需的 RAM 用量,“即使是在 6GB RAM 的 iPhone 15 上也能運行”。
在訓(xùn)練方面,Hugging Face 團隊首先建立了一款名為 SmolLM-Corpus 的數(shù)據(jù)集(數(shù)據(jù)集地址點此訪問),該數(shù)據(jù)集主要包含 Python 教學(xué)內(nèi)容 Python-Edu、Web 教育內(nèi)容 FineWeb-Edu 以及使用 Mixtral-8x7B-Instruct-v0.1 和 Cosmopedia v2 兩款模型生成的常識內(nèi)容,token 量總計 6000 億。此后 Hugging Face 團隊便使用 SmolLM-Corpus 數(shù)據(jù)集訓(xùn)練了“SmolLM”小語言模型。
Hugging Face 團隊將開發(fā)出的 SmolLM 模型與相同參數(shù)量的其他模型進行了基準測試,其中 SmolLM-135M 在多項測試中超越了小于 2 億參數(shù)的其他模型;而 SmolLM-360M 的測試成績優(yōu)于所有小于 5 億參數(shù)以下的模型,不過某些項目遜于 Meta 剛剛公布的 MobileLLM-350M;SmolLM-1.7B 模型則超越了所有參數(shù)量小于 20 億參數(shù)的模型,包括微軟 Phi-1.5、MobileLLM-1.5B 及 Qwen2。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。