IT之家 3 月 16 日消息,蘋果公司旗下研究團(tuán)隊近日在 ArXiv 中公布了一篇名為《MM1:Methods, Analysis & Insights from Multimodal LLM Pre-training》的論文,其中介紹了一款 “MM1”多模態(tài)大模型,該模型提供 30 億、70 億、300 億三種參數(shù)規(guī)模,擁有圖像識別和自然語言推理能力。
IT之家注意到,蘋果研究團(tuán)隊相關(guān)論文主要是利用 MM1 模型做實驗,通過控制各種變量,找出影響模型效果的關(guān)鍵因素。
研究表明,圖像分辨率和圖像標(biāo)記數(shù)量對模型性能影響較大,視覺語言連接器對模型的影響較小,不同類型的預(yù)訓(xùn)練數(shù)據(jù)對模型的性能有不同的影響。
據(jù)介紹,研究團(tuán)隊首先在模型架構(gòu)決策和預(yù)訓(xùn)練數(shù)據(jù)上進(jìn)行小規(guī)模消融實驗。之后利用混合專家(Mixture of Experts)架構(gòu)及一種名為 Top-2 Gating 的方法構(gòu)建了 MM1 模型,號稱不僅在預(yù)訓(xùn)練指標(biāo)中實現(xiàn)了最好的性能表現(xiàn),在一系列已有多模態(tài)基準(zhǔn)上監(jiān)督微調(diào)后也能保持有競爭力的性能。
研究人員對“MM1”模型進(jìn)行了測試,號稱 MM1-3B-Chat 和 MM1-7B-Chat 優(yōu)于市面上絕大多數(shù)相同規(guī)模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench、MMMU 和 MathVista 中表現(xiàn)尤為突出,但是整體表現(xiàn)不如谷歌的 Gemini 和 OpenAI 的 GPT-4V。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。