設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色
苹果 iOS 19 设计图泄露    宇树科技回应已盈利至少 5 年:属实

谷歌 DeepMind 發(fā)布 WebLI-100B:千億級(jí)數(shù)據(jù)集解鎖 AI 視覺(jué)語(yǔ)言模型的文化多樣性

2025/2/14 14:48:02 來(lái)源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 2 月 14 日消息,科技媒體 marktechpost 昨日(2 月 13 日)發(fā)布博文,報(bào)道稱谷歌 DeepMind 團(tuán)隊(duì)發(fā)布了 WebLI-100B 千億級(jí)數(shù)據(jù)集,并通過(guò)增強(qiáng)文化多樣性和多語(yǔ)言性,以及減少子組之間的性能差異來(lái)提高包容性。

目前挑戰(zhàn)

IT之家注:機(jī)器通過(guò)學(xué)習(xí)大型數(shù)據(jù)集來(lái)連接圖像和文本,數(shù)據(jù)越多,模型識(shí)別模式和提高準(zhǔn)確性的能力就越強(qiáng)。視覺(jué)語(yǔ)言模型 (VLMs) 依賴這些數(shù)據(jù)集執(zhí)行圖像字幕和視覺(jué)問(wèn)答等任務(wù)。

視覺(jué)語(yǔ)言模型目前依賴于 Conceptual Captions 和 LAION 等大型數(shù)據(jù)集,包含數(shù)百萬(wàn)到數(shù)十億的圖像-文本對(duì)。這些數(shù)據(jù)集支持零樣本分類(lèi)和圖像字幕生成,但其發(fā)展已放緩至約 100 億對(duì)。

這種限制降低了進(jìn)一步提高模型精度、包容性和多語(yǔ)言理解的前景,現(xiàn)有方法基于網(wǎng)絡(luò)爬取的數(shù)據(jù),存在樣本質(zhì)量低、語(yǔ)言偏差和多元文化代表性不足等問(wèn)題。

WebLI-100B 千億級(jí)數(shù)據(jù)集

Google DeepMind 的研究人員為了緩解視覺(jué)語(yǔ)言模型在文化多樣性和多語(yǔ)言性方面的局限性,提出了 WebLI-100B 數(shù)據(jù)集,該數(shù)據(jù)集包含 1000 億個(gè)圖像-文本對(duì),比之前的數(shù)據(jù)集大十倍。

該數(shù)據(jù)集捕獲了罕見(jiàn)的文化概念,并提高了模型在低資源語(yǔ)言和多樣化表示等較少探索領(lǐng)域的性能。與先前的數(shù)據(jù)集不同,WebLI-100B 不是依賴嚴(yán)格的過(guò)濾(通常會(huì)刪除重要的文化細(xì)節(jié)),而是專注于擴(kuò)展數(shù)據(jù)。

該框架涉及在 WebLI-100B 數(shù)據(jù)集的不同子集(1B、10B 和 100B)上預(yù)訓(xùn)練模型,以分析數(shù)據(jù)縮放的影響。

在完整數(shù)據(jù)集上訓(xùn)練的模型在文化和多語(yǔ)言任務(wù)中的表現(xiàn)優(yōu)于在較小數(shù)據(jù)集上訓(xùn)練的模型,即使使用相同的計(jì)算資源。該數(shù)據(jù)集沒(méi)有進(jìn)行激進(jìn)的過(guò)濾,而是保留了語(yǔ)言和文化元素的廣泛代表性,使其更具包容性。

研究結(jié)果表明,將數(shù)據(jù)集大小從 10B 增加到 100B 對(duì)以西方為中心的基準(zhǔn)測(cè)試的影響很小,但在文化多樣性任務(wù)和低資源語(yǔ)言檢索方面帶來(lái)了改進(jìn)。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,DeepMind,谷歌
  • 日榜
  • 周榜
  • 月榜

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知