設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Meta 部署新網(wǎng)絡(luò)爬蟲機(jī)器人,為其 AI 模型收集大量數(shù)據(jù)

2024/8/21 13:10:05 來源:鳳凰科技 作者:余青 責(zé)編:遠(yuǎn)洋

北京時(shí)間 8 月 21 日,近日,Meta 悄悄地發(fā)布了一款新的網(wǎng)絡(luò)爬蟲,用于搜索互聯(lián)網(wǎng)并收集大量數(shù)據(jù),為其人工智能模型提供支持。

據(jù)三家追蹤網(wǎng)絡(luò)抓取器的公司稱,Meta 新網(wǎng)絡(luò)爬蟲機(jī)器人 Meta External Agent 于上月推出,類似于 OpenAI 的 GPTBot,可以抓取網(wǎng)絡(luò)上的人工智能訓(xùn)練數(shù)據(jù),例如新聞文章中的文本或在線討論組中的對(duì)話。

根據(jù)使用檔案歷史記錄顯示,Meta 確實(shí)在 7 月底更新了一個(gè)面向開發(fā)者的公司網(wǎng)站,其中一個(gè)標(biāo)簽顯示了新爬蟲的存在,但 Meta 至今還沒有公開宣布其新爬蟲機(jī)器人。

Meta 的 Llama 是最大的 llm 之一,雖然該公司沒有透露最新版本的模型 Llama 3 使用的訓(xùn)練數(shù)據(jù),但其初始版本的模型使用了由 Common Crawl 等其他來源收集的大型數(shù)據(jù)集。

今年早些時(shí)候,Meta 的聯(lián)合創(chuàng)始人、首席執(zhí)行官馬克?扎克伯格 (Mark Zuckerberg) 在一次財(cái)報(bào)電話會(huì)議上曾吹噓說,公司的社交平臺(tái)已經(jīng)積累了一套用于人工智能訓(xùn)練的數(shù)據(jù)集,甚至“超過了 Common Crawl”。

新爬蟲的存在表明 Meta 龐大的數(shù)據(jù)庫可能已經(jīng)不夠用了,因?yàn)樵摴纠^續(xù)致力于更新 Llama 和擴(kuò)展 Meta AI,通常需要新的和高質(zhì)量的培訓(xùn)數(shù)據(jù)來不斷改進(jìn)功能。

來自 Dark Visitors 的數(shù)據(jù)顯示,全球近 25% 的最受歡迎的網(wǎng)站現(xiàn)在已屏蔽了 GPTBot,但只有 2% 的網(wǎng)站屏蔽了 Meta 的新爬蟲機(jī)器人。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Meta,人工智能,網(wǎng)絡(luò)爬蟲

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知