麻省理工學(xué)院稱第三方 Twitter 機(jī)器人檢測工具“不準(zhǔn)確”：數(shù)據(jù)集過于簡單，泛用性較差

2023/6/26 9:12:39 來源：IT之家作者：江程（實(shí)習(xí)） 責(zé)編：汪淼

評論：

IT之家 6 月 26 日消息，美國麻省理工學(xué)院（MIT）的研究團(tuán)隊近日發(fā)表論文指出，現(xiàn)有的第三方推特（Twitter）機(jī)器人賬戶自動檢測工具并不準(zhǔn)確，因?yàn)槠鋽?shù)據(jù)集過于簡單，缺乏泛用性。

此前有消息稱，機(jī)器人賬戶過多是阻止馬斯克收購?fù)铺氐脑蛑?。推特?dāng)時聲稱其日活躍用戶中有 5% 是機(jī)器人賬戶，但馬斯克表示這個數(shù)字要比 5% 高得多。

推特有自己的機(jī)器人賬戶識別系統(tǒng)，但并未公開。因此，對于普通公眾而言，第三方工具是較為可行的檢測方法。這些第三方工具使用從推特收集的數(shù)據(jù)集和機(jī)器學(xué)習(xí)模型來檢測機(jī)器人的可疑跡象，許多工具和模型已被用于研究社交媒體上的機(jī)器人活動，相關(guān)論文甚至已達(dá)數(shù)千篇。

▲ 用于推特機(jī)器人檢測的公開基準(zhǔn)數(shù)據(jù)集

這些論文中的大多數(shù)基準(zhǔn)數(shù)據(jù)集都是在不同推文中收集的數(shù)據(jù)集合，其中許多都是在特定推文（例如包含特定主題標(biāo)簽的推文）中收集的，每條都由人類手動標(biāo)記為機(jī)器人或人類。然而這種經(jīng)過專門訓(xùn)練的機(jī)器人檢測模型在該專業(yè)領(lǐng)域表現(xiàn)出色，卻并沒有涵蓋全部領(lǐng)域，并且嚴(yán)重依賴于特定數(shù)據(jù)，而不是機(jī)器人和人類之間的根本差異。

當(dāng)這些模型在其他領(lǐng)域的數(shù)據(jù)集上進(jìn)行測試時，它們的準(zhǔn)確性很差，幾乎與隨機(jī)預(yù)測水平相當(dāng)。同時，在許多數(shù)據(jù)集上，即使是相對簡單的模型也與最先進(jìn)的機(jī)器學(xué)習(xí)模型（SOTA）準(zhǔn)確率相當(dāng)。

▲ 簡單模型與 SOTA 模型在基礎(chǔ)數(shù)據(jù)集上的性能比較

換言之，在一個數(shù)據(jù)集上訓(xùn)練的模型不能推廣到其他數(shù)據(jù)集，現(xiàn)有的機(jī)器人檢測數(shù)據(jù)集由于數(shù)據(jù)收集簡單而通用性較低。

最后，研究人員警告說，當(dāng)使用現(xiàn)有的機(jī)器人檢測數(shù)據(jù)集時，用戶應(yīng)該仔細(xì)考慮可能存在哪些類型的偏差。研究人員認(rèn)為，一個根本的解決方案是推特等社交媒體本身就應(yīng)該為研究人員提供豐富、可靠的數(shù)據(jù)以及高質(zhì)量的真實(shí)標(biāo)簽。

IT之家附上論文地址：點(diǎn)此前往

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

麻省理工學(xué)院稱第三方 Twitter 機(jī)器人檢測工具“不準(zhǔn)確”：數(shù)據(jù)集過于簡單，泛用性較差

相關(guān)文章