4 月 7 日消息,上周推特兌現(xiàn)了埃隆?馬斯克 (Elon Musk) 長(zhǎng)期以來(lái)的承諾,在 GitHub 上公布了部分推薦算法底層代碼。然而,研究人員表示,其中的內(nèi)容并不詳盡,推特省略了“算法到底是如何工作的”等重要細(xì)節(jié),使得我們想要弄清推特平臺(tái)內(nèi)部運(yùn)作機(jī)制仍然很困難。
以下是翻譯內(nèi)容:
當(dāng)馬斯克第一次提出要接管推特時(shí),就宣稱他接手后的第一件事就是“開(kāi)源”推特算法。上周,他終于履行了自己的承諾,推特在 GitHub 上發(fā)布了平臺(tái)上有關(guān)“為你推薦”功能的部分底層代碼。
人們很快開(kāi)始對(duì)這些代碼進(jìn)行深挖,沒(méi)過(guò)多久就發(fā)現(xiàn)馬斯克的推文有特殊類別標(biāo)記。推特工程師們急忙站出來(lái)解釋說(shuō),這是為了便于“跟蹤統(tǒng)計(jì)”,其他分析也證實(shí)了這一說(shuō)法。盡管推特幾個(gè)小時(shí)后就從 GitHub 上刪除了這段代碼,但人們?nèi)匀徊聹y(cè)推特工程師們特別優(yōu)待馬斯克所發(fā)內(nèi)容,可能采取了人為措施來(lái)提升他的推文曝光量。
自此之后,推特沒(méi)有發(fā)布更多代碼,也沒(méi)有說(shuō)明其平臺(tái)算法的內(nèi)部運(yùn)作機(jī)制。那些希望通過(guò)推特公開(kāi)代碼來(lái)探究平臺(tái)內(nèi)部運(yùn)作機(jī)制的人可能會(huì)感到失望。研究過(guò)這些算法的工程師們表示,這是因?yàn)橥铺匕l(fā)布的代碼省略了“算法”到底是如何工作的等關(guān)鍵細(xì)節(jié)。
據(jù)紐約大學(xué)研究社交媒體的副教授、前推特員工索爾?梅辛(Sol Messing)稱,推特所公開(kāi)的內(nèi)容對(duì)推特算法進(jìn)行了“大量編輯”,其中首要問(wèn)題就是沒(méi)有涵蓋在推特推薦功能中能發(fā)揮作用的所有系統(tǒng)。
推特表示,它沒(méi)有公開(kāi)用于處理廣告的代碼、信任和安全系統(tǒng),以防止不良行為者利用這些代碼進(jìn)行惡意操作。此外,推特還選擇不公布用于訓(xùn)練算法的底層模型,并在一篇博客文章中解釋稱,這是為了“確保用戶的安全和隱私得到保護(hù)”。梅辛認(rèn)為,這個(gè)決定甚至更為重要?!八惴ǖ淖铌P(guān)鍵部分 —— 驅(qū)動(dòng)模型仍沒(méi)有開(kāi)源,”他說(shuō),“因此,算法最為核心的部分仍然讓人費(fèi)解?!?/p>
馬斯克最初開(kāi)源推特算法的動(dòng)機(jī)似乎源于他對(duì)推特利用算法壓制言論自由的擔(dān)憂。他在去年四月份的 TED 演講中說(shuō):“我認(rèn)為推特應(yīng)該開(kāi)源算法,公開(kāi)對(duì)推文內(nèi)容的任何更改 —— 無(wú)論是推薦還是不推薦 —— 都應(yīng)該明明白白地呈現(xiàn)出來(lái)。這樣,任何人都可以看到推特采取了哪些措施,就不會(huì)有任何算法或人工的幕后操作。”這一演講是馬斯克確認(rèn)收購(gòu)?fù)铺睾蟛痪米龅摹?/p>
在推特發(fā)布的代碼中,沒(méi)有提供足夠的信息來(lái)告訴人們這個(gè)平臺(tái)是否存在潛在的偏見(jiàn),也沒(méi)有提供內(nèi)容來(lái)說(shuō)明是否存在馬斯克想要公開(kāi)的那種“幕后操縱”手段。梅辛說(shuō):“這只是透明度的做法?!薄暗沁@些內(nèi)容并沒(méi)有真正幫助人們深入了解算法的運(yùn)作,也沒(méi)有讓人真正深入了解為什么有些人的推文排名會(huì)下降,而其他人的排名會(huì)上升?!?/p>
此外,梅辛還指出,推特最近在調(diào)整其應(yīng)用程序編程接口(API)方面的政策,這基本上切斷了絕大多數(shù)研究人員訪問(wèn)大量推特平臺(tái)數(shù)據(jù)的途徑。沒(méi)有合適的 API 訪問(wèn)權(quán)限,研究人員根本無(wú)法自行研究推特算法的新細(xì)節(jié)。梅辛在自己的分析中寫道:“在推特公布這些代碼的同時(shí),這種做法使得研究人員更難深入分析代碼內(nèi)容?!?/p>
去年,在馬斯克首次討論“開(kāi)源”推特算法的計(jì)劃后不久,分布式人工智能研究所 (DAIR) 研究總監(jiān)亞歷克斯?漢納 (Alex Hanna) 也提到了研究人員審查代碼的重要性。和梅辛一樣,她也認(rèn)為僅在 GitHub 上發(fā)布代碼并不足以提高推特運(yùn)作方式的透明度。
漢納說(shuō):“如果你真的對(duì)公眾監(jiān)督推特算法等事情感興趣,那就必須采取多種方法?!?/p>
不過(guò),推特在 GitHub 上公開(kāi)的部分代碼確實(shí)揭示了推特算法的一些內(nèi)容。梅辛透露,數(shù)據(jù)科學(xué)家杰夫?艾倫 (Jeff Allen) 從中挖掘出一份文件,其中的內(nèi)容揭示推特如何使用“公式”為不同類型的用戶參與賦予優(yōu)先級(jí)。梅辛寫道:“如果我們從字面上理解,就會(huì)發(fā)現(xiàn)推特上的 1 個(gè)贊相當(dāng)于半個(gè)推文轉(zhuǎn)發(fā)?!薄?span id="vv96tg1" class="accentTextColor">一條回復(fù)相當(dāng)于 27 次轉(zhuǎn)發(fā),而 1 條回復(fù)再加上推文作者的回應(yīng)就相當(dāng)于 75 次轉(zhuǎn)發(fā)?!?/p>
雖然這在一定程度上揭示了一些信息,但有關(guān)推特平臺(tái)的運(yùn)作方式的描述并不完整。梅辛說(shuō):“沒(méi)有實(shí)際數(shù)據(jù)的話,這種分析沒(méi)有多少意義?!薄叭缃耨R斯克讓學(xué)者獲取數(shù)據(jù)的成本高得離譜。如果他們現(xiàn)在真的想研究這個(gè)問(wèn)題,基本上每年需要花費(fèi) 50 萬(wàn)美元(當(dāng)前約 344 萬(wàn)元人民幣)的巨資才能獲得大量有意義的數(shù)據(jù)?!?/p>
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。