原文標(biāo)題:《AI,正在瘋狂污染中文互聯(lián)網(wǎng)》
污染中文互聯(lián)網(wǎng),AI 成了“罪魁禍?zhǔn)住敝弧?/p>
事情是這樣的。
最近大家不是都熱衷于向 AI 咨詢嘛,有位網(wǎng)友就問了 Bing 這么一個問題:
象鼻山是否有纜車?
Bing 也是有問必答,給出了看似挺靠譜的答案:
在給出肯定的答復(fù)之后,Bing 還貼心地附帶上了票價、營業(yè)時間等細(xì)節(jié)信息。
不過這位網(wǎng)友并沒有直接采納答案,而是順藤摸瓜點開了下方的“參考鏈接”。
此時網(wǎng)友察覺到了一絲絲的不對勁 —— 這人的回答怎么“機(jī)里機(jī)氣”的。
于是他點開了這位叫“百變?nèi)松钡挠脩糁黜摚腿话l(fā)覺,介是個 AI 啊!
因為這位用戶回答問題速度可以說是極快,差不多每 1、2 分鐘就能搞定一個問題。
甚至能在 1 分鐘之內(nèi)回答 2 個問題。
在這位網(wǎng)友更為細(xì)心的觀察之下,發(fā)現(xiàn)這些回答的內(nèi)容都是沒經(jīng)過核實的那種……
并且他認(rèn)為,這就是導(dǎo)致 Bing 輸出錯誤答案的原因:
這個 AI 瘋狂地污染中文互聯(lián)網(wǎng)。
“AI 污染源”,不止這一個
那么被網(wǎng)友發(fā)現(xiàn)的這位 AI 用戶,現(xiàn)在怎么樣了?
從目前結(jié)果來看,他已經(jīng)被被知乎“判處”為禁言狀態(tài)。
但盡管如此,也有其他網(wǎng)友直言不諱地表示:
不止一個。
若是點開知乎的“等你回答”這個欄目,隨機(jī)找一個問題,往下拉一拉,確實是能碰到不少“機(jī)言機(jī)語”的回答。
例如我們在“AI 在生活中的應(yīng)用場景有哪些?”的回答中便找到了一個:
不僅是回答的語言“機(jī)言機(jī)語”,甚至回答直接打上了“包含 AI 輔助創(chuàng)作”的標(biāo)簽。
然后如果我們把問題丟給 ChatGPT,那么得到回答…… 嗯,挺換湯不換藥的。
事實上,諸如此類的“AI 污染源”不止是在這一個平臺上有。
就連簡單的科普配圖這事上,AI 也是屢屢犯錯。
網(wǎng)友們看完這事也是蚌埠住了:“好家伙,沒有一個配圖是河蚌”。
甚至各類 AI 生成的假新聞也是屢見不鮮。
例如前一段時間,便有一則聳人聽聞的消息在網(wǎng)上瘋傳,標(biāo)題是《鄭州雞排店驚現(xiàn)血案,男子用磚頭砸死女子!》。
但事實上,這則新聞是江西男子陳某為吸粉引流,利用 ChatGPT 生成的。
無獨有偶,廣東深圳的洪某弟也是通過 AI 技術(shù),發(fā)布過《今晨,甘肅一火車撞上修路工人,致 9 人死亡》假新聞。
具體而言,他在全網(wǎng)搜索近幾年的社會熱點新聞,并使用 AI 軟件對新聞時間、地點等進(jìn)行修改編輯后,在某些平臺賺取關(guān)注和流量進(jìn)行非法牟利。
警方均已對他們采取了刑事強(qiáng)制措施。
但其實這種“AI 污染源”的現(xiàn)象不僅僅是在國內(nèi)存在,在國外亦是如此。
程序員問答社區(qū) Stack Overflow 便是一個例子。
早在去年年底 ChatGPT 剛火起來的時候,Stack Overflow 便突然宣布“臨時禁用”。
當(dāng)時官方給出來的理由是這樣的:
(這樣做)的目的是減緩使用 ChatGPT 創(chuàng)建的大量答案流入社區(qū)。
因為從 ChatGPT 得到錯誤答案的概率太高了!
Stack Overflow 進(jìn)一步闡述了這種現(xiàn)象。
他們認(rèn)為以前用戶回答的問題,都是會有專業(yè)知識背景的其他用戶瀏覽,并給出正確與否,相當(dāng)于是核實過。
但自打 ChatGPT 出現(xiàn)之后,涌現(xiàn)了大量讓人覺得“很對”的答案;而有專業(yè)知識背景的用戶數(shù)量是有限,沒法把這些生成的答案都看個遍。
加之 ChatGPT 回答這些個專業(yè)性問題,它的錯誤率是實實在在擺在那里的;因此 Stack Overflow 才選擇了禁用。
一言蔽之,AI 污染了社區(qū)環(huán)境。
而且像在美版貼吧 Reddit 上,也是充斥著較多的 ChatGPT 板塊、話題:
許多用戶在這種欄目之下會提出各式各樣的問題,ChatGPT bot 也是有問必答。
不過,還是老問題,答案的準(zhǔn)確性如何,就不得而知了。
但這種現(xiàn)象背后,其實還隱藏著更大的隱患。
濫用 AI,也毀了 AI
AI 模型獲得大量互聯(lián)網(wǎng)數(shù)據(jù),卻無法很好地辨別信息的真實性和可信度。
結(jié)果就是,我們不得不面對一大堆快速生成的低質(zhì)量內(nèi)容,讓人眼花繚亂,頭暈?zāi)垦!?/p>
很難想象 ChatGPT 這些大模型如果用這種數(shù)據(jù)訓(xùn)練,結(jié)果會是啥樣……
而如此濫用 AI,反過來也是一種自噬。
最近,英國和加拿大的研究人員在 arXiv 上發(fā)表了一篇題目為《The Curse of Recursion: Training on Generated Data Makes Models Forget》的論文。
探討了現(xiàn)在 AI 生成內(nèi)容污染互聯(lián)網(wǎng)的現(xiàn)狀,然后公布了一項令人擔(dān)憂的發(fā)現(xiàn),使用模型生成的內(nèi)容訓(xùn)練其他模型,會導(dǎo)致結(jié)果模型出現(xiàn)不可逆的缺陷。
這種 AI 生成數(shù)據(jù)的“污染”會導(dǎo)致模型對現(xiàn)實的認(rèn)知產(chǎn)生扭曲,未來通過抓取互聯(lián)網(wǎng)數(shù)據(jù)來訓(xùn)練模型會變得更加困難。
論文作者,劍橋大學(xué)和愛丁堡大學(xué)安全工程教授 Ross Anderson 毫不避諱的直言:
正如我們用塑料垃圾布滿了海洋,用二氧化碳填滿了大氣層,我們即將用廢話填滿互聯(lián)網(wǎng)。
對于虛假信息滿天飛的情況,Google Brain 的高級研究科學(xué)家達(dá)芙妮?伊波利托 (Daphne Ippolito) 表示:想在未來找到高質(zhì)量且未被 AI 訓(xùn)練的數(shù)據(jù),將難上加難。
假如滿屏都是這種無營養(yǎng)的劣質(zhì)信息,如此循環(huán)往復(fù),那以后 AI 就沒有數(shù)據(jù)訓(xùn)練,輸出的結(jié)果還有啥意義呢。
基于這種狀況,大膽設(shè)想一下。一個成長于垃圾、虛假數(shù)據(jù)環(huán)境中的 AI,在進(jìn)化成人前,可能就先被擬合成一個“智障機(jī)器人”、一個心理扭曲的心理智障。
就像 1996 年的科幻喜劇電影《丈夫一籮筐》,影片講述了一個普通人克隆自己,然后又克隆克隆人,每一次克隆都導(dǎo)致克隆人的智力水平呈指數(shù)下降,愚蠢程度增加。
那個時候,我們可能將不得不面臨一個荒謬?yán)Ь常喝祟悇?chuàng)造了具有驚人能力的 AI,而它卻塞滿了無聊愚蠢的信息。
如果 AI 被喂進(jìn)的只是虛假的垃圾數(shù)據(jù),我們又能期待它們創(chuàng)造出什么樣的內(nèi)容呢?
假如時間到那個時候,我們大概都會懷念過去,向那些真正的人類智慧致敬吧。
話雖如此,但也不全壞消息。比如部分內(nèi)容平臺已開始關(guān)注 AI 生成低劣內(nèi)容的問題,并推出相關(guān)規(guī)定加以限制。
一些個 AI 公司也開始搞能鑒別 AI 生成內(nèi)容的技術(shù),以減少 AI 虛假、垃圾信息的爆炸。
參考鏈接:
[1]https://www.v2ex.com/t/948487
[2]https://twitter.com/oran_ge/status/1669160826186633219
[3]https://www.qbitai.com/2022/12/40167.html
[4]https://arxiv.org/abs/2305.17493v2
[5]https://albertoromgar.medium.com/generative-ai-could-pollute-the-internet-to-death-fb84befac250
[6]https://futurism.com/ai-generates-fake-news
本文來自微信公眾號:量子位 (ID:QbitAI),作者:金磊 尚恩
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。