原文標題:《ChatGPT「克星」來了!文章作者是人是 AI 幾秒檢出,華人小哥元旦假期搞定,服務(wù)器已擠爆》
你說 ChatGPT,它寫的東西逼真到傻傻分不清?
沒關(guān)系!
現(xiàn)在,它的“克星”來了 ——
一位華人小哥專門搞了這么一個網(wǎng)站,專門鑒別文字到底是出自于 AI 還是人類。
你只需要把相應(yīng)的內(nèi)容粘進去,幾秒內(nèi)就能分析出結(jié)果。
比如這段:
它:“妥妥的人類~”
至于這段:
它:“就知道是 AI?!?/p>
如此神器一出,可謂迅速俘獲大家的芳心。
這不,直接把服務(wù)器都給擠崩嘍(好在還有個備用的)。
這下,那些用 ChatGPT 寫作業(yè)的“熊孩子”也要慘啦?
是人還是 ChatGPT?GPTZero:看我的
這個網(wǎng)站名叫 GPTZero。
它主要靠“perplexity”,即文本的“困惑度”作為指標來判斷所給內(nèi)容到底是誰寫的。
NLP 領(lǐng)域的朋友們都知道,這個指標就是用來評價一個語言模型的好壞的。
在這里,每當你喂給 GPTZero 一段測試內(nèi)容,它就會分別計算出:
1、文字總困惑度
這個值越高,就越可能出自人類之手。
2、所有句子的平均困惑度
句子越長,這個值通常就越低。
3、每個句子的困惑度
通過條形圖的方式呈現(xiàn),鼠標懸浮到各個方塊就可以查看相應(yīng)的句子是什么(這里就兩塊,因為我此時輸入的測試內(nèi)容就倆句子)。
之所以要繪制這樣的條形圖,作者也作出了解釋:
根據(jù)最新的一些研究:人類書寫的一些句子可能具有較低的困惑度(前面說過,人類的困惑度是比較高的),但隨著繼續(xù)寫,困惑度勢必會出現(xiàn)峰值。
相反,用機器生成的文本,其困惑度是均勻分布的,并且總是很低。
除此之外,GPTZero 還會挑出困惑度最高的那個句子(也就是最像人寫的):
規(guī)則就是這些,接下來實際測一測。
測試 1:成功
首先來一段最新的英文新聞(目前還不支持測中文):
將它粘貼進測試框(需注意每句至少 5 個單詞,建議每段能有 10 個句子,結(jié)果會更準一些)。
很快,GPTZero 計算出這段文字的總文字困惑度為 27,句子平均困惑度為 171.2,每條句子的困惑度圖長這樣:
以及困惑度最高的句子的值為 476。
看這個結(jié)果,估計你也猜出了 GPTZero 的答案:
是人類寫的。
答對了。
測試 2:失敗
來一段 ChatGPT 的。
將內(nèi)容粘貼進測試框,得出這段文字的總文字困惑度為 31,句子平均困惑度為 76.67,每條句子的困惑度圖長這樣:
以及困惑度最高的句子的值為 99。
看起來,每項困惑度值都和上面那段差距都挺大的,應(yīng)該能猜出來是 AI 寫的吧。
不過遺憾的是,GPTZero 無法給出答案,還希望我們再多加一點文字試試。
顯然,這段話字數(shù)夠多,但句子不夠多,無法讓 GPTZero 一眼識破 ChatGPT 的“偽裝”。
測試 3:成功
那我們再來一段 ChatGPT 的試試。
這回內(nèi)容夠長,句子也夠多。
果然沒問題了,GPTZero 直接答對:
好像確實摸出來一點門道:
那就是字多的同時,句子數(shù)量也一定要多,至少 5 句,好讓 GPTZero 通過直方圖的分布加碼識別,最后的準確率就可以提高一些。
另外還需要提的是,我們發(fā)現(xiàn)在挑戰(zhàn)失敗的情況中,除了上面這種識別不出來的時候,也有直接識別錯誤的 ——
比如把 AI 寫的判斷成人寫的:
把人寫的新聞判斷成 AI 的:
這種情況按照上面所說的竅門,再多加點內(nèi)容可能就能將結(jié)果扳回來。
(注意是可能哈,就上面這段新聞,我們把所有內(nèi)容都粘進去了,它也說不行,還說要再多來點。)
普林斯頓華人小哥出品
創(chuàng)建該網(wǎng)站的,是一個 22 歲的華人小哥 Edward Tian,來自加拿大多倫多。
目前是美國普林斯頓 CS 專業(yè)大四學生,輔修認知科學和新聞學,對軟件工程、機器學習等有濃厚的興趣。
他現(xiàn)在微軟實習,曾在 BBC、貝靈貓等公司撰寫過科技稿件,還曾加入到地圖工具 Representable 的創(chuàng)始團隊。
學習期間,他曾來到清華大學參加為期四周的城市研究研討會。
據(jù)他表示,這個應(yīng)用程序是新年假期在咖啡店完成的。
之所以想要開發(fā)這款應(yīng)用程序,簡而言之就是因為有太多 ChatGPT 炒作,人類應(yīng)該知道有哪些是 AI 寫的文章。
目前仍處于準系統(tǒng)階段,預(yù)計在接下來幾周內(nèi)改進模型和分析。
除此之外,他還透露,正在測試由學生撰寫的新聞文章數(shù)據(jù)集,并希望最終能發(fā)表論文。
更多 ChatGPT 殺手
事實上,也不只有這位小哥看 ChatGPT 不順眼了。還有其他人類組織也相應(yīng)開發(fā)了 AI 文本檢測器,AKA ChatGPT 殺手。
大體思路也都差不多,那就是“用魔法打敗魔法”,用 AI 寫的東西來訓(xùn)練新 AI。
前陣子,OpenAI 自己聯(lián)合哈佛等高校機構(gòu)聯(lián)合打造了一款檢測器:GPT-2 Output Detector。
作者們先是發(fā)布了一個“GPT-2 生成內(nèi)容”和 WebText(專門從國外貼吧 Reddit 上扒下來的)數(shù)據(jù)集,讓 AI 理解“AI 語言”和“人話”之間的差異。
隨后,用這個數(shù)據(jù)集對 RoBERTa 模型進行微調(diào),就得到了這個 AI 檢測器。其中人話一律被識別為 True,AI 生成的內(nèi)容則一律被識別為 Fake。
(RoBERTa 是 BERT 的改進版。原始的 BERT 使用了 13GB 大小的數(shù)據(jù)集,但 RoBERTa 使用了包含 6300 萬條英文新聞的 160GB 數(shù)據(jù)集。)
另一位早年代表選手,也因為這次新進展再次被提及。
它就是 MIT-IBM 沃森 AI 實驗室的以及哈佛 NLP 實驗室開發(fā)的 GLTR 模型。
它主要通過對文本進行統(tǒng)計分析和可視化,而用來檢測的是最初用來生成文本的相同 or 類似模型。目前主要支持 GPT-2 和 BERT 兩個模型。
由于輸出是模型知道的所有單詞排名,根據(jù)排名對文本每個單詞進行顏色編碼,前 10 名是綠色,前 100 名是黃色,前 1000 名是紅色,紫色則是不太可能出現(xiàn)的詞。
如果一段文本黃綠色過多,那么這段文字主要是由 AI 生成的。
此番 GPTZero 再度亮相,不少網(wǎng)友驚嘆:Incredible work!
但也有人表示,文本檢測器根本就是一場失敗的軍備競賽,他們的實際效果并不好。也阻擋不了 ChatGPT 的發(fā)展。
與此同時,還有網(wǎng)友探討起關(guān)于「文章是否需要明確指示由 AI 還是人類編寫」的必要性。
有位詞曲創(chuàng)作者認為,這是有必要的,就像在看雜志時會標注“廣告”,這應(yīng)該是一個簡單的要求。
但有網(wǎng)友立即表示反對,為什么要設(shè)置障礙?這就跟使用 PS 然后加上 Adobe 水印,對產(chǎn)品沒有任何益處。
對于這個問題,你怎么看呢?
試玩鏈接:
https://etedward-gptzero-main-zqgfwb.streamlit.app/
參考鏈接:
[1]https://brackets.substack.com/about
[2]https://www.reddit.com/r/programming/comments/102hxlg/gptzero_an_app_to_efficiently_tell_if_an_essay_is/
[3]https://twitter.com/Marc__Watkins/status/1601746409203863553
[4]http://gltr.io/
本文來自微信公眾號:量子位 (ID:QbitAI),作者:豐色 楊凈
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。