可識別 AI 生成的科學(xué)文本的新型檢測工具問世，號稱準(zhǔn)確率超 99% 但遭質(zhì)疑

2023/6/8 12:04:12 來源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評論：

IT之家 6 月 8 日消息，今年早些時候美國田納西州健康科學(xué)中心的放射學(xué)家 Som Biswas 引起關(guān)注，因?yàn)樗凇斗派鋵W(xué)》雜志上發(fā)表了一篇由人工智能聊天機(jī)器人 ChatGPT 協(xié)助寫作的文章，題為《ChatGPT 與醫(yī)學(xué)寫作的未來》。他表示，他使用并編輯了 ChatGPT 生成的文本，目的是提高人們對該技術(shù)的實(shí)用性的認(rèn)識。他還透露，之后他又在四個月內(nèi)利用 ChatGPT 發(fā)表了 16 篇期刊文章。有些期刊編輯也反映，他們收到了大量使用 ChatGPT 寫作的文章。

為了應(yīng)對這種情況，堪薩斯大學(xué)的化學(xué)教授 Heather Desaire 和她的團(tuán)隊(duì)開發(fā)了一種新的 AI 檢測工具，可以高效準(zhǔn)確地區(qū)分科學(xué)文本是由人類還是 ChatGPT 生成的，他們的研究結(jié)果發(fā)表在《細(xì)胞報(bào)告物理科學(xué)》雜志上。

Desaire 教授說，她和她的團(tuán)隊(duì)首先分析了 64 篇《科學(xué)》雜志上的“觀點(diǎn)”文章，這些文章是對當(dāng)前研究進(jìn)行評論和評價的綜述性文章。然后，他們又分析了 128 篇由 ChatGPT 生成的關(guān)于同樣研究主題的文章。通過比較兩者，他們找出了 20 個特征，可以幫助判斷科學(xué)文本的作者身份。

他們發(fā)現(xiàn)，人類科學(xué)家和 ChatGPT 在段落復(fù)雜度、句子長度、標(biāo)點(diǎn)符號和詞匯使用等方面有明顯不同。例如，人類科學(xué)家更傾向于使用括號、破折號、問號、分號和大寫字母，而 ChatGPT 則不常用。人類科學(xué)家也更喜歡使用“模棱兩可的語言”，如“然而”、“盡管”、“但是”等。此外，人類科學(xué)家寫作時既有很短的句子，也有很長的句子，而 ChatGPT 則比較平均。

基于這 20 個特征，他們使用了一種現(xiàn)成的機(jī)器學(xué)習(xí)算法 XGBoost 來訓(xùn)練他們的 AI 檢測工具，他們測試了他們的 AI 檢測工具在 180 篇文章上的表現(xiàn)，發(fā)現(xiàn)其非常擅長判斷一篇科學(xué)文章是由人類還是 ChatGPT 寫作的?！?span id="wrwdw7o" class="accentTextColor">這種方法有超過 99% 的準(zhǔn)確率”，Desaire 教授說，并補(bǔ)充說這比現(xiàn)有的工具要好得多，因?yàn)楝F(xiàn)有的工具是在更廣泛的文本類型上進(jìn)行訓(xùn)練的，而不是專門針對科學(xué)文本的。

Desaire 教授說，這種 AI 檢測工具可以幫助期刊編輯處理大量使用 ChatGPT 寫作的文章，可以讓他們優(yōu)先考慮哪些文章值得送審。她還說，這種工具可以根據(jù)不同的領(lǐng)域進(jìn)行調(diào)整，比如用來檢測學(xué)生的剽竊行為，只要在適合的語言上進(jìn)行訓(xùn)練就行?！澳憧梢园阉脑煊糜谀阆胍娜魏晤I(lǐng)域，只要想好哪些特征是有用的。”

然而IT之家注意到，并非所有人都認(rèn)為這種 AI 檢測工具有多大用處。南澳大利亞大學(xué)變化與復(fù)雜性學(xué)習(xí)中心（C3L）的 Vitomir Kovanovi?博士說，Desaire 教授和她的團(tuán)隊(duì)所做的比較是不現(xiàn)實(shí)的，因?yàn)樗麄冎槐容^了 100% 由 AI 生成和 100% 由人類生成的文本，而沒有考慮到人類和 AI 之間的協(xié)作。他說，當(dāng)科學(xué)家使用 ChatGPT 時，往往會有一定程度的人機(jī)合作，比如科學(xué)家會編輯 AI 生成的文本。這也是必要的，因?yàn)?ChatGPT 有時會出錯，甚至?xí)商摌?gòu)的參考文獻(xiàn)。但是由于研究者只比較了兩種極端情況，他們的成功率就被提高了。

阿德萊德大學(xué)機(jī)器學(xué)習(xí)研究所的 Lingqiao Liu 博士也認(rèn)為，在真實(shí)世界中，這種 AI 檢測工具的準(zhǔn)確率可能會降低，導(dǎo)致更多的錯誤分類。Liu 博士是一位開發(fā)算法來檢測 AI 生成圖像的專家，他說：“從方法論上講，這沒問題，但使用它有一定風(fēng)險(xiǎn)?！?/p>

另一方面，Liu 博士指出，人們也有可能指示 ChatGPT 以特定的方式寫作，從而讓 100% 由 AI 寫作的文本通過檢測。事實(shí)上，一些評論員甚至談到了一個“軍備競賽”，指的是那些試圖讓機(jī)器更像人類和那些試圖揭露那些出于惡意目的使用這項(xiàng)技術(shù)的人之間的競爭。

Kovanovi?博士認(rèn)為這是“沒有意義的競賽”，因?yàn)檫@項(xiàng)技術(shù)有著強(qiáng)大的發(fā)展勢頭和潛在的積極影響。他說，AI 檢測“沒有抓住重點(diǎn)，我認(rèn)為我們最好把精力投入到如何有效地使用 AI 上?！彼€反對使用反剽竊軟件來評估大學(xué)生是否使用了 AI 寫作，并稱這給學(xué)生造成了不必要的壓力。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

可識別 AI 生成的科學(xué)文本的新型檢測工具問世，號稱準(zhǔn)確率超 99% 但遭質(zhì)疑

相關(guān)文章

可識別 AI 生成的科學(xué)文本的新型檢測工具問世，號稱準(zhǔn)確率超 99% 但遭質(zhì)疑