非母語者寫的文章 = AI 生成?氣抖冷。
ChatGPT 火了以后,用法是真多。
有人拿來尋求人生建議,有人干脆當(dāng)搜索引擎用,還有人拿來寫論文。
論文... 可不興寫啊。
美國部分大學(xué)已經(jīng)明令禁止學(xué)生使用 ChatGPT 寫作業(yè),還開發(fā)了一堆軟件來鑒別,判斷學(xué)生上交的論文是不是 GPT 生成的。
這里就出了個(gè)問題。
有人論文本來就寫的爛,判斷文本的 AI 以為是同行寫的。
更搞的是,中國人寫的英文論文被 AI 判斷為 AI 生成的概率高達(dá) 61%。
這.... 這這什么意思?氣抖冷!
非母語者不配?
目前,生成式語言模型發(fā)展迅速,確實(shí)給數(shù)字通信帶來了巨大進(jìn)步。
但濫用真的不少。
雖說研究人員已經(jīng)提出了不少檢測方法來區(qū)分 AI 和人類生成的內(nèi)容,但這些檢測方法的公平性和穩(wěn)定性仍然亟待提高。
為此,研究人員使用母語為英語和母語不為英語的作者寫的東西評(píng)估了幾個(gè)廣泛使用的 GPT 檢測器的性能。
研究結(jié)果顯示,這些檢測器始終將非母語者寫作的樣本錯(cuò)誤地判定為 AI 生成的,而母語寫作樣本則基本能被準(zhǔn)確地識(shí)別。
此外,研究人員還證明了,用一些簡單的策略就可以減輕這種偏見,還能有效地繞過 GPT 檢測器。
這說明什么?這說明 GPT 檢測器就看不上語言表達(dá)水平不咋地的作者,多叫人生氣。
不禁聯(lián)想到那款判斷 AI 還是真人的游戲,如果對(duì)面是真人但你猜是 AI,系統(tǒng)就會(huì)說,「對(duì)方可能會(huì)覺得你冒犯了?!?/p>
不夠復(fù)雜 = AI 生成?
研究人員從一個(gè)中國的教育論壇上獲取了 91 篇托福作文,又從美國 Hewlett 基金會(huì)的數(shù)據(jù)集中摘取了 88 篇美國八年級(jí)學(xué)生寫的作文,用來檢測 7 個(gè)被大量使用的 GPT 檢測器。
圖表中的百分比表示「誤判」的比例。即,是由人寫的,但檢測軟件認(rèn)為是 AI 生成的。
可以看到數(shù)據(jù)非常懸殊。
七個(gè)檢測器中,美國八年級(jí)學(xué)生寫的作文被誤判的概率最高才 12%,還有兩個(gè)零誤判的 GPT。
中國論壇上的托福作文被誤判的概率基本全部過半,最高誤判概率可達(dá) 76%。
91 篇托福作文中的 18 篇被所有 7 個(gè) GPT 檢測器一致認(rèn)為是 AI 生成的,而 91 篇中有 89 篇,都至少被一個(gè) GPT 檢測器誤判。
從上圖中我們可以看出,被所有 7 個(gè) GPT 誤判的托福作文在復(fù)雜度(Complexity)上明顯低于其它論文。
這就印證了開頭的那個(gè)結(jié)論 ——GPT 檢測器會(huì)對(duì)那些語言表達(dá)能力有限的作者有一定偏見。
因此,研究人員認(rèn)為,GPT 檢測器應(yīng)該多看點(diǎn)兒非母語者寫的文章,樣本多了,才能消除偏見。
接下來,研究人員把非母語者寫的托福作文扔到了 ChatGPT 里,豐富一下語言,模仿母語者的用詞習(xí)慣。
同時(shí)作為對(duì)照組,把美國八年級(jí)小孩兒寫的作文也扔到了 ChatGPT 里,把語言簡化了一下,模仿非母語者的寫作特點(diǎn)。下圖就是修正后的新判定結(jié)果。
我們可以發(fā)現(xiàn),情況來了個(gè)大掉個(gè)兒,豐富了語言的托福作文錯(cuò)判率直線下降,低至 3%,最高也不過 19%。不像之前基本全部過半的錯(cuò)判率。
與之相反,八年級(jí)小孩兒寫的作文的錯(cuò)判率直線上升,甚至還有一個(gè) GPT 檢測器的錯(cuò)判率高達(dá) 99%,基本全錯(cuò)。
因?yàn)椋恼聫?fù)雜度這個(gè)變量出現(xiàn)了變化。
這里研究人員就得出了一個(gè)結(jié)論,非母語者寫的東西不地道,復(fù)雜度低,容易被錯(cuò)判。
這也就導(dǎo)向了一個(gè)技術(shù)問題,同時(shí)也是一個(gè)價(jià)值問題。以復(fù)雜度來判定 AI 還是人類是作者,是否合理、全面、嚴(yán)謹(jǐn)。
結(jié)果顯然不是。
以復(fù)雜度為判斷標(biāo)準(zhǔn)的情況下,非母語者吃了大虧,因?yàn)?,他們是非母語者(廢話)。
AI 潤色 = 人類寫的??
研究者認(rèn)為,加強(qiáng)語言多樣性不僅可以減輕對(duì)非母語者的偏見,還能讓 GPT 生成的內(nèi)容繞過 GPT 檢測器。
為了證明這個(gè)觀點(diǎn),研究人員選取了 2022-2023 年間美國大學(xué)申請的入學(xué)論文題目,輸入到 ChatGPT-3.5 里,一共生成了 31 篇假論文。
GPT 檢測器一開始還挺有效,但是第二輪就不行了。這是因?yàn)?,在第二輪中,研究人員把這些論文又扔到 ChatGPT 里潤色了一下,用一些文學(xué)性的語言提升了文本質(zhì)量。
這樣一來,GPT 檢測器的準(zhǔn)確度就從 100% 直降到了 0%。如下圖:
經(jīng)過潤色的文章復(fù)雜度相應(yīng)也上升了。
與此同時(shí),研究人員又用了斯坦福大學(xué) 145 個(gè)期末項(xiàng)目報(bào)告的題目,讓 ChatGPT 生成摘要。
摘要經(jīng)過潤色以后,檢測器判斷的準(zhǔn)確性繼續(xù)下降。
研究者再次得出結(jié)論,潤色過的文章很容易被誤判,都是 AI 生成的,兩輪就是比一輪強(qiáng)。
GPT 檢測器?還是欠練
言而總之,總而言之,各種 GPT 檢測器好像還是沒能抓住 AI 生成和人類寫作之間最本質(zhì)的區(qū)別。
人的寫作也分三六九等,僅靠復(fù)雜度判斷,不甚合理。
拋開偏見因素不談,技術(shù)本身也亟待改進(jìn)。
參考資料:
https://arxiv.org/pdf/2304.02819.pdf
本文來自微信公眾號(hào):新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。