給你兩句話,來品一下它們所蘊(yùn)含的情感:“我真的會謝。”“聽我說謝謝你,因為有你,溫暖了四季……”
或許你會說,這很簡單啊,不就是最近經(jīng)常被玩的梗嗎?但如果問問長輩,他們可能就是一副“地鐵老人看手機(jī)”的模樣了。
不過與流行文化之間有代溝這事,可不僅限于長輩們,還有 AI。這不,一位博主最近就 po 出了一篇分析谷歌數(shù)據(jù)集的文章,發(fā)現(xiàn)它對 Reddit 評論的情緒判別中,錯誤率竟高達(dá) 30%。
就比如這個例子:
我要向朋友怒表達(dá)對他的愛意。
谷歌數(shù)據(jù)集把它判斷為“生氣”。
還有下面這條評論:
你 TM 差點嚇壞我了。
谷歌數(shù)據(jù)集將其判別為“困惑”。
網(wǎng)友直呼:你不懂我的梗。
人工智能秒變?nèi)斯ぶ钦?,這么離譜的錯誤它是怎么犯的?
斷章取義它最“拿手”
這就得從他判別的方式入手了。谷歌數(shù)據(jù)集在給評論貼標(biāo)簽時,是把文字單拎出來判斷的。我們可以看看下面這張圖,谷歌數(shù)據(jù)集都把文字中的情緒錯誤地判斷為憤怒。
不如我們由此來推測一下谷歌數(shù)據(jù)集判別錯誤的原因,就拿上面的例子來說,這四條評論中均有一些“臟話”。
谷歌數(shù)據(jù)集把這些“臟話”拿來作為判斷的依據(jù),但如果仔細(xì)讀完整個評論,就會發(fā)現(xiàn)這個所謂的“依據(jù)”只是用來增強(qiáng)整個句子的語氣,并沒有實際的意義。
網(wǎng)友們的發(fā)表的評論往往都不是孤立存在的,它所跟的帖子、發(fā)布的平臺等因素都可能導(dǎo)致整個語義發(fā)生變化。
比如單看這條評論:
his traps hide the fucking sun.
單單依靠這個很難判斷其中的情緒元素。但如果知道他是來自一個肌肉網(wǎng)站的評論,或許就不難猜出了,(他只是想稱贊一下這個人的肌肉)。
忽略評論的帖子本身,或者將其中某個情感色彩強(qiáng)烈的詞語單拎出來判斷其情緒元素都是不合理的。一個句子并不是孤立存在的,它有其特定的語境,其含義也會隨著語境的變化而變化。
將評論放入完整的語境中去判斷其情緒色彩,或許會大大提升判別的準(zhǔn)確率。但造成 30% 這么高的失誤率可不僅僅只是“斷章取義”,其中還有更深層次的原因。
“我們的梗 AI 不懂”
除了語境會干擾數(shù)據(jù)集判別之外,文化背景也是一個非常重要的因素。
大到國家地區(qū),小到網(wǎng)站社群都會有其內(nèi)部專屬的文化符號,這種文化符號圈層之外的人很難解讀,這就造成了一個棘手的問題:若想更準(zhǔn)確地判斷某一社區(qū)評論的情緒,就得針對性地對其社區(qū)進(jìn)行一些數(shù)據(jù)訓(xùn)練,深入了解整個社區(qū)的文化基因。
在 Reddit 網(wǎng)站上,網(wǎng)友評論指出“所有的評分者都是以英語為母語的印度人”。
這就導(dǎo)致會對一些很常見的習(xí)語、語氣詞及一些特定的“梗”造成誤解。說了這么多,數(shù)據(jù)集判別失誤率這么高的原因也就顯而易見了。
但與此同時,提高 AI 判別情緒的精確度也有了清晰的方向。例如博主也在這篇文章中就給出了幾條建議:
首先,在對評論貼標(biāo)簽時,得對他所處的文化背景有深刻地理解。以 Reddit 為例,要判斷其評論的情緒色彩,要對美國的一些文化、政治理解透徹,并且還要能夠迅速 get 到專屬網(wǎng)站的“?!?;
其次,要測試標(biāo)簽對一些諷刺、習(xí)語、梗的判別是否正確,確保模型能夠整整理解文本的意思;
最后,核查模型判斷與我們真實判別,以做出反饋,更好地訓(xùn)練模型。
One More Thing
AI 大牛吳恩達(dá)曾發(fā)起過一項以數(shù)據(jù)為中心的人工智能運動。
將人工智能從業(yè)者的重點從模型 / 算法開發(fā)轉(zhuǎn)移到他們用于訓(xùn)練模型的數(shù)據(jù)質(zhì)量上。吳恩達(dá)曾說:
數(shù)據(jù)是人工智能的食物。
用于訓(xùn)練數(shù)據(jù)的好壞對于一個模型也至關(guān)重要,在新興的以數(shù)據(jù)為中心的 AI 方法中,數(shù)據(jù)的一致性至關(guān)重要。為了獲得正確的結(jié)果,需要固定模型或代碼并迭代地提高數(shù)據(jù)質(zhì)量。
……
最后,你覺得在提高語言 AI 判別情緒這件事上,還有什么方法呢?
歡迎在留言區(qū)討論~
參考鏈接:
[1]https://www.reddit.com/r/MachineLearning/comments/vye69k/30_of_googles_reddit_emotions_dataset_is/
[2]https://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled
[3]https://mitsloan.mit.edu/ideas-made-to-matter/why-its-time-data-centric-artificial-intelligence
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。