研究：網(wǎng)絡(luò)充斥低質(zhì)機(jī)翻內(nèi)容，大語(yǔ)言模型訓(xùn)練需警惕數(shù)據(jù)陷阱

2024/2/4 8:33:57 來(lái)源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評(píng)論：

IT之家 2 月 4 日消息，亞馬遜云計(jì)算人工智能實(shí)驗(yàn)室的研究人員發(fā)現(xiàn)，網(wǎng)絡(luò)上大量?jī)?nèi)容來(lái)自機(jī)器翻譯 (MT) 生成，這些跨越多種語(yǔ)言的翻譯內(nèi)容質(zhì)量普遍較低。研究團(tuán)隊(duì)強(qiáng)調(diào)，這凸顯了在訓(xùn)練大型語(yǔ)言模型 (LLM) 時(shí)，數(shù)據(jù)質(zhì)量和來(lái)源考量的重要性。

圖源 Pexels

研究還發(fā)現(xiàn)，機(jī)器生成內(nèi)容在資源較少語(yǔ)言的翻譯中很普遍，并占網(wǎng)絡(luò)內(nèi)容的很大一部分。

IT之家注意到，研究團(tuán)隊(duì)開發(fā)了名為多維 cc 矩陣 (MWccMatrix) 的龐大資源，以更好地理解機(jī)器翻譯內(nèi)容的特征。該資源包含 90 種語(yǔ)言中 64 億個(gè)獨(dú)特的句子，并包括翻譯元組，即相互翻譯的一組句子。

這項(xiàng)研究發(fā)現(xiàn)大量網(wǎng)絡(luò)內(nèi)容通常被翻譯成多種語(yǔ)言，主要通過(guò)機(jī)器翻譯完成。這種內(nèi)容不僅在資源較少語(yǔ)言的翻譯中普遍存在，而且在這些語(yǔ)言的所有網(wǎng)絡(luò)內(nèi)容中也占很大一部分。

研究人員還注意到，出于廣告收入等目的，被翻譯成多種語(yǔ)言的內(nèi)容存在選擇性偏差。

論文的結(jié)論是：“機(jī)器翻譯技術(shù)在過(guò)去十年里取得了顯著進(jìn)步，但仍達(dá)不到人類質(zhì)量水平。多年來(lái)，使用當(dāng)時(shí)可用的機(jī)器翻譯系統(tǒng)將機(jī)器翻譯內(nèi)容添加到網(wǎng)絡(luò)上，因此網(wǎng)絡(luò)上大部分機(jī)器翻譯內(nèi)容按照現(xiàn)代標(biāo)準(zhǔn)可能質(zhì)量很低。這可能會(huì)導(dǎo)致 LLM 模型產(chǎn)生更多‘幻覺(jué)’ ，而選擇偏差表明即使不考慮機(jī)器翻譯錯(cuò)誤，數(shù)據(jù)質(zhì)量也可能較低。數(shù)據(jù)質(zhì)量對(duì)于 LLM 訓(xùn)練至關(guān)重要，其中高質(zhì)量的語(yǔ)料庫(kù)，如書籍和維基百科文章，通常會(huì)進(jìn)行多次向上采樣。”

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

研究：網(wǎng)絡(luò)充斥低質(zhì)機(jī)翻內(nèi)容，大語(yǔ)言模型訓(xùn)練需警惕數(shù)據(jù)陷阱

相關(guān)文章

研究：網(wǎng)絡(luò)充斥低質(zhì)機(jī)翻內(nèi)容，大語(yǔ)言模型訓(xùn)練需警惕數(shù)據(jù)陷阱