IT之家 8 月 22 日消息,F(xiàn)acebook 的母公司 Meta Platforms 今日發(fā)布了一種能夠翻譯和轉(zhuǎn)錄數(shù)十種語言的人工智能模型 ——SeamlessM4T,可以讓說不同語言的人更有效地進(jìn)行交流,為開發(fā)人類通用語言翻譯器提供了助力。
Meta 聲稱,SeamlessM4T 將與新的翻譯數(shù)據(jù)集 SeamlessAlign 一同開源,它代表了人工智能驅(qū)動(dòng)的“語音到語音”和“語音到文本”領(lǐng)域的“重大突破”。
Meta 表示,該模型可以在近 100 種語言之間進(jìn)行文本到語音的翻譯,并支持 35 種語言的完全語音到語音翻譯,而此前要想實(shí)現(xiàn)類似的操作只能在單獨(dú)的 AI 模型中分別進(jìn)行翻譯。SeamlessM4T 支持:
1、近 100 種語言的語音識(shí)別。
2、近 100 種輸入和輸出語言的語音到文本翻譯。
3、支持近 100 種輸入語言和 36 種輸出語言的語音到語音翻譯。
4、支持近 100 種語言的文本到文本翻譯。
5、支持近 100 種輸入語言和 35 種輸出語言的文本到語音翻譯。
目前,Meta 將以研究許可證的形式向公眾免費(fèi)提供該模型(僅限非商業(yè)用途),以便研究人員和開發(fā)人員在此基礎(chǔ)上開展工作。
據(jù)介紹,Meta 還將發(fā)布 SeamlessAlign 元數(shù)據(jù),這是迄今為止最大的開放多模式翻譯數(shù)據(jù)集,挖掘的語音和文本對(duì)齊總計(jì)達(dá) 270000 小時(shí)。
馬克?扎克伯格表示,他堅(jiān)信這些工具將促進(jìn)來自全球各地的用戶在元宇宙中的互動(dòng),這也是他對(duì)該公司未來的賭注所在。
他還表示,開放 AI 生態(tài)系統(tǒng)對(duì) Meta 有利,因?yàn)樵摴就ㄟ^有效地將創(chuàng)建面向消費(fèi)者的工具的任務(wù)眾包來獲得更多收益,而不是通過訪問模型來收費(fèi)。
據(jù)稱,Meta 后續(xù)還將把這些翻譯和轉(zhuǎn)錄方面的 AI 進(jìn)展整合到 Facebook、Instagram、WhatsApp、Messenger 和 Threads 中。
關(guān)于 SeamlessM4T 模型,Meta 研究人員在一份研究論文中表示,他們從“爬取的網(wǎng)頁數(shù)據(jù)的公開可用存儲(chǔ)庫中”收集了 400 萬小時(shí)的“原始音頻”,但I(xiàn)T之家沒有找到具體是哪個(gè)存儲(chǔ)庫的說明,官方只提到文本數(shù)據(jù)來自去年創(chuàng)建的數(shù)據(jù)集,而該數(shù)據(jù)集來自于維基百科及相關(guān)網(wǎng)站提取的內(nèi)容。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。