首頁 > IT資訊>業(yè)界

世界最大的多語言語音數(shù)據(jù)集現(xiàn)已開源：超 40 萬小時，共 23 種語言

量子位 2021/8/6 14:25:42 責編：懶貓

評論：

最近，F(xiàn)acebook 開源了目前世界上最大的多語言語音數(shù)據(jù)集，VoxPopuli：

這一數(shù)據(jù)集共涵蓋了 23 種語言，時長超過 40 萬小時。

其中，每種語言都有 9000 到 18000 小時的無標簽語音數(shù)據(jù)。

此外，還包括了共 1800 小時，16 種語言的轉(zhuǎn)錄語音數(shù)據(jù)，以及 17300 小時，15 種目標語言的口譯語音數(shù)據(jù)。

國外網(wǎng)友很快為這一行為點贊：

顯然，如果數(shù)據(jù)集已經(jīng)存在，那么它應該被利用，并以一種道德的方式來改善人類社會。

世界最大的多語言語音數(shù)據(jù)集現(xiàn)已開源：超 40 萬小時，共 23 種語言

這一數(shù)據(jù)集龐大的無標簽數(shù)據(jù)量和廣泛的語言覆蓋率，對改進自監(jiān)督模型有著很大的幫助。

而 Facebook 也希望能夠幫助提高語音數(shù)據(jù)集的質(zhì)量和魯棒性，使訓練語音轉(zhuǎn)換神經(jīng)網(wǎng)絡更加可靠。

最終加速新的 NLP 系統(tǒng)的開發(fā)，使 AI 翻譯的效果越來越好。

而數(shù)據(jù)集的名字，VoxPopuli 的直譯“人民的心聲”也表示了其原始數(shù)據(jù)的來源 ——

即源語音全都收集自 2009-2020 年歐洲議會的活動錄音。

來自 10 年歐會的語料庫

在歐洲議會的各自活動，如全體會議、委員會會議和其他活動上，發(fā)言者都會以不同的歐盟語言輪流發(fā)表演講。

Facebook 就是從歐會官網(wǎng)上抓取了每個演講的文字記錄、演講者信息、開始/結(jié)束時間戳。

世界最大的多語言語音數(shù)據(jù)集現(xiàn)已開源：超 40 萬小時，共 23 種語言

然后，將所有的原始演講數(shù)據(jù)進行處理，大致分為以下 3 類：

共 40 萬小時，23 種語言的無標簽語音數(shù)據(jù)

每種語言都有 8 千到 2 萬多的原始語音數(shù)據(jù)。

因此，F(xiàn)acebook 基于能量的語音激活檢測（VAD）算法，將完整音頻分割成 15-30 秒的短片段。

最終得到?jīng)]有太多的數(shù)據(jù)不平衡，也不需要調(diào)整數(shù)據(jù)采樣策略的數(shù)據(jù)集。

因此非常適合多語言模型的訓練。

世界最大的多語言語音數(shù)據(jù)集現(xiàn)已開源：超 40 萬小時，共 23 種語言

而上表中除了無標簽數(shù)據(jù)，也有轉(zhuǎn)錄的語音數(shù)據(jù)，這也就是第二種：

共 1800 小時，16 種語言的轉(zhuǎn)錄語音數(shù)據(jù)。

歐會官方的時間戳雖然可以用來在會議中定義演講者，但常常會被截斷，或混合前后演講的片段，因此并不完全準確。

所以 Facebook 對全會話音頻采用了聲紋分割聚類（SD）。

這時的語音段落平均時長為 197 秒，再利用語音識別（ASR）系統(tǒng)，將其細分為 20 秒左右的短片段。

觀察上表，可以看到最終得到的數(shù)據(jù)中，有包括各語言的持續(xù)時間、發(fā)言人數(shù)量、女性發(fā)言人百分比、標記數(shù)量等多種屬性。

17300 小時的 15 種目標語言的口譯語音數(shù)據(jù)：

世界最大的多語言語音數(shù)據(jù)集現(xiàn)已開源：超 40 萬小時，共 23 種語言

每個原始語音都有相對應的同聲傳譯，并互相關聯(lián)。

但要使這個數(shù)據(jù)集可用，必須經(jīng)過大量的預處理和過濾。

因此，F(xiàn)acebook 使用了語音識別（ASR）系統(tǒng)在句子層面上對齊源語音和目標語音。

在域外環(huán)境的半監(jiān)督學習下具有通用性

那么這一數(shù)據(jù)集用起來到底怎么樣？

首先，是使用包含了域外語言（out-of-domain out-of-language）的無監(jiān)督預訓練，進行少樣本的語音識別：

世界最大的多語言語音數(shù)據(jù)集現(xiàn)已開源：超 40 萬小時，共 23 種語言

可以從表中看到，VP-Mono5K 在 5 種 VoxPopuli 語言上，都優(yōu)于 XLSR-Mono 和 XLSR-10。

而 VP-100K 則在 10 種語言中的 8 種上的都比 XLSR-10 的表現(xiàn)更好。

并且，雖然 XLSR-53 涵蓋了 Zh 語言，但與 VP-100K（Large）在 Zh 上的表現(xiàn)相距甚遠。

這表明 VP-100K 所學的語音表征具有高度的通用性。

然后是使用 VoxPopuli 數(shù)據(jù)集進行自我訓練或弱監(jiān)督的語言翻譯（ST）和語音識別（ASR）：

世界最大的多語言語音數(shù)據(jù)集現(xiàn)已開源：超 40 萬小時，共 23 種語言

從表中可以看到，不管是對于域內(nèi)語言還是域外語言，對 VoxPopuli 的自我訓練在大多數(shù)時候都能夠提高性能。

而在翻譯上，也不用再增加昂貴的標簽數(shù)據(jù)。

通過自我訓練，就能夠縮小端到端模型和級聯(lián)模型之間的差距。

論文地址：

https://arxiv.org/abs/2101.00390

下載：

https://github.com/facebookresearch/voxpopuli

參考鏈接：

[1]https://www.reddit.com/r/MachineLearning/comments/owll7g/n_facebook_ai_releases_voxpopuli_a_largescale/

[2]https://www.marktechpost.com/2021/08/02/facebook-ai-releases-voxpopuli-a-large-scale-open-multilingual-speech-corpus-for-ai-translations-in-nlp-systems/

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

世界最大的多語言語音數(shù)據(jù)集現(xiàn)已開源：超 40 萬小時，共 23 種語言

來自 10 年歐會的語料庫

在域外環(huán)境的半監(jiān)督學習下具有通用性

世界最大的多語言語音數(shù)據(jù)集現(xiàn)已開源：超 40 萬小時，共 23 種語言