借助讀唇語,人類能夠更容易聽懂他人的講話內(nèi)容,那么 AI 也能如此嗎?
最近,Meta 提出了一種視聽版 BERT,不僅能讀唇語,還能將識別錯誤率降低 75%。
效果大概就像如下這樣,給一段視頻,該模型就能根據(jù)人物的口型及語音輸出他所說的內(nèi)容。
而且與此前同類方法相比,它只用十分之一的標(biāo)記數(shù)據(jù),性能就能超過過去最好的視聽語音識別系統(tǒng)。
這種結(jié)合了讀唇的語音識別方法,對于識別嘈雜環(huán)境下的語音有重大幫助。
Meta 的研究專家 Abdelrahman Mohamed 表示,該技術(shù)未來可用在手機(jī)智能助手、AR 眼鏡等智能設(shè)備上。
目前,Meta 已將相關(guān)代碼開源至 GitHub。
自監(jiān)督 + 多模態(tài)
Meta 將該方法命名為 AV-HuBERT,這是一個多模態(tài)的自監(jiān)督學(xué)習(xí)框架。
多模態(tài)不難理解,該框架需要輸入語音音頻和唇語視頻兩種不同形式內(nèi)容,然后輸出對應(yīng)文本。
Meta 表示,通過結(jié)合人們說話過程中嘴唇和牙齒活動、語音方面的信息,AV-HuBERT 可以捕捉到音頻和視頻間的微妙聯(lián)系。
這和人類本身感知語言的模式很相似。
此前已經(jīng)有研究表明,閱讀唇語是人類理解語言的一種重要方式。尤其是在嘈雜的環(huán)境下,通過讀唇可以將語言識別的準(zhǔn)確性最高提升 6 倍。
在該模型中,通過一個 ResNet-transformer 框架可將掩碼音頻、圖像序列編碼為視聽特征,從而來預(yù)測離散的集群任務(wù)序列。
具體來看,AV-HuBERT 使用幀級同步的音頻流和視頻流作為輸入,來更好地建模和提取兩種模態(tài)之間的相關(guān)性。
圖像序列和音頻特征能夠通過輕量級的模態(tài)特定編碼器來產(chǎn)生中間特征,然后將這個中間特征融合并反饋到共享的主干 transformer 編碼器中,以此來預(yù)測掩蔽聚類任務(wù) (masked cluster assignments)。
該目標(biāo)是根據(jù)聚類音頻特征或 AV-HuBERT 模型上一次迭代中提取的特征生成的。
當(dāng)對唇讀微調(diào)時,該模型只使用視覺輸入、不使用音頻輸入。
結(jié)果表明,AV-HuBERT 經(jīng)過 30 個小時帶有標(biāo)簽的 TED 演講視頻訓(xùn)練后,單詞錯誤率(WER)為 32.5%,而此前方法能達(dá)到的最低錯誤率為 33.6%,并且此方法訓(xùn)練時間高達(dá) 31000 個小時。
WER 是語音識別任務(wù)中的錯誤率指標(biāo),計算方法為將錯誤識別單詞數(shù)除以總單詞數(shù),32.5% 意味著大約每 30 個單詞出現(xiàn)一個錯誤。
經(jīng)過 433 個小時 TED 演講訓(xùn)練后,錯誤率可進(jìn)一步降低至 26.9%。
另一方面,AV-HuBERT 與前人方法最大不同之處在于,它采用了自監(jiān)督學(xué)習(xí)方法。
此前 DeepMind、牛津大學(xué)提出的方法中,由于需要對數(shù)據(jù)集打標(biāo)簽,使得可學(xué)習(xí)的詞匯范圍受到限制。
AV-HuBERT 在預(yù)訓(xùn)練中使用特征聚類和掩蔽預(yù)測兩個步驟不斷迭代訓(xùn)練,從而實現(xiàn)自己學(xué)習(xí)對標(biāo)記的數(shù)據(jù)進(jìn)行分類。
這樣一來,對于一些音頻數(shù)據(jù)集很少的語言,AV-HuBERT 也能很好學(xué)習(xí)。
在使用不到十分之一的標(biāo)記數(shù)據(jù)(433 小時 / 30 小時)情況下,該方法可將識別錯誤率平均降低至此前方法的 75%(25.8% vs 5.8%)。
事實上,在有噪音的環(huán)境中,能讀唇語的語音識別方法更能大顯身手。
Meta 研究人員表示,當(dāng)語音和背景噪音同樣音量時,AV-HuBERT 的 WER 僅為 3.2%,而之前的最佳多模態(tài)模型為 25.5%。
仍存在弊端
顯然,在各方面數(shù)據(jù)上,Meta 新方法的表現(xiàn)著實讓人眼前一亮。
但是基于現(xiàn)實使用方面的考慮,有學(xué)者提出了一些擔(dān)憂。
其中,華盛頓大學(xué)的人工智能倫理學(xué)專家 Os Keye 就提到,對于因患有唐氏綜合征、中風(fēng)等疾病而導(dǎo)致面部癱瘓的人群,依賴讀唇的語音識別還有意義嗎?
對此,Meta 方面研究人員回應(yīng)稱,AV-HuBERT 方法更多關(guān)注于唇部動作,并非整個面部。
而且與大多數(shù) AI 模型類似,AV-HuBERT 的性能“與訓(xùn)練數(shù)據(jù)中不同人群的代表性樣本數(shù)量成正比”。
論文地址:
https://arxiv.org/abs/2201.02184
https://arxiv.org/abs/2201.01763
GitHub 地址:
https://github.com/facebookresearch/av_hubert
參考鏈接:
https://venturebeat.com/2022/01/07/meta-claims-its-ai-improves-speech-recognition-quality-by-reading-lips/
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。