IT之家 12 月 14 日消息,據(jù)新一代人工智能聯(lián)盟官方消息,近日,AVS3P10 實(shí)時(shí)語(yǔ)音編碼標(biāo)準(zhǔn)獲得重要進(jìn)展。
2023 年 12 月 14 日,第 87 次 AVS 工作組會(huì)議于成都開(kāi)幕。會(huì)上,《智能媒體編碼 第 10 部分 實(shí)時(shí)語(yǔ)音》(以下簡(jiǎn)稱(chēng) AVS3P10) WD 1.0 通過(guò)全體會(huì)議審議;騰訊提交的技術(shù)方案,被選擇為 AVS3P10 實(shí)時(shí)語(yǔ)音編碼的 RM0 基線(xiàn)。
實(shí)時(shí)語(yǔ)音通信技術(shù)(IT之家注:RTC,Real-time Communication),已廣泛應(yīng)用于協(xié)同辦公、互動(dòng)娛樂(lè)、社交等領(lǐng)域。上述多樣豐富的應(yīng)用場(chǎng)景給實(shí)時(shí)語(yǔ)音通信技術(shù)提出了多種技術(shù)挑戰(zhàn),其中,高質(zhì)量、低延時(shí)、低帶寬、高抗性的語(yǔ)音編碼是非常重要的一環(huán)。
傳統(tǒng)的語(yǔ)音編碼器,包括 AVS、ITU-T 等標(biāo)準(zhǔn)語(yǔ)音編碼器,在 16-20kbps 左右碼率時(shí),能夠恢復(fù)出高質(zhì)量寬帶語(yǔ)音;在 30-35kbps,可以恢復(fù)出高質(zhì)量超寬帶甚至全帶語(yǔ)音。然而,當(dāng)碼率進(jìn)一步降低(如:降到 10kbps 以下時(shí)),傳統(tǒng)語(yǔ)音編碼器恢復(fù)的質(zhì)量下降明顯,影響用戶(hù)體驗(yàn)。
基于上述應(yīng)用訴求,在今年 3 月第 84 次 AVS 會(huì)議上,由騰訊提議在 AVS 音頻組啟動(dòng)面向?qū)崟r(shí)語(yǔ)音通信場(chǎng)景的低碼率高質(zhì)量語(yǔ)音統(tǒng)項(xiàng)目。經(jīng)過(guò)需求分析,在第 85 次 AVS 會(huì)議上,AVS 正式立項(xiàng) AV3P10 實(shí)時(shí)語(yǔ)音編碼項(xiàng)目,并通過(guò) AVS 音頻組發(fā)出技術(shù)征集書(shū)。AVS3P10 實(shí)時(shí)語(yǔ)音編碼項(xiàng)目將由來(lái)自騰訊會(huì)議天籟實(shí)驗(yàn)室的肖瑋負(fù)責(zé)推進(jìn)和維護(hù)。
在第 86 次 AVS 會(huì)議上,音頻組審議了由騰訊會(huì)議天籟實(shí)驗(yàn)室提交的 M7886《AVS3P10 語(yǔ)音編碼參考模型候選技術(shù)方案》提案。
審議指出該方案具有以下 4 點(diǎn)特征:
深度融合了經(jīng)典信號(hào)處理和深度神經(jīng)網(wǎng)絡(luò)技術(shù)等人工智能技術(shù),屬于 AI Codec;
支持低碼率、高質(zhì)量編碼、實(shí)時(shí)編碼和解碼和多速率編碼;
基于子帶編碼和多模式編碼架構(gòu),低頻信號(hào)采用深度神經(jīng)網(wǎng)絡(luò)提取特征,高頻信號(hào)采用頻帶擴(kuò)展方案提取特征,結(jié)合標(biāo)量量化和熵編碼完成特征壓縮;
具有開(kāi)放的編碼神經(jīng)網(wǎng)絡(luò)架構(gòu)技術(shù)特征,在保證碼流前向兼容基礎(chǔ)上,可以重新修改和優(yōu)化編碼神經(jīng)網(wǎng)絡(luò)。
今年 11 月 1 日,騰訊會(huì)議天籟實(shí)驗(yàn)室提交 AVS3P10 RM0 候選方案的可執(zhí)行文件,由中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院和華為分別進(jìn)行了主觀測(cè)試和交叉驗(yàn)證。交叉驗(yàn)證力求全面,基于 ITU-T P.800 DCR 主觀質(zhì)量評(píng)價(jià)體系,主觀測(cè)試覆蓋不同帶寬下純凈語(yǔ)音、丟包語(yǔ)音、混合語(yǔ)音等多場(chǎng)景,并首次將 3A 處理后的測(cè)試場(chǎng)景引入信源編碼器測(cè)試中,以檢驗(yàn)新一代 AI Codec 技術(shù)在貼近真實(shí)場(chǎng)景的表現(xiàn)。
在上述測(cè)試場(chǎng)景下,AVS3P10 RM0 質(zhì)量?jī)?yōu)勢(shì)明顯。主觀測(cè)試結(jié)果表明,AVS3P10 RM0 在寬帶和超寬帶等多個(gè)主要測(cè)試場(chǎng)景均達(dá)到了 4.0 以上 MOS 分,體現(xiàn)出明顯優(yōu)勢(shì),最低碼率可達(dá) 5.9kbps。AVS3P10 RM0 采納了深度神經(jīng)網(wǎng)絡(luò)技術(shù),自帶的丟包損傷能力,有效提升了編碼器在網(wǎng)絡(luò)不佳時(shí)的質(zhì)量。
此外,在 ITU-T P.863 客觀質(zhì)量評(píng)價(jià)實(shí)驗(yàn)中,AVS3P10 RM0 也體現(xiàn)出了顯著優(yōu)勢(shì)。第一,在所有 8 個(gè)測(cè)試碼率中,AVS3P10 RM0 均超過(guò) 4.0MOS,最高在 4.45MOS。AVS3P10 RM0 的質(zhì)量,可以對(duì)齊 OPUS 和 EVS 等傳統(tǒng)信號(hào)處理編碼器在中高碼率的表現(xiàn),達(dá)到運(yùn)營(yíng)級(jí)質(zhì)量。在 AI Codec 領(lǐng)域,AVS3P10 RM0 在相近碼率下,質(zhì)量?jī)?yōu)勢(shì)在 0.6MOS 以上。上述測(cè)試結(jié)論均反映出,AVS3P10 RM0 代表了目前 AI Codec 的最高水平。
新一代人工智能聯(lián)盟表示,AVS3P10 實(shí)時(shí)語(yǔ)音編碼,作為新一代的語(yǔ)音編解碼技術(shù)標(biāo)準(zhǔn),是對(duì) AVS 系列標(biāo)準(zhǔn)的重要補(bǔ)充。
未來(lái),AVS3P10 實(shí)時(shí)語(yǔ)音編碼項(xiàng)目,將按照既定計(jì)劃推進(jìn),預(yù)計(jì)在 2024 年中完成標(biāo)準(zhǔn)化工作。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。