IT之家 11 月 6 日消息,Meta 在一篇博客中公布了全新的開源音頻壓縮技術(shù) EnCodec,號稱壓縮文件大小比 MP3 格式小 10 倍。
據(jù)介紹,Meta 旗下基礎(chǔ)人工智能研究 (FAIR) 團(tuán)隊在 AI 驅(qū)動的音頻超壓縮領(lǐng)域取得了成功,構(gòu)建了一個由三部分組成的系統(tǒng),并對其進(jìn)行端到端訓(xùn)練,以將音頻數(shù)據(jù)壓縮到目標(biāo)大小,然后可以使用神經(jīng)網(wǎng)絡(luò)對這些數(shù)據(jù)進(jìn)行解碼。
與 64 kbps 的 MP3 相比,Meta 的新技術(shù) EnCodec 實現(xiàn)了大約 10 倍的壓縮率,而且沒有質(zhì)量損失。
EnCodec 的三部分包括:
編碼器:獲取未壓縮的數(shù)據(jù)并將其轉(zhuǎn)換為更高維度和更低幀率的表示(representation)。
量化器:將這個表示壓縮到目標(biāo)大小,通過訓(xùn)練量化器給想要的大小(或大小集),同時保留最重要的信息來重建原始信號。這種壓縮表示是存儲在磁盤上或通過網(wǎng)絡(luò)發(fā)送的,相當(dāng)于計算機上的 .mp3 文件。
解碼器:將壓縮信號轉(zhuǎn)換回與原始信號盡可能相似的波形,有損壓縮的關(guān)鍵是識別人類無法感知的變化,因為在低比特率下完美的重建是不可能的。為此,EnCodec 使用鑒別器來提高生成樣本的感知質(zhì)量,創(chuàng)建了一個類似貓捉老鼠的游戲,其中鑒別器的工作是區(qū)分真實樣本和重建樣本。壓縮模型試圖通過推動重建的樣本在感知上與原始樣本更加相似來生成樣本來欺騙鑒別器。
IT之家了解到,Meta 表示,該技術(shù)尚未涵蓋視頻,但目前已在計劃中,其目標(biāo)是改進(jìn)視頻會議、流媒體電影以及在 VR 中與朋友玩游戲等的音頻體驗。
論文地址:點此查看
GitHub 開源頁面:點此查看
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。