IT之家 11 月 6 日消息,Meta 在一篇博客中公布了全新的開(kāi)源音頻壓縮技術(shù) EnCodec,號(hào)稱壓縮文件大小比 MP3 格式小 10 倍。
據(jù)介紹,Meta 旗下基礎(chǔ)人工智能研究 (FAIR) 團(tuán)隊(duì)在 AI 驅(qū)動(dòng)的音頻超壓縮領(lǐng)域取得了成功,構(gòu)建了一個(gè)由三部分組成的系統(tǒng),并對(duì)其進(jìn)行端到端訓(xùn)練,以將音頻數(shù)據(jù)壓縮到目標(biāo)大小,然后可以使用神經(jīng)網(wǎng)絡(luò)對(duì)這些數(shù)據(jù)進(jìn)行解碼。
與 64 kbps 的 MP3 相比,Meta 的新技術(shù) EnCodec 實(shí)現(xiàn)了大約 10 倍的壓縮率,而且沒(méi)有質(zhì)量損失。
EnCodec 的三部分包括:
編碼器:獲取未壓縮的數(shù)據(jù)并將其轉(zhuǎn)換為更高維度和更低幀率的表示(representation)。
量化器:將這個(gè)表示壓縮到目標(biāo)大小,通過(guò)訓(xùn)練量化器給想要的大小(或大小集),同時(shí)保留最重要的信息來(lái)重建原始信號(hào)。這種壓縮表示是存儲(chǔ)在磁盤(pán)上或通過(guò)網(wǎng)絡(luò)發(fā)送的,相當(dāng)于計(jì)算機(jī)上的 .mp3 文件。
解碼器:將壓縮信號(hào)轉(zhuǎn)換回與原始信號(hào)盡可能相似的波形,有損壓縮的關(guān)鍵是識(shí)別人類(lèi)無(wú)法感知的變化,因?yàn)樵诘捅忍芈氏峦昝赖闹亟ㄊ遣豢赡艿?。為此,EnCodec 使用鑒別器來(lái)提高生成樣本的感知質(zhì)量,創(chuàng)建了一個(gè)類(lèi)似貓捉老鼠的游戲,其中鑒別器的工作是區(qū)分真實(shí)樣本和重建樣本。壓縮模型試圖通過(guò)推動(dòng)重建的樣本在感知上與原始樣本更加相似來(lái)生成樣本來(lái)欺騙鑒別器。
IT之家了解到,Meta 表示,該技術(shù)尚未涵蓋視頻,但目前已在計(jì)劃中,其目標(biāo)是改進(jìn)視頻會(huì)議、流媒體電影以及在 VR 中與朋友玩游戲等的音頻體驗(yàn)。
論文地址:點(diǎn)此查看
GitHub 開(kāi)源頁(yè)面:點(diǎn)此查看
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。