Meta 推出 AI 音頻模型 Audiobox：支持語音及文字同時(shí)輸入、可生成多層次聲音

2023/12/4 15:06:51 來源：IT之家作者：漾仔（實(shí)習(xí)） 責(zé)編：漾仔

評論：

IT之家 12 月 4 日消息，Meta 日前推出了一款 AI 聲音生成模型 Audiobox，能夠同時(shí)接收語音及文字輸入，用戶可同時(shí)使用語音及文字描述，讓這款模型生成所需的音頻。

據(jù)悉，這款模型基于 Meta 今年 6 月推出的 Voicebox AI 模型，據(jù)稱 Audiobox 能生成各種環(huán)境音、自然對話語音，并整合了音頻生成和編輯能力，以便于用戶自由生成自己所需的音頻。

Meta 介紹稱，生成高品質(zhì)音頻需要有大量音頻庫及深厚的領(lǐng)域知識，但大眾難以獲得這些資源，而該公司推出這個(gè)模型旨在降低聲音生成門檻，讓任何人都更容易制作視頻、游戲等應(yīng)用場景的音效。

IT之家發(fā)現(xiàn)，這款 Audiobox 模型基于 Voicebox 的“引導(dǎo)聲音”機(jī)制，以便于生成目標(biāo)音頻，并配合“流量比對（flow-matching）”擴(kuò)散模型生成方法，以實(shí)現(xiàn)“聲音填充（audio infilling）”功能，從而生成多層次的音頻。

Meta 測試生成帶有雷暴聲的下雨音頻，并輸入一系列提示句進(jìn)行演示，例如“流水聲伴隨鳥鳴”、“以高音調(diào)快節(jié)奏說話的年輕女性”等；同時(shí)測試了同時(shí)輸入人聲及文字提示，以生成帶有情緒（“哀痛而緩慢”）并擁有背景音（身處教堂）的語音。

Meta 推出 AI 音頻模型 Audiobox：支持語音及文字同時(shí)輸入、可生成多層次聲音

Meta 聲稱，Audiobox 在音質(zhì)及“生成內(nèi)容的準(zhǔn)確度” 順利擊敗了 AudioLDM2、VoiceLDM 及 TANGO，超越了現(xiàn)有最佳的音頻生成模型。

Meta 推出 AI 音頻模型 Audiobox：支持語音及文字同時(shí)輸入、可生成多層次聲音

目前 Audiobox 已經(jīng)開放向特定研究人員及學(xué)術(shù)界試用，以供測試模型品質(zhì)及安全性，Meta 聲稱，他們計(jì)劃“再過幾周將社會(huì)全面公開該模型”。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Meta 推出 AI 音頻模型 Audiobox：支持語音及文字同時(shí)輸入、可生成多層次聲音

相關(guān)文章

Meta 推出 AI 音頻模型 Audiobox：支持語音及文字同時(shí)輸入、可生成多層次聲音