IT之家 4 月 17 日消息,昆侖萬(wàn)維今日宣布,天工 3.0 大模型性能提升顯著,旗下的天工 SkyMusic 音樂(lè)大模型也在今日面向全社會(huì)開(kāi)放公測(cè)。
天工 3.0 擁有 4000 億參數(shù),超越了 3140 億參數(shù)的 Grok-1,是全球最大的開(kāi)源 MoE 大模型。天工 3.0 在語(yǔ)義理解、邏輯推理、通用性、泛化性、不確定性知識(shí)、學(xué)習(xí)能力等領(lǐng)域性能提升顯著,數(shù)學(xué) / 推理 / 代碼 / 文創(chuàng)能力提升超過(guò) 30%。天工 3.0 新增了多輪搜索與綜合工具調(diào)用、圖表繪制、研究模式、增強(qiáng)模式、改圖擴(kuò)圖等多項(xiàng) AI 能力。
天工 3.0 旗下的天工 SkyMusic 音樂(lè)大模型也在今日面向全社會(huì)開(kāi)放公測(cè)。昆侖萬(wàn)維表示天工 SkyMusic 在人聲 & BGM 音質(zhì)、人聲自然度、發(fā)音可懂度等領(lǐng)域“顯著”領(lǐng)先對(duì)手,綜合性能超越 Suno V3,取得音樂(lè)大模型 SOTA(State of the art model,即在當(dāng)前研究中表現(xiàn)最好的模型)。
天工 SkyMusic 采用音樂(lè)音頻領(lǐng)域類 Sora 模型架構(gòu),Large-scale Transformer 負(fù)責(zé)譜曲,來(lái)學(xué)習(xí) Music Patches 的上下文依賴關(guān)系,同時(shí)完成音樂(lè)可控性,Diffusion Transformer 負(fù)責(zé)演唱,通過(guò) LDM 讓 Music Patches 被還原成高質(zhì)量音頻,使其能夠支持生成 80 秒 44100Hz 采樣率雙聲道立體聲歌曲。
據(jù)介紹,天工 SkyMusic 具備以下特點(diǎn):
高質(zhì)量 AI 音樂(lè):生成 80 秒 44100Hz 采樣率雙聲道立體聲 AI 歌曲
人聲“以假亂真”:中文水平極為優(yōu)秀,發(fā)音清晰無(wú)異響
歌詞段落控制:生成的歌曲可以明確分辨出不同歌詞段落的情緒變化
多種音樂(lè)風(fēng)格:支持說(shuō)唱 / 民謠 / 放克 / 古風(fēng) / 電子等
音樂(lè)智能表達(dá):能夠?qū)W習(xí)如顫音、歌劇、吟唱、男女對(duì)唱,自動(dòng)和聲等多種歌唱技巧
參考音樂(lè)生成:用戶上傳自有參考音樂(lè),生成風(fēng)格、唱腔類似的歌曲
方言歌曲生成:支持粵語(yǔ)、成都話、北京話等眾多方言
IT之家從公開(kāi)資料獲悉,昆侖萬(wàn)維是中國(guó)互聯(lián)網(wǎng)平臺(tái)出海企業(yè),深耕海外市場(chǎng)十余載,業(yè)務(wù)覆蓋包括信息分發(fā)、社交、 娛樂(lè)、元宇宙、游戲及 AIGC 等多個(gè)領(lǐng)域,旗下包括 AGI 與 AIGC 、海外信息分發(fā)與元宇宙、投資等三大業(yè)務(wù)板塊,市場(chǎng)遍及中國(guó)、東南亞、非洲、中東、北美、南美、歐洲等地。截至目前,全球平均月活躍用戶近 4 億,海外收入占比達(dá) 84%。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。