IT之家 11 月 16 日消息,微軟在 Ignite 大會中,為 Azure AI Speech 推出了一項名為“Azure AI Speech text to speech (TTS) avatar”的 AI 工具,號稱可以生成人類逼真虛擬化身(數字人),目前這款工具已經開放給大眾預覽試用。
微軟表示,用戶使用 Azure AI Speech text to speech (TTS) avatar,可以建立基于“輸入文字說出內容”的虛擬化身,并結合現實人物照片訓練,建立以真實人物為基礎的“互動式聊天機器人”,可用于企業(yè)的營銷、業(yè)務或客戶服務等場景。
據悉,這項 Azure AI Speech text to speech (TTS) avatar 主要包含三個模塊,分別是文字分析器、TTS 聲音合成器及 TTS 虛擬化身合成器:
文字分析器會先分析用戶輸入的文字內容,產生音素序列(phoneme sequence)。接著 TTS 聲音合成器中的 TTS 語音模型會預測用戶輸入文字的聲學特征,再合成聲音。最后,由神經網絡聲音合成模型 Avatar,根據上述聲學特征預測人物的唇形影像,最終形成虛擬化身影像。
微軟解釋,傳統(tǒng)虛擬化身制作費時耗工,需要建立專用拍攝環(huán)境、而拍攝剪輯后期過程也相當花成本。而當下運用微軟最新的 Azure AI Speech text to speech (TTS) avatar 服務,在初次建立模型后,用戶只要輸入文字就可以制作各種產品介紹、互動視頻等。配合微軟 Azure OpenAI Service 及神經網絡 TTS 功能,還能呈現更自然的互動體驗。
IT之家發(fā)現,微軟舉例聲稱,用戶可利用 Azure AI Speech TTS avatar 批量制作各種視頻內容,例如企業(yè)文化影片、產品介紹或 CEO 在大會上的數字分身。也可以制作虛擬直播數字人、聊天機器人、業(yè)務機器人、或線上教學的 AI 老師等。
微軟表示,Azure AI Speech text to speech (TTS) avatar 目前已經向 Azure 訂閱用戶推出,支持各種語言,用戶可以從預設的虛擬化身選項中挑選想要的角色,也可以自行定制虛擬化身。
如果用戶想要自行定制虛擬化身,則需要上傳一批人物視頻片段,Azure 平臺就會在線上處理這些視頻,從而生成虛擬化身。角色本身與音源分開,用戶可以選擇官方提供的默認音源,也可以自行上傳訓練音源。
相關閱讀:
《12 月上線,微軟發(fā)布 Personal Voice:最短 60 秒實現用戶自建 AI 音頻》
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。