首頁 > 智能時代>人工智能

游戲 NPC 不再是站樁工具人，AI 憑對話內(nèi)容生成 3D 動作，真實度超越人類

量子位 2022/11/19 14:47:10 責(zé)編：遠生

評論：

感謝IT之家網(wǎng)友 Sancu 的線索投遞！

你有沒有看過油管很火的外國小姐姐模仿游戲 NPC 視頻？

游戲 NPC 不再是站樁工具人，AI 憑對話內(nèi)容生成 3D 動作，真實度超越人類

△ 來自 YouTube@Loczniki official

這僵硬的姿勢、空洞的眼神、面癱的表情，讓游戲玩家們直呼 DNA 動了！

如果你也苦于此很久了，現(xiàn)在，網(wǎng)易的一項新技術(shù)將輕松改變這一局面：

只需一段語音，AI 就能自動生成 3D 對話動作，效果甚至超越真人！

不僅能按角色的性別、說話的習(xí)慣和姿態(tài)，合成不同風(fēng)格的動作，還可自由替換或指定待定動作。

游戲 NPC 不再是站樁工具人，AI 憑對話內(nèi)容生成 3D 動作，真實度超越人類

△ 左圖為男性，右圖是女性

目前，該技術(shù)已在語音合成手勢動作領(lǐng)域的權(quán)威賽事 GENEA 2022 上斬獲第一，并被 ICMI 2022 收錄。

效果超越真人的新技術(shù)

在此之前，業(yè)界最常用的語音合成對話動作技術(shù)是 StyleGestures。

該技術(shù)由美國藝電（Electronic Arts）推出，曾在 2 年前的第一屆 GENEA 2020 中取得第一。

但與真實動捕數(shù)據(jù)相比，StyleGestures 合成的動作仍有明顯的機械感，且缺少可控性，不同的語音合成效果很隨機，有種碰運氣的感覺。

為了解決這兩個問題，網(wǎng)易的新技術(shù)分為離線的數(shù)據(jù)庫構(gòu)建和在線的語音驅(qū)動動作合成兩個模塊進行。

游戲 NPC 不再是站樁工具人，AI 憑對話內(nèi)容生成 3D 動作，真實度超越人類

數(shù)據(jù)庫構(gòu)建

GENEA 2022 主辦方發(fā)布的 18 小時數(shù)據(jù)集中，包括不同說話人的語音、文本和對應(yīng)的全身動作。

由于沒有經(jīng)過人工的清洗和處理，導(dǎo)致動作數(shù)據(jù)中有很大一部分的動作質(zhì)量較差。

因此，研究人員需要先對此進行預(yù)處理：舍棄動作質(zhì)量較差的數(shù)據(jù)、完善不帶手指旋轉(zhuǎn)信息的動作、再通過左右對稱的方式生成更多的數(shù)據(jù)集。

其次，根據(jù)說話文本單詞之間的時間間隔，將連續(xù)的文本切分為短片段。

并且針對時長小于 1s 的連續(xù)動作進行合并，對左右半身的動作進行鏡像擴充，最終得到約 6000 個全身動作片段，以及時長范圍從 1s 的短句到超過 10s 的長句。

接下來是對動作節(jié)奏和語音節(jié)奏進行自動標(biāo)注。

動作方面，說話人每做出一個變化的手勢，就對應(yīng)于一個節(jié)奏變化的時間點，簡單來說就是特定單詞重音時需要手勢進行一次變化，即手勢有一個明顯的速度變化的過程。

因此通過計算雙手速度的極小值，把每個極小值的時間點作為節(jié)奏的時間點，最后每個動作片段的節(jié)奏可以表示為長度為 32 位的 0-1 向量，1 表示手勢動作變化的時間點。

游戲 NPC 不再是站樁工具人，AI 憑對話內(nèi)容生成 3D 動作，真實度超越人類

語音方面，根據(jù)語音對應(yīng)文本中的每個單詞時間點信息，同樣可以得到語音對應(yīng)的節(jié)奏。

如下圖所示，每個語音片段的節(jié)奏可以表示為長度為 32 位的 0-1 向量，1 表示單詞出現(xiàn)的時間點。

游戲 NPC 不再是站樁工具人，AI 憑對話內(nèi)容生成 3D 動作，真實度超越人類

最后，在對每個動作片段建立動作節(jié)奏后，還需要建立動作圖。

動作圖是一個有向圖，圖中的每個節(jié)點表示一個動作片段，兩個節(jié)點之間的連邊則表示這兩個動作之間過渡的代價。

過渡代價越小，也就意味著兩個動作之間的過渡越自然，這一步可以幫助將離散的動作片段合并為長的平滑過渡的全身動作序列。

游戲 NPC 不再是站樁工具人，AI 憑對話內(nèi)容生成 3D 動作，真實度超越人類

語音驅(qū)動動作合成

在離線建立動作庫之后，就可以輸入任意一段語音和對應(yīng)的文本進行在線合成。

在對語音和文本進行算法自動切分后，利用訓(xùn)練后的 StyleGestures 這一概率生成式的神經(jīng)網(wǎng)絡(luò)模型，生成期望的動作。

游戲 NPC 不再是站樁工具人，AI 憑對話內(nèi)容生成 3D 動作，真實度超越人類

其中，上半身的動作最為重要，研究人員利用動態(tài)規(guī)劃算法，從構(gòu)建的動作圖中搜索動作節(jié)奏和動作風(fēng)格嵌入匹配誤差最小的動作序列，同時保證前后動作的過渡代價小、過渡自然，最后輸出一個節(jié)奏匹配的上半身動作序列。

下半身動作的合成則不用考慮節(jié)奏，只考慮下半身動作之間過渡的自然性即可，同樣經(jīng)過圖優(yōu)化得到一個下半身動作序列。

最后，采用混合的方式融合上下半身動作，就得到了和語音文本匹配的全身動作序列。

與其他參賽系統(tǒng)相比，網(wǎng)易的新方法在在人類相似性評估中取得了最高的中位數(shù)分數(shù)，甚至超越了真實人類水平。

在適當(dāng)性評價中，該方法在上半身表現(xiàn)中排名第一，在全身表現(xiàn)中排名第二。

游戲 NPC 不再是站樁工具人，AI 憑對話內(nèi)容生成 3D 動作，真實度超越人類

研究團隊

研究團隊來自網(wǎng)易互娛 AI Lab，作者共三人。

游戲 NPC 不再是站樁工具人，AI 憑對話內(nèi)容生成 3D 動作，真實度超越人類

研究人員指出，這項新技術(shù)不僅可用于游戲中，虛擬角色線上演講、數(shù)字人動作動畫合成、元宇宙形象等等場景也都能使用。

論文鏈接附在文末，感興趣的小伙伴可以自取～

論文鏈接：

https://dl.acm.org/doi/pdf/10.1145/3536221.3558063

本文來自微信公眾號：量子位（ID：QbitAI），作者：羿閣

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

游戲 NPC 不再是站樁工具人，AI 憑對話內(nèi)容生成 3D 動作，真實度超越人類

效果超越真人的新技術(shù)

數(shù)據(jù)庫構(gòu)建

語音驅(qū)動動作合成

研究團隊

相關(guān)文章

游戲 NPC 不再是站樁工具人，AI 憑對話內(nèi)容生成 3D 動作，真實度超越人類