微軟探索音生圖 AI 模型，實(shí)時(shí)視覺化會(huì)議演講者語音講述的場景

2024/10/15 11:57:27 來源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

IT之家 10 月 15 日消息，科技媒體 MSPoweruser 昨日（10 月 14 日）發(fā)布博文，報(bào)道稱微軟公司獲得了一項(xiàng)新的專利，描述了基于用戶實(shí)時(shí)輸入的語音來生成圖片。

根據(jù)美國商標(biāo)和專利局最新公示的清單，該專利共計(jì) 20 頁，微軟于 2023 年 4 月 5 日提交申請(qǐng)，于 10 月 10 日獲批。

根據(jù)專利描述，該系統(tǒng)可以在會(huì)議或講座中實(shí)時(shí)捕捉音頻，隨后通過語言模型進(jìn)行總結(jié)，并生成相應(yīng)的 AI 圖像。

微軟探索音生圖 AI 模型，實(shí)時(shí)視覺化會(huì)議演講者語音講述的場景

IT之家援引該媒體報(bào)道，該工作會(huì)分為 3 個(gè)步驟：

預(yù)計(jì)該功能將主要應(yīng)用于 Microsoft Teams。隨著演講者話題的變化，實(shí)時(shí)生成的圖像也會(huì)隨之更新，從而增強(qiáng)視覺溝通的效果。微軟表示，這種圖像的使用有助于澄清概念，特別適合通過視覺輔助學(xué)習(xí)的用戶。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

微軟探索音生圖 AI 模型，實(shí)時(shí)視覺化會(huì)議演講者語音講述的場景