一圖勝千言,再也不怕視頻會(huì)議說(shuō)不明白了!
最近幾年,「視頻會(huì)議」在工作中的占比逐漸增加,廠商也開(kāi)發(fā)了各種諸如實(shí)時(shí)字幕等技術(shù)以方便會(huì)議中不同語(yǔ)言的人之間交流。
但還有一個(gè)痛點(diǎn),要是對(duì)話中提到了一些對(duì)方很陌生的名詞,并且很難用語(yǔ)言描述出來(lái),比如食物「壽喜燒」,或是說(shuō)「上周去了某個(gè)公園度假」,很難用語(yǔ)言給對(duì)方描述出的美景;甚至是指出「東京位于日本關(guān)東地區(qū)」,需要一張地圖來(lái)展示等,如果只用語(yǔ)言可能會(huì)讓對(duì)方越來(lái)越迷茫。
最近,谷歌在人機(jī)交互頂級(jí)會(huì)議 ACM CHI(Conference on Human Factors in Computing Systems)上展示了一個(gè)系統(tǒng) Visual Captions,介紹了遠(yuǎn)程會(huì)議中的一個(gè)全新視覺(jué)解決方案,可以在對(duì)話背景中生成或檢索圖片以提高對(duì)方對(duì)復(fù)雜或陌生概念的了解。
論文鏈接:https://research.google/ pubs / pub52074/
代碼鏈接:https://github.com/ google / archat
Visual Captions 系統(tǒng)基于一個(gè)微調(diào)后的大型語(yǔ)言模型,可以在開(kāi)放詞匯的對(duì)話中主動(dòng)推薦相關(guān)的視覺(jué)元素,并已融入開(kāi)源項(xiàng)目 ARChat 中。
在用戶調(diào)研中,研究人員邀請(qǐng)了實(shí)驗(yàn)室內(nèi)的 26 位參與者,與實(shí)驗(yàn)室外的 10 位參與者對(duì)系統(tǒng)進(jìn)行評(píng)估,超過(guò) 80% 的用戶基本都認(rèn)同 Video Captions 可以在各種場(chǎng)景下能提供有用、有意義的視覺(jué)推薦,并可以提升交流體驗(yàn)。
設(shè)計(jì)思路
在開(kāi)發(fā)之前,研究人員首先邀請(qǐng)了 10 位內(nèi)部參與者,包括軟件工程師、研究人員、UX 設(shè)計(jì)師、視覺(jué)藝術(shù)家、學(xué)生等技術(shù)與非技術(shù)背景的從業(yè)者,討論對(duì)實(shí)時(shí)視覺(jué)增強(qiáng)服務(wù)的特定需求和期望。
兩次會(huì)議后,根據(jù)現(xiàn)有的文本轉(zhuǎn)圖像系統(tǒng),確立了預(yù)期原型系統(tǒng)的基本設(shè)計(jì),主要包括八個(gè)維度(記為 D1 至 D8)。
D1:時(shí)序,視覺(jué)增強(qiáng)系統(tǒng)可與對(duì)話同步或異步展現(xiàn)
D2:主題,可用于表達(dá)和理解語(yǔ)音內(nèi)容
D3:視覺(jué),可使用廣泛的視覺(jué)內(nèi)容、視覺(jué)類型和視覺(jué)源
D4:規(guī)模,根據(jù)會(huì)議規(guī)模的不同,視覺(jué)增強(qiáng)效果可能有所不同
D5:空間,視頻會(huì)議是在同一地點(diǎn)還是在遠(yuǎn)程設(shè)置中
D6:隱私,這些因素還影響視覺(jué)效果是否應(yīng)該私下顯示、在參與者之間共享或向所有人公開(kāi)
D7:初始狀態(tài),參與者還確定了他們希望在進(jìn)行對(duì)話時(shí)與系統(tǒng)交互的不同方式,例如,不同級(jí)別的「主動(dòng)性」,即用戶可以自主確定系統(tǒng)何時(shí)介入聊天 D8:交互,參與者設(shè)想了不同的交互方法,例如,使用語(yǔ)音或手勢(shì)進(jìn)行輸入
根據(jù)初步反饋,研究人員設(shè)計(jì)了 Video Caption 系統(tǒng),專注于生成語(yǔ)義相關(guān)的視覺(jué)內(nèi)容、類型和來(lái)源的同步視覺(jué)效果。
雖然在探索性會(huì)議中的想法大多關(guān)注于一對(duì)一遠(yuǎn)程對(duì)話的形式,Video Caption 同樣也可以用于一對(duì)多的(例如,向觀眾進(jìn)行演示)和多對(duì)多場(chǎng)景(多人會(huì)議討論)的部署。
除此之外,最能補(bǔ)充對(duì)話的視覺(jué)效果在很大程度上取決于討論的上下文,所以需要一個(gè)專門制作的訓(xùn)練集。
研究人員收集了 1595 個(gè)四元組,包括語(yǔ)言、視覺(jué)內(nèi)容、類型、來(lái)源,涵蓋了各種上下文場(chǎng)景,包括日常對(duì)話、講座、旅行指南等。
比如用戶說(shuō)「我很想看看!」(I would love to see it!)對(duì)應(yīng)于「面部微笑」(face smiling)的視覺(jué)內(nèi)容、「表情符號(hào)」(emoji)的視覺(jué)類型和「公共搜索」(public search)的視覺(jué)源。
「她有沒(méi)有告訴你我們?nèi)ツ鞲绲氖拢俊箤?duì)應(yīng)于「來(lái)自墨西哥之旅的照片」的視覺(jué)內(nèi)容、「照片」的視覺(jué)類型以及「?jìng)€(gè)人相冊(cè)」的視覺(jué)源。
該數(shù)據(jù)集 VC 1.5K 目前已開(kāi)源。
視覺(jué)意圖預(yù)測(cè)模型
為了預(yù)測(cè)哪些視覺(jué)效果可以補(bǔ)充對(duì)話,研究人員使用 VC1.5K 數(shù)據(jù)集基于大型語(yǔ)言模型訓(xùn)練了一個(gè)視覺(jué)意圖預(yù)測(cè)模型。
在訓(xùn)練階段,每個(gè)視覺(jué)意圖解析為「 <Visual Type> of <Visual Content> from <Visual Source> 」的格式。
基于該格式,系統(tǒng)可以處理開(kāi)放詞匯會(huì)話和上下文預(yù)測(cè)視覺(jué)內(nèi)容、視覺(jué)源和視覺(jué)類型。
這種方法在實(shí)踐中也優(yōu)于基于關(guān)鍵詞的方法,因?yàn)楹笳邿o(wú)法處理開(kāi)放式詞匯的例子,比如用戶可能會(huì)說(shuō)「你的艾米阿姨將在這個(gè)星期六來(lái)訪」,沒(méi)有匹配到關(guān)鍵詞,也就無(wú)法推薦相關(guān)的視覺(jué)類型或視覺(jué)來(lái)源。
研究人員使用 VC1.5K 數(shù)據(jù)集中的 1276 個(gè)(80%)樣本來(lái)微調(diào)大型語(yǔ)言模型,其余 319 個(gè)(20%)示例作為測(cè)試數(shù)據(jù),并使用 token 準(zhǔn)確率指標(biāo)來(lái)度量微調(diào)模型的性能,即模型正確預(yù)測(cè)的樣本中 token 正確的百分比。
最終模型可以實(shí)現(xiàn) 97% 的訓(xùn)練 token 準(zhǔn)確率和 87% 的驗(yàn)證 token 準(zhǔn)確率。
實(shí)用性調(diào)研
為了評(píng)估訓(xùn)練的視覺(jué)字幕模型的實(shí)用性,研究團(tuán)隊(duì)邀請(qǐng)了 89 名參與者執(zhí)行 846 項(xiàng)任務(wù),要求對(duì)效果進(jìn)行打分,1 為非常不同意(strongly disagree)、7 為非常同意(strongly agree)。
實(shí)驗(yàn)結(jié)果顯示,大多數(shù)參與者更喜歡在對(duì)話中看到視覺(jué)效果(Q1),83% 給出了 5-有些同意(somewhat agree)以上的評(píng)價(jià)。
此外,參與者認(rèn)為顯示的視覺(jué)效果是有用的且信息豐富的(Q2),82% 給出了高于 5 分的評(píng)價(jià);高質(zhì)量的(Q3),82% 給出了高于 5 分的評(píng)價(jià);并與原始語(yǔ)音相關(guān)(Q4,84%)。
參與者還發(fā)現(xiàn)預(yù)測(cè)的視覺(jué)類型(Q5,87%)和視覺(jué)來(lái)源(Q6,86%)在相應(yīng)對(duì)話的背景下是準(zhǔn)確的。
基于該微調(diào)的視覺(jué)意圖預(yù)測(cè)模型,研究人員在 ARChat 平臺(tái)上開(kāi)發(fā)了 Visual Captions,可以直接在視頻會(huì)議平臺(tái)(如 Google Meet)的攝像頭流上添加新的交互式小部件。
在系統(tǒng)工作流程中,Video Captions 可以自動(dòng)捕獲用戶的語(yǔ)音、檢索最后的句子、每隔 100 毫秒將數(shù)據(jù)輸入到視覺(jué)意圖預(yù)測(cè)模型中、檢索相關(guān)視覺(jué)效果,然后提供推薦的視覺(jué)效果。
Visual Captions 在推薦視覺(jué)效果時(shí)提供三個(gè)級(jí)別的可選主動(dòng)性:
自動(dòng)顯示(高主動(dòng)性):系統(tǒng)自主搜索并向所有會(huì)議參與者公開(kāi)顯示視覺(jué)效果,無(wú)需用戶交互。
自動(dòng)推薦(中等主動(dòng)性):推薦的視覺(jué)效果顯示在私人滾動(dòng)視圖中,然后用戶點(diǎn)擊一個(gè)視覺(jué)對(duì)象可以進(jìn)行公開(kāi)展示;在這種模式下,系統(tǒng)會(huì)主動(dòng)推薦視覺(jué)效果,但用戶決定何時(shí)顯示以及顯示什么。
按需建議(低主動(dòng)性):用戶按下空格鍵后,系統(tǒng)才會(huì)推薦視覺(jué)效果。
研究人員在對(duì)照實(shí)驗(yàn)室研究(n = 26)和測(cè)試階段部署研究(n = 10)中評(píng)估了 Visual Captions 系統(tǒng),參與者發(fā)現(xiàn),實(shí)時(shí)視覺(jué)效果有助于解釋不熟悉的概念、解決語(yǔ)言歧義,并使對(duì)話更具吸引力,從而促進(jìn)了現(xiàn)場(chǎng)對(duì)話。
與會(huì)者還報(bào)告了在現(xiàn)場(chǎng)進(jìn)行交互中的不同的系統(tǒng)偏好,即在不同的會(huì)議場(chǎng)景中使用不同程度的 VC 主動(dòng)性
參考資料:
https://ai.googleblog.com/2023/06/visual-captions-using-large-language.html
本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。