設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色
雷军回武汉大学发了 100 万奖学金    DeepSeek V3“小版本升级”

谷歌發(fā)布多模態(tài)直播 API:解鎖看、聽、說,開啟 AI 音視頻交互新體驗

2024/12/13 8:44:18 來源:IT之家 作者:故淵 責(zé)編:故淵
感謝IT之家網(wǎng)友 咩咩洋 的線索投遞!

IT之家 12 月 13 日消息,谷歌昨日在發(fā)布 Gemini 2.0 的同時,還發(fā)布了全新的多模態(tài)直播(Multimodal Live)API,幫助開發(fā)人員開發(fā)具有實時音頻和視頻流功能的應(yīng)用程序。

該 API 實現(xiàn)了低延遲、雙向的文本、音頻和視頻交互,以音頻和文本形式輸出,帶來更自然流暢、如同人類對話般的交互體驗。用戶可以隨時打斷模型,并通過共享攝像頭輸入或屏幕錄像與其進行互動,就內(nèi)容提問。

該模型的視頻理解功能擴展了通信模式,用戶能夠使用攝像頭實時拍攝或共享桌面并提出相關(guān)問題。該 API 已經(jīng)向開發(fā)者開放,同時也向用戶提供了一個多模態(tài)實時助手的演示應(yīng)用。IT之家附上演示如下:

該 API 支持集成多種工具,開發(fā)者只需一次 API 調(diào)用,即可完成復(fù)雜的用例。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:谷歌AI
  • 日榜
  • 周榜
  • 月榜

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知