IT之家 7 月 5 日消息,在今晚的理想智能駕駛夏季發(fā)布會期間,理想汽車宣布,端到端 + 視覺語言模型早鳥計(jì)劃正式啟動,號稱可讓車更智能、更像人。
IT之家匯總主要信息如下:
理想汽車稱端到端模型的優(yōu)勢在于“高效傳遞”和“高效計(jì)算”兩方面:端到端是一體化的模型,信息都在模型內(nèi)部傳遞,具有更高上限,用戶所能感受到的整套系統(tǒng)的動作、決策都“更加擬人”;一體化模型可在 GPU 里一次完成推理,且端到端延遲更低,用戶可感知到“眼”“手”協(xié)調(diào)一致,車輛動作響應(yīng)及時(shí)。
一體化模型可實(shí)現(xiàn)端到端的可訓(xùn),完全數(shù)據(jù)驅(qū)動。官方表示,對于用戶來說最大的感受就是 OTA 的速度越來越快。
視覺語言模型方面,其整體算法架構(gòu)由統(tǒng)一的 Transformer 模型組成,將 Prompt(提示詞)文本進(jìn)行 Tokenizer(分詞器)編碼,然后將前視 120 度和 30 度相機(jī)的圖像以及導(dǎo)航地圖信息進(jìn)行視覺信息編碼,通過圖文對齊模塊進(jìn)行模態(tài)對齊,統(tǒng)一交給 VLM 模型進(jìn)行自回歸推理;VLM 輸出的信息包括對環(huán)境的理解、駕駛決策和駕駛軌跡,并傳遞給系統(tǒng) 1 控制車輛。
官方表示,該系統(tǒng)整體設(shè)計(jì)存在三個(gè)亮點(diǎn):設(shè)計(jì)了流式視頻編碼器,能緩存更長時(shí)序視覺信息;增加了記憶模塊,緩存了多幀歷史信息,可解決超長上下文推理時(shí)延問題;設(shè)計(jì)了智能駕駛 Prompt 問題庫,系統(tǒng) 2 可以“思考”當(dāng)前駕駛環(huán)境并給系統(tǒng) 1 合理駕駛建議,系統(tǒng) 1 也可在不同場景下調(diào)用不同 Prompt 問題,主動向系統(tǒng) 2 進(jìn)行“求助”。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。