理想汽車啟動端到端 + 視覺語言模型早鳥計(jì)劃：車輛將具備“思考能力”

2024/7/5 21:41:22 來源：IT之家作者：清源責(zé)編：清源

評論：

IT之家 7 月 5 日消息，在今晚的理想智能駕駛夏季發(fā)布會期間，理想汽車宣布，端到端 + 視覺語言模型早鳥計(jì)劃正式啟動，號稱可讓車更智能、更像人。

IT之家匯總主要信息如下：

理想汽車稱端到端模型的優(yōu)勢在于“高效傳遞”和“高效計(jì)算”兩方面：端到端是一體化的模型，信息都在模型內(nèi)部傳遞，具有更高上限，用戶所能感受到的整套系統(tǒng)的動作、決策都“更加擬人”；一體化模型可在 GPU 里一次完成推理，且端到端延遲更低，用戶可感知到“眼”“手”協(xié)調(diào)一致，車輛動作響應(yīng)及時(shí)。

一體化模型可實(shí)現(xiàn)端到端的可訓(xùn)，完全數(shù)據(jù)驅(qū)動。官方表示，對于用戶來說最大的感受就是 OTA 的速度越來越快。

理想汽車啟動端到端 + 視覺語言模型早鳥計(jì)劃：車輛將具備“思考能力”

視覺語言模型方面，其整體算法架構(gòu)由統(tǒng)一的 Transformer 模型組成，將 Prompt（提示詞）文本進(jìn)行 Tokenizer（分詞器）編碼，然后將前視 120 度和 30 度相機(jī)的圖像以及導(dǎo)航地圖信息進(jìn)行視覺信息編碼，通過圖文對齊模塊進(jìn)行模態(tài)對齊，統(tǒng)一交給 VLM 模型進(jìn)行自回歸推理；VLM 輸出的信息包括對環(huán)境的理解、駕駛決策和駕駛軌跡，并傳遞給系統(tǒng) 1 控制車輛。

官方表示，該系統(tǒng)整體設(shè)計(jì)存在三個(gè)亮點(diǎn)：設(shè)計(jì)了流式視頻編碼器，能緩存更長時(shí)序視覺信息；增加了記憶模塊，緩存了多幀歷史信息，可解決超長上下文推理時(shí)延問題；設(shè)計(jì)了智能駕駛 Prompt 問題庫，系統(tǒng) 2 可以“思考”當(dāng)前駕駛環(huán)境并給系統(tǒng) 1 合理駕駛建議，系統(tǒng) 1 也可在不同場景下調(diào)用不同 Prompt 問題，主動向系統(tǒng) 2 進(jìn)行“求助”。

理想汽車啟動端到端 + 視覺語言模型早鳥計(jì)劃：車輛將具備“思考能力”

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

理想汽車啟動端到端 + 視覺語言模型早鳥計(jì)劃：車輛將具備“思考能力”

相關(guān)文章