Cerebras 推出全球最快 AI 推理解決方案，速度是英偉達方案的 20 倍

2024/8/28 9:51:23 來源：IT之家作者：遠洋責編：遠洋

評論：

IT之家 8 月 28 日消息，Cerebras Systems 今日宣布推出 Cerebras Inference，官方稱這是全球最快的 AI 推理解決方案。該新解決方案為 Llama 3.1 8B 提供每秒 1800 個 token，為 Llama 3.1 70B 提供每秒 450 個 token，速度是微軟 Azure 等超大規(guī)模云中提供的基于英偉達 GPU 的 AI 推理解決方案的 20 倍。

除了令人難以置信的性能之外，這款新型推理解決方案的定價也比流行的 GPU 云低得多，起價僅為每百萬個 token 10 美分，從而為 AI 工作負載提供 100 倍更高的性價比。

該方案將允許 AI 應用程序開發(fā)人員構建下一代 AI 應用程序，而不會影響速度或成本。該方案使用了 Cerebras CS-3 系統(tǒng)及其 Wafer Scale Engine 3（WSE-3）AI 處理器，其中 CS-3 的內存帶寬是 Nvidia H100 的 7000 倍，解決了生成式 AI 的內存帶寬技術挑戰(zhàn)。

Cerebras 推出全球最快 AI 推理解決方案，速度是英偉達方案的 20 倍

據(jù)IT之家了解，Cerebras Inference 提供以下三個層級：

免費層為登錄的任何人提供免費的 API 訪問和慷慨的使用限制。
開發(fā)者層專為靈活的無服務器部署而設計，為用戶提供一個 API 端點，其成本只是市場上替代方案的一小部分，Llama 3.1 8B 和 70B 模型的定價分別為每百萬 token 10 美分和 60 美分。
企業(yè)層提供微調模型、定制服務級別協(xié)議和專門支持。企業(yè)可以通過 Cerebras 管理的私有云或客戶場所訪問 Cerebras Inference，非常適合持續(xù)的工作負載。

Cerebras 團隊稱：“憑借創(chuàng)紀錄的性能、業(yè)界領先的定價和開放的 API 訪問，Cerebras Inference 為開放的 LLM 開發(fā)和部署設定了新標準。作為唯一能夠同時提供高速訓練和推理的解決方案，Cerebras 為 AI 開辟了全新的可能性?！?/p>

AI 領域正在迅速發(fā)展，雖然英偉達目前在 AI 市場占據(jù)主導地位，但 Cerebras 和 Groq 等公司的出現(xiàn)預示著行業(yè)動態(tài)可能發(fā)生變化。隨著對更快、更具成本效益的 AI 推理解決方案需求的不斷增加，這些挑戰(zhàn)者在顛覆英偉達的霸主地位，尤其是在推理領域方面。

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：Cerebras Inference，Cerebras，人工智能

Cerebras 推出全球最快 AI 推理解決方案，速度是英偉達方案的 20 倍

相關文章

Cerebras 推出全球最快 AI 推理解決方案，速度是英偉達方案的 20 倍