IT之家 12 月 4 日消息,亞馬遜 AWS 今日宣布,基于其內(nèi)部團(tuán)隊(duì)所開(kāi)發(fā) AI 訓(xùn)練芯片 Trainium2 的 Trn2 實(shí)例廣泛可用,并推出了 Trn2 UltraServer 大型 AI 訓(xùn)練系統(tǒng),同時(shí)還發(fā)布了下代更先進(jìn)的 3nm 制程 Trainium3 芯片。
單個(gè) Trn2 實(shí)例包含 16 顆 Trainium2 芯片,各芯片間采用超高速高帶寬低延遲 NeuronLink 互聯(lián),可提供 20.8 petaflops 的峰值算力,適合數(shù) B 參數(shù)大小模型的訓(xùn)練和部署。
亞馬遜宣稱(chēng) Trn2 實(shí)例與當(dāng)前一代基于 GPU 的 EC2 P5e 和 P5en 實(shí)例相比性?xún)r(jià)比提高了 30-40%。
而更大規(guī)模的 Trn2 UltraServer 則用 NeuronLink 聚合了 4 臺(tái) Trn2 服務(wù)器,總共包含 64 顆 Trainium2 芯片,算力峰值進(jìn)一步線性擴(kuò)展到 83.2 petaflops,能滿(mǎn)足目前世界上最大規(guī)模模型的訓(xùn)練和部署需求。
亞馬遜還正與其投資的 AI 模型企業(yè) Anthropic 合作,共同構(gòu)建一個(gè)名為 Project Rainier 的 EC2 UltraCluster 巨型計(jì)算集群,該集群包含大量 Trn2 UltraServer,總共擁有數(shù)十萬(wàn)顆 Trainium2 芯片。
IT之家獲悉,該集群完成后有望成為迄今為止公開(kāi)的最大 AI 計(jì)算集群,整體算力達(dá) Anthropic 目前用于訓(xùn)練最先進(jìn) Claude 模型所需量的 5 倍以上。
亞馬遜 AWS 還公布了下代 Trainium3 AI 訓(xùn)練芯片,這也是 AWS 首款采用 3nm 制程的芯片產(chǎn)品。亞馬遜表示基于 Trainium3 的 UltraServer 性能可達(dá) Trn2 UltraServer 的 4 倍,而首批基于 Trainium3 的實(shí)例預(yù)計(jì)將于 2025 年底推出。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。