英特爾用“光”,突破了大模型時代棘手的算力難題 —— 推出業(yè)界首款全集成 OCI(光學計算互連)芯片。
△ 圖源:英特爾
要知道,在 AI 大模型遵循 Scaling Law 發(fā)展的當下,為了取得更好的效果,要么模型規(guī)模、要么數(shù)據(jù)規(guī)模,都在往更大的趨勢發(fā)展。
這就會導致 AI 大模型在算力層面上,對整個計算、存儲,包括中間 I / O 通信等提出更高的要求。
而英特爾此次的突破口,正是 I / O 通信:
在 CPU 和 GPU 中,用光學 I / O 取代電氣 I / O 進行數(shù)據(jù)傳輸。
有什么用?
一言蔽之,數(shù)據(jù)傳輸距離遠多了,量大了,功耗低了 —— 更適合 AI 大模型的“體質(zhì)”了。
△ 圖源:英特爾
那么英特爾為什么要用到“光”?具體又是如何實現(xiàn)的?
用上了“光”,從馬車變卡車
傳統(tǒng)采用電氣 I / O 的方式(銅線連接)固然有它的優(yōu)勢,例如支持高帶寬密度和低功耗,但致命的問題就是傳輸距離比較短(不到 1 米)。
這要放在一個機架里倒也是沒有問題,但 AI 大模型在算力上往往標配都是服務器集群這個量級。
不僅占地面積大,還跨 N 多個機架,線都是需要幾十米甚至上百米的長度,功耗那是相當?shù)母?;它會吃掉所有供給機架的電源,以至于沒有足夠的電去做計算和存儲芯片的讀寫操作。
除此之外,存算比方面,也正是因為大模型“大”的特點,由原來讀取一次做上百次計算的比例,到現(xiàn)在直接變成了接近 1:1。
這就需要一種新的辦法,可以在提高算力和存儲密度的同時降低功耗、縮小體積,從而在一個有限的空間里,放進更多的計算和存儲。
而用上了光學 I / O,問題便迎刃而解了:
可在最長 100 米的光纖上,單向支持 64 個 32Gbps 通道。
一個形象的比喻就是,就好比從使用馬車(容量和距離有限)到使用小汽車和卡車來配送貨物(數(shù)量更大、距離更遠)。
不僅如此,即使是在相對較近的距離去完成一些更高密度、更靈活的數(shù)據(jù)傳輸工作,OCI 這種方式則可以類比成摩托車,速度更快且更靈活。
值得一提的是,這種 OCI 的方法不是停留在理論的那種。
據(jù)英特爾介紹,他們已經(jīng)利用了實際驗證的硅光子技術,集成了包含片上激光器的硅光子集成電路(PIC)、光放大器和電子集成電路。
并且在此前也展示了與自家 CPU 封裝在一起的 OCI 芯粒,還能與下一代 CPU、GPU、IPU 等 SOC(系統(tǒng)級芯片)集成。
還沒完,英特爾也已經(jīng)出貨了超過 800 萬個硅光子集成電路,其中超過 3200 萬個現(xiàn)已投入使用的激光器。
△ 圖源:英特爾
那么接下來的一個問題是:
英特爾的 OCI 是如何“煉”成的?
英特爾研究院副總裁、英特爾中國研究院院長宋繼強的交流過程中,他對這個問題做了深入的剖析和解讀。
△ 英特爾研究院副總裁、英特爾中國研究院院長,宋繼強
硅光子技術集合了 20 世紀兩項最重要的發(fā)明:硅集成電路和半導體激光。
與傳統(tǒng)電子產(chǎn)品相比,它支持在較遠的距離內(nèi)更快的數(shù)據(jù)傳輸速度,同時利用英特爾高容量硅產(chǎn)品制造的效率。
英特爾這一次發(fā)布的硅光集成技術,OCI 芯粒達到了光電共封裝的層面。
這個光電共封裝是把一個硅光子集成電路(PIC),和一個電子集成電路(EIC),放在一個基板上組成了一個 OCI 芯粒,作為一個集成性連接的部件。
這就意味著 xPU,包括 CPU,未來的 GPU 都可以和 OCI 芯片封裝在一起。
OCI 芯粒就是把數(shù)據(jù)中心 CPU 出來的所有的電氣 I / O 信號轉(zhuǎn)成了光,通過光纖,在兩個數(shù)據(jù)中心的節(jié)點或者是系統(tǒng)里面去互相傳輸。
目前的雙向數(shù)據(jù)傳輸速度達到了 4Tbps,它在上層的傳輸協(xié)議兼容到 PCIe 5.0,單向支持 64 個 32Gbps 通道,這在目前的數(shù)據(jù)中心當中是足夠用的:
它采用 8 對光纖,功耗僅為每比特 5 皮焦耳(pJ),即 10-12 焦耳,這個數(shù)據(jù)比可插拔光收發(fā)器模塊的功耗降了 3 倍(后者是每比特 15 皮焦耳)。
△ 圖源:英特爾
在一個光傳輸?shù)耐ǖ览?,它實際上有 8 個不同的波段,每個波段的頻率間隔是 200GHz,一共占用了 1.6THz 光譜的間距用來傳輸。
光從可見光到不可見光,實際上它的頻譜寬度是很寬的,從 THz 開始就算是接近光通訊了。
那么 OCI 芯粒未來會用在哪些領域呢?
對此,宋繼強表示:
一個是可以用它來實現(xiàn)通信,還可以把它跟 CPU、GPU 這些計算芯片封裝在一起,計算加通信非常緊密地封裝在一起。
我們通過硅光集成和先進封裝技術,先進封裝英特爾也有非常多不同的技術,就可以實現(xiàn)更高密度的 I / O 芯粒,然后再和其它的 xPU 結合,未來基于芯粒,形成很多不同種類的計算加互連的芯片種類,會有非常好的應用前景。
就 OCI I / O 接口芯粒的性能演進路線圖來看,它目前可以達到 32Tbps 傳輸速度的技術方案,主要靠迭代式的穩(wěn)步提升三個方面的指標,分別是:
一根光纖里有 8 段穩(wěn)定的波段
每一個波段的光數(shù)據(jù)傳輸率為 32Gbps
可同時拉 8 對光纖且互不影響
這三個指標乘起來,就是目前單向上有 2Tbps 的數(shù)據(jù)傳輸速度,雙向即是 4Tbps。未來可以繼續(xù)向上演進,逐步提升帶寬能力。
△ 圖源:英特爾
最后,英特爾在硅光集成技術的差異化方面,宋繼強也做出了解釋:
主要是我們把高頻率的激光發(fā)射器做在了晶圓上,又把硅的光放大器也集成上去,這是兩個比較核心的技術,都是在晶圓級去制造出來的。
接下來,我們可以量產(chǎn)這樣的高集成度激光器,因為這種在片上的激光器的好處是用普通的光纖就可以去傳輸了。
并且在穩(wěn)定性方面,幾乎是 100 億小時才有可能發(fā)生一次錯誤。
那么你覺得英特爾 pick 的“光”如何呢?歡迎在評論區(qū)留言討論。
參考鏈接:
[1]https://mp.weixin.qq.com/s/ozx_ficqlxjEPKa5AlBdfA
[2]https://community.intel.com/t5/Blogs/Tech-Innovation/Artificial-Intelligence-AI/Intel-Shows-OCI-Optical-I-O-Chiplet-Co-packaged-with-CPU-at/post/1582541
[3]https://www.youtube.com/watch?v=Fml3yuPR2AU
本文來自微信公眾號:量子位(ID:QbitAI),作者:金磊
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。