3 月 30 日,英特爾正式發(fā)布英特爾銳炫 ARC 移動(dòng)端獨(dú)立顯卡,代號(hào) Alchemist(煉金術(shù)士),英特爾首次面向消費(fèi)端獨(dú)顯產(chǎn)品推出已經(jīng)過了 24 年,在那之后英特爾獨(dú)顯產(chǎn)品開發(fā)就陷入了停滯轉(zhuǎn)而專注核顯開發(fā)。
在經(jīng)過多年的技術(shù)積累,英特爾此前面向服務(wù)器市場(chǎng)推出了 DG1 顯卡,今年正式面向消費(fèi)端推出英特爾銳炫 ARC 獨(dú)顯產(chǎn)品,首批針對(duì)移動(dòng)端推出的 A 系列產(chǎn)品包含銳炫 3/5/7 三個(gè)型號(hào)。
其中英特爾銳炫 3 主要面向主流游戲市場(chǎng),銳炫 5 主要面向性能游戲市場(chǎng),銳炫 7 主要面向發(fā)燒級(jí)硬核游戲。此次英特爾推出了移動(dòng)端 A 系列的 A350M 和 A370 M 產(chǎn)品。全新英特爾銳炫顯卡支持 XeSS 超采樣、完整的 AV1 硬件加速、Smooth Sync 抖動(dòng)過濾、Deep Link 技術(shù),全方位覆蓋游戲、創(chuàng)意設(shè)計(jì)、功耗控制等場(chǎng)景。
首款搭載英特爾銳炫 ARC 獨(dú)顯的是三星 Galaxy Book2 Pro 輕薄本產(chǎn)品,這款產(chǎn)品獲得英特爾 Evo 嚴(yán)苛認(rèn)證,目前已經(jīng)在海外市場(chǎng)正式上市。
未來借助英特爾在處理器市場(chǎng)上的份額優(yōu)勢(shì),將會(huì)有大量搭載英特爾銳炫 ARC 獨(dú)顯筆記本產(chǎn)品上市。通過英特爾 Evo 認(rèn)證的產(chǎn)品在續(xù)航和顯示能力上也將得到進(jìn)一步提升。
目前宏碁、華碩、戴爾、海爾、惠普、聯(lián)想、微星、三星、英特爾 NUC 等品牌或者產(chǎn)品已經(jīng)有推出銳炫獨(dú)顯筆記本的打算,通過銳炫獨(dú)顯,英特爾未來也可以整合自家產(chǎn)品,推出第一方英特爾筆記本。
配套的英特爾銳炫控制面板也隨著英特爾銳炫獨(dú)顯產(chǎn)品的上市同步推出,這一控制面板集合了驅(qū)動(dòng)自動(dòng)更新、性能監(jiān)控、性能調(diào)優(yōu)、直播管理、游戲高光時(shí)刻生成、活動(dòng)推廣等功能,并且無需強(qiáng)制登錄就可使用。
接下來了,我們通過詳細(xì)的解析了解一下全新的英特爾銳炫 ARC 獨(dú)立顯卡的底層架構(gòu)和技術(shù)亮點(diǎn)。
底層架構(gòu)
英特爾銳炫 ARC 獨(dú)顯產(chǎn)品基于英特爾 Xe HPG 架構(gòu)開發(fā),核心采用內(nèi)置 XMX 的 Xe 內(nèi)核,包含 Xe 媒體引擎、Xe 顯示引擎以及 Xe 圖形管線三大核心功能。
通過 Xe HPG 微架構(gòu),英特爾銳炫顯卡在開發(fā)過程中有很大的靈活性,渲染切片是 Xe HPG 微架構(gòu)的基本模塊,每個(gè) Xe HPG 渲染切片包含 4 個(gè) Xe 內(nèi)核、4 個(gè)光追單元、4 個(gè)采樣器、幾何引擎、光柵引擎、HiZ 引擎以及 2 個(gè)像素后端構(gòu)成。
每個(gè) Xe 內(nèi)核中包含 XMX 矩陣引擎、XVE 適量引擎、光追單元、采樣器等,這些構(gòu)成了一個(gè)完整的 Xe 內(nèi)核,也是 Xe HPG 微架構(gòu)的基本運(yùn)算單元,這與以往的執(zhí)行單元 EU 概念有所不同,通過 4 個(gè) Xe 內(nèi)核構(gòu)成的渲染切片,以不同組合方式就構(gòu)成不同的 SoC 以此形成不同的產(chǎn)品形態(tài)。
英特爾銳炫顯卡通過疊加渲染切片方式構(gòu)成不同的產(chǎn)品線,最小為 2 個(gè),最大為 8 個(gè),通過不同形式的組合構(gòu)成了各種各樣的產(chǎn)品。針對(duì)光追和 DX12 Ultimate,Xe HPG 微架構(gòu)也有很好的支持。
回到 Xe 內(nèi)核上,每個(gè) Xe 內(nèi)核提供 16 個(gè) 256 位的 XVE 矢量引擎、16 個(gè) 1024 位的 XMX 矩陣引擎,并配備 192KB 的共享一級(jí)緩存。XVE 適量引擎用于執(zhí)行傳統(tǒng)的圖像處理計(jì)算,XMX 矩陣引擎則主要用于 AI 加速。
其中 XVE 矢量引擎每個(gè)時(shí)鐘周期可以執(zhí)行 16 個(gè) FP32 操作、32 個(gè) FP16 操作以及 64 個(gè) INT8 操作,專用的 FP 浮點(diǎn)執(zhí)行接口和共享 INT / EM 執(zhí)行接口。XMX 矩陣引擎每個(gè)時(shí)鐘周期可以執(zhí)行 128 個(gè) FP16 / BF16 操作、256 個(gè) INT8 操作、512 個(gè) INT4 / INT2 操作。
XMX 算力提升相比于傳統(tǒng)的 MAC 或者進(jìn)階的 DP4a 是非常巨大的,我們知道 MAC 是圖形中使用的基本 SIMD 矢量指令,每個(gè)時(shí)鐘周期共執(zhí)行 8 次并行運(yùn)算乘法和 8 次并行加法。而 DP4a 則針對(duì)不需要 32 位精度的 AI 計(jì)算所做的優(yōu)化,每個(gè)時(shí)鐘周期共執(zhí)行 32 次并行乘法、32 次累加或每個(gè)周期總共 64 次 操作,這比標(biāo)準(zhǔn) SIMD MAC 提高了 4 倍的性能。
而 XMX 矩陣引擎通過將乘法累加 4 深度流水線化,將其提升到一個(gè)新的水平。與 DP4a 一樣,每個(gè)操作數(shù)都被分成 4 個(gè)塊,這些塊被獨(dú)立的相乘和累加 —— 每個(gè)階段 64 個(gè)操作(由紫色圖塊顯示)。通過 4 個(gè)階段,每個(gè)時(shí)鐘產(chǎn)生 256 次操作,這就比傳統(tǒng)的 32 位 SIMD MAC 增加了 16 倍的性能。
XMX 的提升最好的應(yīng)用就是 XeSS 超采樣抗鋸齒技術(shù),與傳統(tǒng)高分辨率渲染相比可以在游戲中提供更高的性能,通過神經(jīng)網(wǎng)絡(luò)輔助運(yùn)動(dòng)矢量,從低分辨率渲染中生成精美的高分辨率圖像,這有些類似英偉達(dá) DLSS。
目前 XeSS 超采樣抗鋸齒技術(shù)將在今年夏天正式到來,首批支持 XeSS 的游戲包括《古墓麗影:暗影》、《超級(jí)房車賽:傳奇》、《幽靈線:東京》、《死亡擱淺》、《血獵》、《CHORVS》、《Arcadegeddon》、《殺手 3》等 14 款游戲。
通過 Xe 媒體引擎,銳炫顯卡支持多種主流格式的編解碼器,包括 H.265 / HEVC、H.264 / MPEG-4 / AVC、VP9 以及 AV1。
英特爾是首個(gè)提供 AV1 的硬件編解碼加速支持 GPU 提供商,這些格式的編解碼可以以極低的處理器利用率完成。由于 AV1 出色的效率,未來 AV1 也將成為主流的視頻格式,它相比于 H.264 和 HEVC 效率更高,可以以更低的帶寬和更小的文件大小實(shí)現(xiàn)更好的畫面質(zhì)量,且 AV1 沒有授權(quán)使用費(fèi)。
英特爾銳炫顯卡對(duì) AV1 的硬編碼能力相比于傳統(tǒng)軟編碼在編碼速度上提高了 50 倍,目前 FFMPEG、Handbrake、Adobe Premiere Pro、 Davinci Resolve、XSplit 都已經(jīng)集成了銳炫 AV1 硬編碼的支持。
Xe 顯示引擎主要為當(dāng)前階段以及未來的顯示技術(shù)打造,現(xiàn)階段英特爾銳炫顯卡支持 HDMI 2.0b、DP 1.4a,DP 2.0 10G 也將支持。通過英特爾銳炫顯卡,玩家可以享受 2 臺(tái) 8K@60 HDR 或者 4 臺(tái) 4K@120 HDR 的最高畫面輸出。
在游戲場(chǎng)景中,英特爾提供多項(xiàng)同步技術(shù)幫助玩家有著更好的體驗(yàn),其中 VESA 標(biāo)準(zhǔn) Adaptive Sync 防撕裂技術(shù)英特爾銳炫顯卡提供支持。而 Speed Sync 這項(xiàng)新的技術(shù),可以為游戲當(dāng)前幀提供加速,Speed Sync 通過關(guān)閉 V-Sync 并渲染幀的整體來達(dá)到低延時(shí)無撕裂的效果。
Smooth Sync 是英特爾推出的另一項(xiàng)畫面優(yōu)化技術(shù),這項(xiàng)技術(shù)通過模糊兩個(gè)撕裂幀的邊界,來減少視覺失真以此讓畫面看起來更加連貫流暢。
性能表現(xiàn)
此次全新推出的英特爾銳炫獨(dú)顯產(chǎn)品共包含 2 種不同的 SoC 設(shè)計(jì),代號(hào)分別為 ACM-G10 和 ACM-G11,其中 ACM-G10 共包含 32 個(gè) Xe 內(nèi)核和光追單元,16MB 的 L2 緩存以及 256 位的 GDDR6 接口、16 路 PCIe 4.0 接口;ACM-G11 則包含 8 個(gè) Xe 內(nèi)核和光追單元,4MB 的 L2 緩存、96 位的 DDR6 接口、8 路 PCIe 接口。兩種芯片均包含 2 個(gè) Xe 多功能編解碼引擎和 4 個(gè)圖像輸出引擎。
有關(guān)頻率問題,我們知道不同的頻率要求電壓和功耗也不一樣,其實(shí)根據(jù)日常使用的場(chǎng)景,筆記本往往在不同負(fù)載場(chǎng)景下的頻率功耗呈現(xiàn)一個(gè)動(dòng)態(tài)分布狀態(tài)?;谶@種分布,英特爾銳炫顯卡在分配參數(shù)是,往往設(shè)定一個(gè)有代表性的負(fù)載,再根據(jù)這個(gè)負(fù)載的頻率、參數(shù)情況對(duì)顯卡的頻率進(jìn)行定義。不同的平臺(tái)有著不同的 TDP,在更寬松的 TDP 限制下,時(shí)鐘頻率的分布范圍也會(huì)整體提升。
因此,英特爾根據(jù)此劃分出首批 A 系列的 5 款顯卡產(chǎn)品,其中首發(fā)的銳炫 3 A370M 包含 8 個(gè) Xe 內(nèi)核和光追單元、主頻 1550MHz、8GB GDDR6 64 bit 顯存、TGP 在 35-50W 之間;銳炫 5 A550M 則包含 16 個(gè) Xe 內(nèi)核和光追單元、主頻 900MHz、8GB GDDR6 128 bit 顯存、TGP 在 60-80W 之間;銳炫 7 A770M 則包含 32 個(gè) Xe 內(nèi)核和光追單元、主頻 1650MHz、16GB GDDR6 256 bit 顯存、TGP 在 120-150W 之間。銳炫 3 產(chǎn)品已經(jīng)正式上市,銳炫 5/7 則將在今年夏天正式上市。
在游戲表現(xiàn)上,首批上市的銳炫 A370M 顯卡主要面向中高畫質(zhì)游戲,主打場(chǎng)景在 1080P 幀下的大型游戲。相比于 96EU 的 Xe 核顯在幀率上有著 60 幀以上的表現(xiàn)。
而在《堡壘之夜》、《GTA V》等需要高幀率的游戲場(chǎng)景下,銳炫 A370M 中高畫質(zhì)下幀率超過 90 幀,已經(jīng)達(dá)到一個(gè)流暢的水平。
創(chuàng)意生產(chǎn)場(chǎng)景下,和 12 代酷睿的集成顯卡相比,在搭載 A370M 獨(dú)立顯卡的平臺(tái)上,性能也有了顯著提升。在視頻編解碼方面,以 Davinci Resolve 為例,4K H.264 轉(zhuǎn) H.265 的性能可提升多達(dá) 60%。而在 AI 相關(guān)功能上,例如 Adobe Promiere Pro 里的兩個(gè)應(yīng)用場(chǎng)景,更是有翻倍的性能提升。
在創(chuàng)作場(chǎng)景下的提升,不光取決于顯卡本身,同時(shí)還得益于英特爾全新的 Deep Link 技術(shù)帶來的巨大提升。下面我們來看看 Deep Link 的工作原理。
英特爾 Deep Link 技術(shù)
英特爾 Deep Link 技術(shù)區(qū)別于以往單純動(dòng)態(tài)功率共享,英特爾銳炫顯卡在與英特爾 12 代酷睿處理器之間除了功耗的動(dòng)態(tài)共享,還引入了超級(jí)編碼和超級(jí)算力能力。
動(dòng)態(tài)功率共享技術(shù)能在系統(tǒng)功耗的限制范圍內(nèi),盡可能最大化釋放 CPU 或 GPU 的性能。英特爾已經(jīng)在這項(xiàng)技術(shù)上探索了很長(zhǎng)時(shí)間。早在 2016 年,Kobe-Lake G 時(shí)代,英特爾就推出了第一版動(dòng)態(tài)功率共享,即在 CPU 裸片和 GPU 裸片之間動(dòng)態(tài)分配功率。
現(xiàn)在 12 代酷睿和銳炫 A 系列獨(dú)立顯卡之間這項(xiàng)功能也得到進(jìn)一步應(yīng)用,在運(yùn)行負(fù)載時(shí),如果 CPU 更需要功率,功率會(huì)更多的分配給 CPU,反之對(duì) GPU 也是一樣,最終目的是讓這個(gè)負(fù)載有更好的性能。
第二項(xiàng)技術(shù)則超級(jí)編碼技術(shù),這項(xiàng)技術(shù)的初衷是為最終用戶提升編解碼效率。以前的編解碼流程里,通常把編碼工作放在一個(gè)顯卡的編解碼器上,編碼效率成為了整個(gè)流程的性能瓶頸;而實(shí)際上現(xiàn)在的英特爾筆記本系統(tǒng),例如搭載了 12 代酷睿處理器和銳炫 A 系列獨(dú)立顯卡的系統(tǒng),集成顯卡和獨(dú)立顯卡都有硬件編碼能力。所以超級(jí)編碼技術(shù),就是同時(shí)運(yùn)用兩個(gè)顯卡的編解碼引擎,來大大提升編解碼效率。
這種協(xié)作是通過 OneVPL 的 API 接口來實(shí)現(xiàn)的。OneVPL 是一個(gè)跨平臺(tái)的開放性框架,應(yīng)用程序通過接口可以識(shí)別并調(diào)用平臺(tái)上多個(gè)多媒體引擎,充分利用視頻處理能力。當(dāng)超級(jí)編碼開始工作時(shí),一組組解碼后的原始幀通過特定的 API 函數(shù)被交給 oneVPL,進(jìn)而按組被分配到不同的多媒體引擎上,拷貝到相應(yīng)的內(nèi)存中緩存起來。不論每一組有多少幀,相應(yīng)的集顯或者獨(dú)顯的多媒體引擎會(huì)開始按照設(shè)定的格式編碼。而 OneVPL 會(huì)完成后續(xù)的打包工作,把編碼后的幀一組組拼接成最終視頻來輸出。這種并行處理,編碼效率比單一顯卡提升非常顯著。
在算力提升上也有著與超級(jí)編碼類似的邏輯,即盡可能地讓整個(gè)系統(tǒng)都參與進(jìn)來,并且合適的模塊做合適的事,超級(jí)算力這項(xiàng)技術(shù)也是這樣的邏輯。
搭載英特爾銳炫獨(dú)立顯卡的筆記本可以從獨(dú)立顯卡的算力中獲益,但英特爾 CPU 的集成顯卡中同樣也提供了計(jì)算引擎。通過把負(fù)載合理的分配給不同的計(jì)算引擎,以此實(shí)現(xiàn)算力最大化。這其中就使用了 OpenVino 中的 MLS 框架來將算力進(jìn)行最大化的實(shí)現(xiàn)。
MLS 能智能的把負(fù)載分配給不同的算力模塊,通過延遲敏感度、吞吐量、性能要求、功率消耗等應(yīng)用或負(fù)載的特征幫助 MLS 做出決策,把負(fù)載分配給獨(dú)立顯卡、集成顯卡或者 CPU。
通過 Deep Link 幾項(xiàng)關(guān)鍵的技術(shù),在創(chuàng)作場(chǎng)景下,英特爾酷睿筆記本 + 英特爾銳炫顯卡的組合帶來了性能的大幅提升。系統(tǒng)各個(gè)模塊更加緊密的協(xié)作,讓每一個(gè)模塊的性能得到充分釋放?;谶@一理念,Deep Link 將英特爾平臺(tái)上各個(gè)模塊有機(jī)結(jié)合,讓整體效率更進(jìn)一步。
總結(jié)
英特爾在蟄伏多年,終于開啟了獨(dú)顯之路,首批上市的獨(dú)顯產(chǎn)品主要針對(duì)移動(dòng)端,憑借英特爾在處理器領(lǐng)域的強(qiáng)大占有率,未來英特爾銳炫獨(dú)顯產(chǎn)品也將成為繼 N 卡、A 卡后一支強(qiáng)大的力量,顯卡市場(chǎng)將進(jìn)入“三國(guó)時(shí)代”。在顯卡市場(chǎng)價(jià)格高企的當(dāng)下,英特爾的入局對(duì)于消費(fèi)者來講是件好事情,更多的選擇也就意味著產(chǎn)品之間價(jià)格戰(zhàn)將會(huì)打響。
對(duì)于行業(yè)而言,英特爾的 i+i 方案既有利于英特爾對(duì)產(chǎn)品的整體把控,也讓英特爾在開發(fā)者與合作伙伴之間提供了更進(jìn)一步的一致性產(chǎn)品。
英特爾的下海,無疑會(huì)攪動(dòng)獨(dú)立顯卡這個(gè)龐大的市場(chǎng),未來這樣的“三國(guó)”局面將如何發(fā)展,我們拭目以待。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。