AI 芯片創(chuàng)企僅有 2 名全職員工，要用新架構(gòu)改變模擬計算

智東西 2021/4/10 6:39:37 責(zé)編：遠(yuǎn)洋

評論：

近期美國模擬 AI 芯片初創(chuàng)公司 Areanna 在微型機(jī)器學(xué)習(xí)峰會（tinyML Summit）上首次公開了其 AI 芯片架構(gòu)。不同于一般的模擬 AI 芯片，該芯片通過采用 SRAM 陣列，在存儲陣列內(nèi)部集成了模數(shù)轉(zhuǎn)換器（ADC）和數(shù)模轉(zhuǎn)換器（DAC）。

簡單來說，DAC 就是把二進(jìn)制碼或 BCD 碼表示的數(shù)字量轉(zhuǎn)換為與其成正比的模擬量輸出，而 ADC 則是將連續(xù)的模擬信號轉(zhuǎn)換為數(shù)字信號。

但是這兩種功能通常會在內(nèi)存計算中占用絕大部分的芯片面積和功耗，因此在存儲陣列中集成這兩項功能可以進(jìn)一步降低內(nèi)存功耗，其計算性能也有了更大的提升空間，美國半導(dǎo)體雜志 EE Times 認(rèn)為，該芯片可能會改變模擬計算技術(shù)。

一、曾獲 NSF 種子資金，獨特陣列設(shè)計或突破數(shù)據(jù)轉(zhuǎn)換瓶頸

Areanna 成立于 2019 年，以小企業(yè)創(chuàng)新研究（SBIR）贈款的形式獲得了美國國家科學(xué)基金會（US National Science Foundation）的種子資金，總計 22.5 萬美元。該公司在其架構(gòu)上擁有兩項專利。

Areanna 的兩位創(chuàng)始人 Behdad Youssefi 和 Patrick Satarzadeh 均出自電子儀器測量公司泰克（Tektronix），這兩位創(chuàng)始人也是 Areanna 僅有的全職員工。

AI 芯片創(chuàng)企僅有 2 名全職員工，要用新架構(gòu)改變模擬計算

▲Areanna 創(chuàng)始人 Behdad Youssefi

此外，Areanna 還有兩名兼職工程師和數(shù)名顧問。在 2020 年，這家初創(chuàng)公司發(fā)布了具有一顆 Tile 的測試芯片，能夠進(jìn)行部分矩陣乘法。該芯片的基準(zhǔn)功率效率為 40 TOPS/W，運算密度為 2 TOPS/mm2，每個內(nèi)核的內(nèi)存帶寬為 2 TB/s。

Areanna 的測試芯片在一種被稱為存內(nèi)計算和量化（CQIM）的架構(gòu)上運行。該架構(gòu)基于模擬存內(nèi)計算技術(shù)，與 Mythic、Gyrfalcon 等其他 AI 芯片初創(chuàng)公司的概念基本一致。但是，Areanna 使用的是 SRAM 陣列，而不是常用的非易失性存儲器，還配有一些獨特的技術(shù)。

由于 AI 在邊緣的優(yōu)勢，比如隱私、低延遲及對網(wǎng)絡(luò)帶寬的有效利用等，AI 邊緣設(shè)備的研究受到了越來越多的關(guān)注，但邊緣設(shè)備的功耗一直是個大問題。存內(nèi)計算就是芯片在內(nèi)存中進(jìn)行計算，可以減少內(nèi)存訪問的能量消耗，是 AI 邊緣的解決思路之一。

Areanna 的 SRAM 陣列設(shè)計是其核心技術(shù)的關(guān)鍵，該陣列在內(nèi)部集成了 ADC 和 DAC 功能，釋放了內(nèi)存上的功耗和面積，也使芯片性能可以進(jìn)一步提高。

傳統(tǒng)的存內(nèi)計算往往將 DAC 功能設(shè)計在每個行 / 輸入上，在每個列 / 輸出上使用 ADC，根據(jù) Areanna 的數(shù)據(jù)，這兩項功能占據(jù)了芯片高達(dá) 85% 的功耗和 98% 的硅片面積。在 tinyML Summit 上，Behdad Youssefi 稱傳統(tǒng)的模擬計算方法只是 “用數(shù)據(jù)轉(zhuǎn)換瓶頸取代了馮 · 諾依曼體系結(jié)構(gòu)的內(nèi)存瓶頸”。

而在 Areanna 的 CQIM 架構(gòu)中，模數(shù)、數(shù)模轉(zhuǎn)換是通過與計算相同的電路結(jié)構(gòu)執(zhí)行的，該結(jié)構(gòu)被稱為乘法位單元（multiplying bit-cells，MBCs）。

二、模擬信號完整度高，100% 硬件利用率

雖然Areanna 的芯片是基于模擬計算開發(fā)的，但是其電路幾乎完全是數(shù)字化的，并且在制造中采用了數(shù)字處理技術(shù)。Youssefi 曾對 EE Times 記者描述其模擬計算流程，該芯片通過從 SRAM 位單元讀取權(quán)重參數(shù)，然后將其輸入乘法器處理，再用金屬電容器將信號轉(zhuǎn)換為電荷，并垂直累加結(jié)果，即可進(jìn)行模擬計算。

AI 芯片創(chuàng)企僅有 2 名全職員工，要用新架構(gòu)改變模擬計算

▲模擬計算過程（來源：Areanna）

由于模擬計算采用了相同的 MBC 結(jié)構(gòu)，所以當(dāng)芯片進(jìn)行模數(shù)、數(shù)模轉(zhuǎn)換時，這種架構(gòu)節(jié)省了大量的芯片面積。并且這種設(shè)計可以不再使用 ADC 采樣電路，也在功耗上取得了突破。

該設(shè)計的一個重要特點是，無論模擬運算的分辨率如何，每個點積計算只需要一個量化（一次模數(shù)轉(zhuǎn)換）。對于模擬信號、數(shù)字信號轉(zhuǎn)換來說，因為采集到的模擬信號是連續(xù)、無限值的，所以想要獲得較好處理的有限值就需要進(jìn)行量化處理。而在這過程中，如何準(zhǔn)確、快速的處理就是難點所在。

AI 芯片創(chuàng)企僅有 2 名全職員工，要用新架構(gòu)改變模擬計算

▲Areanna 芯片的每個 MBC 單元中都包含 DAC 和 ADC 功能（來源：Areanna）

Youssefi 強(qiáng)調(diào)，在其他存內(nèi)計算架構(gòu)中，模擬 AI 芯片往往需要完成轉(zhuǎn)換后，對數(shù)字信號進(jìn)行縮放。而 Areanna 的芯片則會對模擬信號縮放后，再進(jìn)行量化處理，保留了模擬信號的完整度。

在數(shù)模轉(zhuǎn)換中，信號的轉(zhuǎn)換精度往往用分辨率表示，分辨率則由模電輸入二進(jìn)制數(shù)的有效位數(shù)給出。Youssefi 提到，Areanna 的架構(gòu)設(shè)計提供了完全可編程的分辨率，還能不損害硬件利用率。

他說：“（對于其他內(nèi)存計算方案）如果你想提供可變的分辨率，那么你必須顯著降低硬件利用率。但我們不會因為從 8 位到 4 位再到 1 位而降低硬件利用率，無論分辨率如何，它仍然是 100% 的硬件利用率?！?/p>

三、SRAM 陣列功耗較低、擴(kuò)展性好

此外，與非易失性存儲器件相比，SRAM 的讀寫功耗較低，使得芯片不用從外界引入很多能量，SRAM 的低寫入能耗也使得數(shù)據(jù)流優(yōu)化具有靈活性。

當(dāng)前，AI 芯片進(jìn)行機(jī)器學(xué)習(xí)需要將數(shù)據(jù)和權(quán)重從內(nèi)存移動到處理單元，然后將中間結(jié)果存儲回內(nèi)存。這一方法效率較低，其無謂的信息傳輸不僅增加了計算延遲，也增加了相應(yīng)的功耗。這些 “無增值”的數(shù)據(jù)移動消耗了很多的能量，實際上數(shù)據(jù)和計算單元權(quán)重只消耗了一小部分能量。

對于具有很多權(quán)重的大型神經(jīng)網(wǎng)絡(luò)層，保持權(quán)重固定或許可以有效提高性能。而對于處理高分辨率圖像的網(wǎng)絡(luò)，輸入激活數(shù)據(jù)是數(shù)據(jù)密集度最高的數(shù)據(jù)類型，因此使輸入激活保持靜止可能會更有意義。

Areanna 基于 SRAM 的架構(gòu)允許雙重靜態(tài)數(shù)據(jù)流優(yōu)化，也就是說，無需額外的硬件即可將兩種數(shù)據(jù)類型設(shè)為靜態(tài)，可以更好的降低硬件功耗。

Youssefi 說：“因為我們的計算是在模擬域中并行完成的，所以我們實際上并不需要移動數(shù)據(jù)。憑借該架構(gòu)，Areanna 芯片可以使權(quán)重或用戶選擇的任何數(shù)據(jù)固定，并且部分總和輸出始終固定。因此，這兩種數(shù)據(jù)類型沒有變化?！庇脩艨梢赃x擇對算法（或?qū)τ谏窠?jīng)網(wǎng)絡(luò)中的特定層）最有效的方式進(jìn)行設(shè)置。

據(jù) Youssefi 介紹，當(dāng)前許多存內(nèi)計算架構(gòu)的可擴(kuò)展性受到了限制。他提到，有些架構(gòu)通過邏輯技術(shù)優(yōu)化功率性能，有些則針對存儲密度作了改進(jìn)。當(dāng)這兩種技術(shù)放入同一芯片時，就會發(fā)現(xiàn)兩種技術(shù)根本無法兼容。

Areanna 的芯片則沒有這種問題，其架構(gòu)由于幾乎完全建立在數(shù)字電路上，可以使用標(biāo)準(zhǔn)的 CMOS 工藝進(jìn)行制造，也能和很多其他技術(shù)兼容。

因為采用了標(biāo)準(zhǔn)化工藝，該芯片還可以隨摩爾定律進(jìn)步，使用更小的工藝節(jié)點。下一步，該公司準(zhǔn)備用多個計算 Tile 構(gòu)建更大的測試芯片，預(yù)計第二顆測試芯片將在 2022 年問世。

結(jié)語：Areanna 架構(gòu)或解放存內(nèi)計算功率負(fù)擔(dān)隨著人工智能浪潮席卷各個領(lǐng)域，AI 模型的復(fù)雜性日益提高。但是傳統(tǒng)的計算架構(gòu)，因為能耗問題很難滿足 AI 邊緣應(yīng)用的未來需求，此前臺積電曾公布了一種改良的 SRAM 存儲器陣列，通過存內(nèi)計算極大地降低了芯片功耗，某種程度上證明了 SRAM 陣列的可行性。

而模擬計算作為一種連續(xù)數(shù)據(jù)的計算方式，可以與數(shù)字計算形成互補(bǔ)，具有很大的潛力。Areanna 的芯片通過在存儲陣列中集成 ADC 和 DAC 功能，為模擬計算提供了一種減少功耗和芯片面積的新思路。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AI 芯片創(chuàng)企僅有 2 名全職員工，要用新架構(gòu)改變模擬計算

一、曾獲 NSF 種子資金，獨特陣列設(shè)計或突破數(shù)據(jù)轉(zhuǎn)換瓶頸

二、模擬信號完整度高，100% 硬件利用率

三、SRAM 陣列功耗較低、擴(kuò)展性好

相關(guān)文章

一、曾獲 NSF 種子資金，獨特陣列設(shè)計或突破數(shù)據(jù)轉(zhuǎn)換瓶頸

二、模擬信號完整度高，100% 硬件利用率

三、SRAM 陣列功耗較低、擴(kuò)展性好