人工神經(jīng)網(wǎng)絡(luò)的盡頭是一個(gè)神經(jīng)元?
—— 沒準(zhǔn)兒還真有可能。
當(dāng)前,最先進(jìn)的 AI 系統(tǒng)通過創(chuàng)建多層神經(jīng)網(wǎng)絡(luò)來(lái)模仿人類大腦,旨在將盡可能多的神經(jīng)元塞進(jìn)盡可能小的空間。
可惜,這樣的設(shè)計(jì)需要消耗大量的電力等資源,而產(chǎn)生的輸出結(jié)果與強(qiáng)大且“節(jié)能”的人腦比起來(lái)相形見絀。
最近,柏林工業(yè)大學(xué)的研究小組提供了一個(gè)新思路:把任意大小的深度神經(jīng)網(wǎng)絡(luò)折疊成單神經(jīng)元,這個(gè)神經(jīng)元具有多個(gè)延時(shí)反饋回路。
關(guān)于研究成果的論文發(fā)布于 Nature 子刊。這個(gè)“單個(gè)神經(jīng)元的 AI 大腦”概念的提出,無(wú)疑給神經(jīng)網(wǎng)絡(luò)的發(fā)展指明了一個(gè)新方向。
下面就來(lái)看看這是一項(xiàng)怎樣的研究吧!
具體方法
研究團(tuán)隊(duì)設(shè)計(jì)了一種多層前饋深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的完全時(shí)間折疊的方法(Fit-DNN)。Fit-DNN 的誕生主要受到“folded- in-time”概念的啟發(fā),即:使用單一的延遲環(huán)路配置和輸入數(shù)據(jù)的時(shí)間復(fù)用來(lái)模擬環(huán)形拓?fù)浣Y(jié)構(gòu)。
傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)由多層神經(jīng)元組成,以前饋結(jié)構(gòu)耦合。如果用一個(gè)神經(jīng)元來(lái)實(shí)現(xiàn)傳統(tǒng) DNN 的功能,需要保留各層的邏輯順序,同時(shí)找到一種方法來(lái)順序化層內(nèi)的操作。這只能通過在時(shí)間上分割以前同時(shí)進(jìn)行的過程來(lái)實(shí)現(xiàn):?jiǎn)蝹€(gè)神經(jīng)元在正確的時(shí)間接受正確的輸入,依次模擬每一層的各個(gè)神經(jīng)元。
傳統(tǒng)的相鄰層之間的連接,轉(zhuǎn)變成單個(gè)神經(jīng)元在不同時(shí)間的連接,即:層間連接變成了延遲連接。在不同時(shí)間對(duì)同一神經(jīng)元進(jìn)行不同的加權(quán),權(quán)重由反向傳播算法確定。這類似于單個(gè)客人通過快速切換座位并說(shuō)出每個(gè)部分,來(lái)模擬大型餐桌上的對(duì)話。
Fit-DNN 的核心由一個(gè)具有多個(gè)延遲和調(diào)制反饋的單一神經(jīng)元組成,上圖展示了其結(jié)構(gòu):標(biāo)著字母 f 的黑色圓代表神經(jīng)元,它在 t 時(shí)的信號(hào)為 x (t);這個(gè)信號(hào)是數(shù)據(jù) J (t)、偏移量 b (t) 和反饋信號(hào)之和。
可調(diào)節(jié)的元素用方塊表示:數(shù)據(jù)信號(hào)由輸入向量 u 產(chǎn)生,藍(lán)色方塊中的矩陣包含輸入權(quán)重。偏置系數(shù)產(chǎn)生灰色方塊中的偏置信號(hào)。每個(gè)反饋環(huán)路實(shí)現(xiàn)一個(gè)延遲和一個(gè)時(shí)間調(diào)制,來(lái)產(chǎn)生反饋信號(hào)。最后,使用輸出權(quán)重矩陣從信號(hào) x (t) 中獲得輸出。
注意,為了獲得數(shù)據(jù)信號(hào) J (t) 和輸出,需要進(jìn)行適當(dāng)?shù)念A(yù)處理或操作后處理。
與傳統(tǒng)多層層經(jīng)網(wǎng)絡(luò)的等效性
單神經(jīng)元的 Fit-DNN 在功能上真的可以等同于多層神經(jīng)網(wǎng)絡(luò)嗎?如下圖所示,F(xiàn)it-DNN 可以將具有多個(gè)延遲環(huán)的單個(gè)神經(jīng)元的動(dòng)態(tài)性轉(zhuǎn)化為 DNN。
圖 a 展示了信號(hào) x (t) 的時(shí)間演化可以分為長(zhǎng)度為 T 的時(shí)間間隔,每個(gè)間隔模擬一個(gè)隱藏層;實(shí)線上的黑點(diǎn)表示節(jié)點(diǎn),θ 代表節(jié)點(diǎn)分離值。
圖 b 表示原始的時(shí)間軌跡被切割成長(zhǎng)度為 T 的區(qū)間,在各區(qū)間內(nèi),節(jié)點(diǎn)根據(jù)其網(wǎng)絡(luò)位置被標(biāo)記。
圖 c 由圖 b 的旋轉(zhuǎn)所得,在此基礎(chǔ)上增加了一個(gè)輸入和一個(gè)輸出層。
這些連接是由節(jié)點(diǎn)之間的動(dòng)態(tài)依賴關(guān)系決定的,這些依賴關(guān)系可以根據(jù) θ 的值精確計(jì)算。當(dāng)節(jié)點(diǎn)分離值 θ 較大時(shí),網(wǎng)絡(luò)節(jié)點(diǎn)之間將形成熟悉的多層 DNN 形狀。
不過,當(dāng)節(jié)點(diǎn)分離值 θ 較小時(shí),每個(gè)節(jié)點(diǎn)的狀態(tài)都依賴于前一個(gè)節(jié)點(diǎn),而不是完全獨(dú)立。這些額外的 “慣性 “連接在圖 c 中用黑色箭頭表示。
雖然研究者們用 D = 2N - 1 延遲環(huán)路恢復(fù)了一個(gè)全連接的 DNN,但模擬測(cè)試表明,這并不完全符合要求。實(shí)際上,用更少的延遲環(huán)路就可以獲得足夠的性能。在這種情況下,F(xiàn)it-DNN 將實(shí)現(xiàn)一種特殊類型的稀疏 DNNs。
可見,在一定條件下,F(xiàn)it-DNN 可以完全恢復(fù)一個(gè)沒有卷積層的標(biāo)準(zhǔn) DNN,此時(shí),它的性能與多層 DNN 相同。單神經(jīng)元的 Fit-DNN 將前饋多層神經(jīng)網(wǎng)絡(luò)的拓?fù)鋸?fù)雜性,通過延遲環(huán)結(jié)構(gòu)折疊到時(shí)域。這個(gè)延遲系統(tǒng)本身就擁有一個(gè)無(wú)限大的相空間,因此,只要有一個(gè)帶反饋的神經(jīng)元就足以折疊整個(gè)網(wǎng)絡(luò)。
Fit-DNN 的計(jì)算機(jī)視覺功能測(cè)試
研究人員使用 Fit-DNN 進(jìn)行圖像降噪,即:從噪聲版本中重建原始圖像。他們把強(qiáng)度為 1 的高斯噪聲加入 Fashion-MNIST 數(shù)據(jù)集的圖像中,并將高斯噪聲視為值在 0(白色)和 1(黑色)之間的向量。然后截?cái)嚅撝?0 和 1 處剪切所得的向量條目,以獲得有噪聲的灰度圖像。
如上圖所示,a 行包含來(lái)自 Fashion-MNIST 數(shù)據(jù)集的原始圖像;b 行為帶有額外高斯噪聲的相同圖像,這些噪聲圖像作為訓(xùn)練系統(tǒng)的輸入數(shù)據(jù)。c 行表示獲得的原始圖像的重建結(jié)果。
可見,F(xiàn)it-DNN 的圖像恢復(fù)效果不錯(cuò)。不過 Fit-DNN 真正的問題是,時(shí)間循環(huán)的單個(gè)神經(jīng)元是否能產(chǎn)生與數(shù)十億個(gè)神經(jīng)元相同的輸出。
為了證明 Fit-DNN 和時(shí)間狀態(tài)下的計(jì)算能力,研究人員選了五個(gè)圖像分類任務(wù):MNIST40、Fashion-MNIST41、CIFAR-10、CIFAR-100,以及 SVHN。
實(shí)驗(yàn)對(duì)比了隱藏層的節(jié)點(diǎn)數(shù)不同時(shí)(N=50,100,200,400),F(xiàn)it-DNN 在上述任務(wù)中的表現(xiàn)。結(jié)果表示,對(duì)于相對(duì)簡(jiǎn)單的 MNIST 和 Fashion-MNIST 任務(wù),單個(gè)神經(jīng)元取得了很高的準(zhǔn)確率。但對(duì)于更具挑戰(zhàn)性的 CIFAR-10、CIFAR-100 和 SVHN 任務(wù),單個(gè)神經(jīng)元的準(zhǔn)確率較低。值得注意的是,這里的 Fit-DNN 只使用了權(quán)重矩陣可用對(duì)角線的一半。如果增加節(jié)點(diǎn)的個(gè)數(shù) N,將有效地提高性能。
研究團(tuán)隊(duì)
論文的通訊作者是 Serhiy Yanchuk,他在柏林工業(yè)大學(xué)先后擔(dān)任過研究員、客座教授,目前任德國(guó)最大國(guó)家基金管理組織 DFG 項(xiàng)目的首席研究員。
Ingo Fischer 是論文的共同作者之一。他取得了菲利普斯?馬爾堡大學(xué)獲得半導(dǎo)體物理領(lǐng)域博士學(xué)位,后在歐洲多國(guó)的大學(xué)中擔(dān)任工程和物理學(xué)的博士后研究員、助理教授和全職教授。
經(jīng)典的多層神經(jīng)網(wǎng)絡(luò),如火爆全球的 GPT-3,目前已有 750 億個(gè)參數(shù),比其前身 GPT-2 的參數(shù)量要多 100 倍。據(jù)估計(jì),僅僅訓(xùn)練一次 GPT-3 就需要相當(dāng)于丹麥 126 個(gè)家庭一年使用的電力,或者約等于開車往返一次月球的耗能。柏林團(tuán)隊(duì)的研究人員認(rèn)為,F(xiàn)it-DNN 可以對(duì)抗訓(xùn)練強(qiáng)大神經(jīng)網(wǎng)絡(luò)所需能源成本的上升。
科學(xué)家們相信,隨著技術(shù)的發(fā)展,該系統(tǒng)可以擴(kuò)展到從懸浮在時(shí)間中的神經(jīng)元?jiǎng)?chuàng)建 “無(wú)限數(shù)量的 “神經(jīng)元連接。
感興趣的讀者可以戳下面的鏈接繼續(xù)深入了解。
論文鏈接:
https://www.nature.com/articles/s41467-021-25427-4.pdf
參考鏈接:
https://thenextweb.com/news/how-ai-brain-with-only-one-neuron-could-surpass-humans
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。