機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

INDIGO 的數(shù)字鏡像 2022/11/18 12:27:06 責編：遠生

評論：

就在過去幾個月里，因為美聯(lián)儲的加息，科技公司的資本狂歡宣告結(jié)束，美國上市的 SaaS 公司股價基本都跌去了 70%，裁員與緊縮是必要選項。但正當市場一片哀嚎的時候，Dall-E 2 發(fā)布了，緊接著就是一大批炫酷的 AI 公司登場。這些事件在風投界引發(fā)了一股風潮，我們看到那些兜售著基于生成式 AI（Generative AI）產(chǎn)品的公司，估值達到了數(shù)十億美元，雖然收入還不到百萬美元，也沒有經(jīng)過驗證的商業(yè)模式。不久前，同樣的故事在 Web 3 上也發(fā)生過！感覺我們又將進入一個全新的繁榮時代，但人工智能這次真的能帶動科技產(chǎn)業(yè)復蘇么？

本文將帶你領(lǐng)略一次人工智能領(lǐng)域波瀾壯闊的發(fā)展史，從關(guān)鍵人物推動的學術(shù)進展、算法和理念的涌現(xiàn)、公司和產(chǎn)品的進步、還有腦科學對神經(jīng)網(wǎng)絡的迭代影響，這四個維度來深刻理解“機器之心的進化”。先忘掉那些花里胡哨的圖片生產(chǎn)應用，我們一起來學點接近 AI 本質(zhì)的東西。全文共分為六個章節(jié)：

1.AI 進化史 - 前神經(jīng)網(wǎng)絡時代、Machine Learning 的躍遷、開啟潘多拉的魔盒

2.軟件 2.0 的崛起 - 軟件范式的轉(zhuǎn)移和演化、Software 2.0 與 Bug 2.0

3.面向智能的架構(gòu) - Infrastructure 3.0、如何組裝智能、智能架構(gòu)的先鋒

4.一統(tǒng)江湖的模型 - Transformer 的誕生、基礎模型、AI 江湖的新機會

5.現(xiàn)實世界的 AI - 自動駕駛新前沿、機器人與智能代理

6.AI 進化的未來 - 透視神經(jīng)網(wǎng)絡、千腦理論、人工智能何時能通用？

文章較長，累計 22800 字，請留出一小時左右的閱讀時間，歡迎先收藏再閱讀！

大家覺得機器智能能否超過人類么？帶著這個問題來閱讀，相信看完就會有系統(tǒng)性的答案！

本文在無特別指明的情況下，為了書寫簡潔，在同一個段落中重復詞匯大量出現(xiàn)時，會用 AI（Artifical Intelligence）來代表人工智能，用 ML（Machine Learning）來代表機器學習，DL（Deep Learning）來代表深度學習，以及各種英文縮寫來優(yōu)先表達。

01、AI 進化史

對于機器是否真能 "知道"、"思考" 等問題，我們很難嚴謹?shù)亩x這些。我們對人類心理過程的理解，或許只比魚對游泳的理解更好一點。
John McCarthy

早在 1945 年，Alan Turing 就已經(jīng)在考慮如何用計算機來模擬人腦了。他設計了 ACE（Automatic Computing Engine - 自動計算引擎）來模擬大腦工作。在給一位同事的信中寫道："與計算的實際應用相比，我對制作大腦運作的模型可能更感興趣 ...... 盡管大腦運作機制是通過軸突和樹突的生長來計算的復雜神經(jīng)元回路，但我們還是可以在 ACE 中制作一個模型，允許這種可能性的存在，ACE 的實際構(gòu)造并沒有改變，它只是記住了數(shù)據(jù) ......" 這就是機器智能的起源，至少那時在英國都這樣定義。

1.1 前神經(jīng)網(wǎng)絡時代

神經(jīng)網(wǎng)絡是以模仿人腦中的神經(jīng)元的運作為模型的計算機系統(tǒng)。

AI 是伴隨著神經(jīng)網(wǎng)絡的發(fā)展而出現(xiàn)的。1956 年，美國心理學家 Frank Rosenblatt 實現(xiàn)了一個早期的神經(jīng)網(wǎng)絡演示 - 感知器模型（Perceptron Model），該網(wǎng)絡通過監(jiān)督 Learning 的方法將簡單的圖像分類，如三角形和正方形。這是一臺只有八個模擬神經(jīng)元的計算機，這些神經(jīng)元由馬達和轉(zhuǎn)盤制成，與 400 個光探測器連接。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 01：Frank Rosenblatt & Perceptron Model

IBM 的 Georgetown 實驗室在這些研究的基礎上，實現(xiàn)了最早的機器語言翻譯系統(tǒng)，可以在英語和俄語之間互譯。1956 年的夏天，在 Dartmouth College 的一次會議上，AI 被定義為計算機科學的一個研究領(lǐng)域，Marvin Minsky（明斯基）, John McCarthy（麥卡錫）, Claude Shannon（香農(nóng)）, 還有 Nathaniel Rochester（羅切斯特）組織了這次會議，他們后來被稱為 AI 的 "奠基人"。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 02：Participants of the 1956 Dartmouth Summer Research Project on AI

DARPA 在這個“黃金”時期，將大部分資金投入到 AI 領(lǐng)域，就在十年后他們還發(fā)明了 ARPANET（互聯(lián)網(wǎng)的前身）。早期的 AI 先驅(qū)們試圖教計算機做模仿人類的復雜心理任務，他們將其分成五個子領(lǐng)域：推理、知識表述、規(guī)劃、自然語言處理（NLP）和感知，這些聽起來很籠統(tǒng)的術(shù)語一直沿用至今。

從專家系統(tǒng)到機器學習

1966 年，Marvin Minsky 和 Seymour Papert 在《感知器：計算幾何學導論》一書中闡述了因為硬件的限制，只有幾層的神經(jīng)網(wǎng)絡僅能執(zhí)行最基本的計算，一下子澆滅了這條路線上研發(fā)的熱情，AI 領(lǐng)域迎來了第一次泡沫破滅。這些先驅(qū)們怎么也沒想到，計算機的速度能夠在隨后的幾十年里指數(shù)級增長，提升了上億倍。

在上世紀八十年代，隨著電腦性能的提升，新計算機語言 Prolog & Lisp 的流行，可以用復雜的程序結(jié)構(gòu)，例如條件循環(huán)來實現(xiàn)邏輯，這時的人工智能就是專家系統(tǒng)（Expert System），iRobot 公司絕對是那個時代明星；但短暫的繁榮之后，硬件存儲空間的限制，還有專家系統(tǒng)無法解決具體的、難以計算的邏輯問題，人工智能再一次陷入窘境。

我懷疑任何非常類似于形式邏輯的東西能否成為人類推理的良好模型。
Marvin Minsky

直到 IBM 深藍在 1997 年戰(zhàn)勝了國際象棋冠軍卡斯帕羅夫后，新的基于概率推論（Probabilistic Reasoning）思路開始被廣泛應用在 AI 領(lǐng)域，隨后 IBM Watson 的項目使用這種方法在電視游戲節(jié)目《Jeopardy》中經(jīng)常擊敗參賽的人類。

概率推論就是典型的機器學習（Machine Learning）。今天的大多數(shù) AI 系統(tǒng)都是由 ML 驅(qū)動的，其中預測模型是根據(jù)歷史數(shù)據(jù)訓練的，并用于對未來的預測。這是 AI 領(lǐng)域的第一次范式轉(zhuǎn)變，算法不指定如何解決一個任務，而是根據(jù)數(shù)據(jù)來誘導它，動態(tài)的達成目標。因為有了 ML，才有了大數(shù)據(jù)（Big Data）這個概念。

1.2 Machine Learning 的躍遷

Machine Learning 算法一般通過分析數(shù)據(jù)和推斷模型來建立參數(shù)，或者通過與環(huán)境互動，獲得反饋來學習。人類可以注釋這些數(shù)據(jù)，也可以不注釋，環(huán)境可以是模擬的，也可以是真實世界。

Deep Learning

Deep Learning 是一種 Machine Learning 算法，它使用多層神經(jīng)網(wǎng)絡和反向傳播（Backpropagation）技術(shù)來訓練神經(jīng)網(wǎng)絡。該領(lǐng)域是幾乎是由 Geoffrey Hinton 開創(chuàng)的，早在 1986 年，Hinton 與他的同事一起發(fā)表了關(guān)于深度神經(jīng)網(wǎng)絡（DNNs - Deep Neural Networks）的開創(chuàng)性論文，這篇文章引入了反向傳播的概念，這是一種調(diào)整權(quán)重的算法，每當你改變權(quán)重時，神經(jīng)網(wǎng)絡就會比以前更快接近正確的輸出，可以輕松的實現(xiàn)多層的神經(jīng)網(wǎng)絡，突破了 1966 年 Minsky 寫的感知器局限的魔咒。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 03：Geoffrey Hinton & Deep Neural Networks

Deep Learning 在 2012 年才真正興起，當時 Hinton 和他在多倫多的兩個學生表明，使用反向傳播訓練的深度神經(jīng)網(wǎng)絡在圖像識別方面擊敗了最先進的系統(tǒng)，幾乎將以前的錯誤率減半。由于他的工作和對該領(lǐng)域的貢獻，Hinton 的名字幾乎成為 Deep Learning 的代名詞。

數(shù)據(jù)是新的石油

Deep Learning 是一個革命性的領(lǐng)域，但為了讓它按預期工作，需要數(shù)據(jù)。而最重要的數(shù)據(jù)集之一，就是由李飛飛創(chuàng)建的 ImageNet。曾任斯坦福大學人工智能實驗室主任，同時也是谷歌云 AI / ML 首席科學家的李飛飛，早在 2009 年就看出數(shù)據(jù)對 Machine Learning 算法的發(fā)展至關(guān)重要，同年在計算機視覺和模式識別（CVPR）上發(fā)表了相關(guān)論文。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 04：FeiFei Li & ImageNet

該數(shù)據(jù)集對研究人員非常有用，正因為如此，它變得越來越有名，為最重要的年度 DL 競賽提供了基準。僅僅七年時間，ImageNet 讓獲勝算法對圖像中的物體進行分類的準確率從 72% 提高到了 98%，超過了人類的平均能力。

ImageNet 成為 DL 革命的首選數(shù)據(jù)集，更確切地說，是由 Hinton 領(lǐng)導的 AlexNet 卷積神經(jīng)網(wǎng)絡（CNN - Convolution Neural Networks）的數(shù)據(jù)集。ImageNet 不僅引領(lǐng)了 DL 的革命，也為其他數(shù)據(jù)集開創(chuàng)了先例。自其創(chuàng)建以來，數(shù)十種新的數(shù)據(jù)集被引入，數(shù)據(jù)更豐富，分類更精確。

神經(jīng)網(wǎng)絡大爆發(fā)

在 Deep Learning 理論和數(shù)據(jù)集的加持下，2012 年以來深度神經(jīng)網(wǎng)絡算法開始大爆發(fā)，卷積神經(jīng)網(wǎng)絡（CNN）、遞歸神經(jīng)網(wǎng)絡（RNN - Recurrent Neural Network）和長短期記憶網(wǎng)絡（LSTM - Long Short-Term Memory）等等，每一種都有不同的特性。例如，遞歸神經(jīng)網(wǎng)絡是較高層的神經(jīng)元直接連接到較低層的神經(jīng)元。

來自日本的計算機研究員福島邦彥（Kunihiko Fukushima）根據(jù)人腦中視覺的運作方式，創(chuàng)建了一個人工神經(jīng)網(wǎng)絡模型。該架構(gòu)是基于人腦中兩種類型的神經(jīng)元細胞，稱為簡單細胞和復雜細胞。它們存在于初級視覺皮層中，是大腦中處理視覺信息的部分。簡單細胞負責檢測局部特征，如邊緣；復雜細胞匯集了簡單細胞在一個區(qū)域內(nèi)產(chǎn)生的結(jié)果。例如，一個簡單細胞可能檢測到一個椅子的邊緣，復雜細胞匯總信息產(chǎn)生結(jié)果，通知下一個更高層次的簡單細胞，這樣逐級識別得到完整結(jié)果。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 05：深度神經(jīng)網(wǎng)絡如何識別物體（TensorFlow）

CNN 的結(jié)構(gòu)是基于這兩類細胞的級聯(lián)模型，主要用于模式識別任務。它在計算上比大多數(shù)其他架構(gòu)更有效、更快速，在許多應用中，包括自然語言處理和圖像識別，已經(jīng)被用來擊敗大多數(shù)其他算法。我們每次對大腦的工作機制的認知多一點，神經(jīng)網(wǎng)絡的算法和模型也會前進一步！

1.3 開啟潘多拉的魔盒

從 2012 到現(xiàn)在，深度神經(jīng)網(wǎng)絡的使用呈爆炸式增長，進展驚人?，F(xiàn)在 Machine Learning 領(lǐng)域的大部分研究都集中在 Deep Learning 方面，就像進入了潘多拉的魔盒被開啟了的時代。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 06：AI 進化史

GAN

生成對抗網(wǎng)絡（GAN - Generative Adversarial Network）是 Deep Learning 領(lǐng)域里面另一個重要的里程碑，誕生于 2014 年，它可以幫助神經(jīng)網(wǎng)絡用更少的數(shù)據(jù)進行學習，生成更多的合成圖像，然后用來識別和創(chuàng)建更好的神經(jīng)網(wǎng)絡。GANs 的創(chuàng)造者 Ian Goodfellow 是在蒙特利爾的一個酒吧里想出這個主意的，它由兩個神經(jīng)網(wǎng)絡玩著貓捉老鼠的游戲，一個創(chuàng)造出看起來像真實圖像的假圖像，而另一個則決定它們是否是真的。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 07：GANs 模擬生產(chǎn)人像的進化

GANs 將有助于創(chuàng)建圖像，還可以創(chuàng)建現(xiàn)實世界的軟件模擬，Nvidia 就大量采用這種技術(shù)來增強他的現(xiàn)實模擬系統(tǒng)，開發(fā)人員可以在那里訓練和測試其他類型的軟件。你可以用一個神經(jīng)網(wǎng)絡來“壓縮”圖像，另一個神經(jīng)網(wǎng)絡來生成原始視頻或圖像，而不是直接壓縮數(shù)據(jù)，Demis Hassabis 在他的一篇論文中就提到了人類大腦“海馬體”的記憶回放也是類似的機制。

大規(guī)模神經(jīng)網(wǎng)絡

大腦的工作方式肯定不是靠某人用規(guī)則來編程。
Geoffrey Hinton

大規(guī)模神經(jīng)網(wǎng)絡的競賽從成立于 2011 年的 Google Brain 開始，現(xiàn)在屬于 Google Research。他們推動了 TensorFlow 語言的開發(fā)，提出了萬能模型 Transformer 的技術(shù)方案并在其基礎上開發(fā)了 BERT，我們在第四章中將詳細討論這些。

DeepMind 是這個時代的傳奇之一，在 2014 年被 Google 以 5.25 億美元收購的。它專注游戲算法，其使命是 "解決智能問題"，然后用這種智能來 "解決其他一切問題"！DeepMind 的團隊開發(fā)了一種新的算法 Deep Q-Network (DQN)，它可以從經(jīng)驗中學習。2015 年 10 月 AlphaGo 項目首次在圍棋中擊敗人類冠軍李世石；之后的 AlphaGo Zero 用新的可以自我博弈的改進算法讓人類在圍棋領(lǐng)域再也無法翻盤。

另一個傳奇 OpenAI，它是一個由 Elon Musk, Sam Altman, Peter Thiel, 還有 Reid Hoffman 在 2015 年共同出資十億美金創(chuàng)立的科研機構(gòu)，其主要的競爭對手就是 DeepMind。OpenAI 的使命是通用人工智能（AGI – Artificial General Intelligence），即一種高度自主且在大多數(shù)具有經(jīng)濟價值的工作上超越人類的系統(tǒng)。2020 年推出的 GPT-3 是目前最好的自然語言生成工具（NLP - Natural Language Processing）之一，通過它的 API 可以實現(xiàn)自然語言同步翻譯、對話、撰寫文案，甚至是代碼（Codex），以及現(xiàn)在最流行的生成圖像（DALL?E）。

Gartner AI HypeCycle

Gartner 的技術(shù)炒作周期（HypeCycle）很值得一看，這是他們 2022 年最新的關(guān)于 AI 領(lǐng)域下各個技術(shù)發(fā)展的成熟度預估，可以快速了解 AI 進化史這一章中不同技術(shù)的發(fā)展階段。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 08：Gartner AI HypeCycle 2022

神經(jīng)網(wǎng)絡，這個在上世紀 60 年代碰到的挫折，然后在 2012 年之后卻迎來了新生。反向傳播花了這么長時間才被開發(fā)出來的原因之一就是該功能需要計算機進行乘法矩陣運算。在上世紀 70 年代末，世界上最強的的超級電腦之一 Cray-1，每秒浮點運算速度 50 MFLOP，現(xiàn)在衡量 GPU 算力的單位是 TFLOP（Trillion FLOPs），Nvidia 用于數(shù)據(jù)中心的最新 GPU Nvidia Volta 的性能可以達到 125 TFLOP，單枚芯片的速度就比五十年前世界上最快的電腦強大 250 萬倍。技術(shù)的進步是多維度的，一些生不逢時的理論或者方法，在另一些技術(shù)條件達成時，就能融合出巨大的能量。

02、軟件 2.0 的崛起

未來的計算機語言將更多地關(guān)注目標，而不是由程序員來考慮實現(xiàn)的過程。
Marvin Minsky

Software 2.0 概念的最早提出人是 Andrej Karpathy，這位從小隨家庭從捷克移民來加拿大的天才少年在多倫多大學師從 Geoffrey Hinton，然后在斯坦福李飛飛團隊獲得博士學位，主要研究 NLP 和計算機視覺，同時作為創(chuàng)始團隊成員加入了 OpenAI，Deep Learning 的關(guān)鍵人物和歷史節(jié)點都被他點亮。在 2017 年被 Elon Musk 挖墻腳到了 Tesla 負責自動駕駛研發(fā)，然后就有了重構(gòu)的 FSD（Full Self-Driving）。

按照 Andrej Karpathy 的定義 - “軟件 2.0 使用更抽象、對人類不友好的語言生成，比如神經(jīng)網(wǎng)絡的權(quán)重。沒人參與編寫這些代碼，一個典型的神經(jīng)網(wǎng)絡可能有數(shù)百萬個權(quán)重，用權(quán)重直接編碼比較困難”。Andrej 說他以前試過，這幾乎不是人類能干的事兒。。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 09：Andrej Karpathy 和神經(jīng)網(wǎng)絡權(quán)重

2.1 范式轉(zhuǎn)移

在創(chuàng)建深度神經(jīng)網(wǎng)絡時，程序員只寫幾行代碼，讓神經(jīng)網(wǎng)絡自己學習，計算權(quán)重，形成網(wǎng)絡連接，而不是手寫代碼。這種軟件開發(fā)的新范式始于第一個 Machine Learning 語言 TensorFlow，我們也把這種新的編碼方式被稱為軟件 2.0。在 Deep Learning 興起之前，大多數(shù)人工智能程序是用 Python 和 JavaScript 等編程語言手寫的。人類編寫了每一行代碼，也決定了程序的所有規(guī)則。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 10：How does Machine Learning work？（TensorFlow）

相比之下，隨著 Deep Learning 技術(shù)的出現(xiàn)，程序員利用這些新方式，給程序指定目標。如贏得圍棋比賽，或通過提供適當輸入和輸出的數(shù)據(jù)，如向算法提供具有 "SPAM” 特征的郵件和其他沒有"SPAM” 特征的郵件。編寫一個粗略的代碼骨架（一個神經(jīng)網(wǎng)絡架構(gòu)），確定一個程序空間的可搜索子集，并使用我們所能提供的算力在這個空間中搜索，形成一個有效的程序路徑。在神經(jīng)網(wǎng)絡里，我們一步步地限制搜索范圍到連續(xù)的子集上，搜索過程通過反向傳播和隨機梯度下降（Stochastic Gradient Descent）而變得十分高效。

神經(jīng)網(wǎng)絡不僅僅是另一個分類器，它代表著我們開發(fā)軟件的范式開始轉(zhuǎn)移，它是軟件 2.0。

軟件 1.0 人們編寫代碼，編譯后生成可以執(zhí)行的二進制文件；但在軟件 2.0 中人們提供數(shù)據(jù)和神經(jīng)網(wǎng)絡框架，通過訓練將數(shù)據(jù)編譯成二進制的神經(jīng)網(wǎng)絡。在當今大多數(shù)實際應用中，神經(jīng)網(wǎng)絡結(jié)構(gòu)和訓練系統(tǒng)日益標準化為一種商品，因此大多數(shù)軟件 2.0 的開發(fā)都由模型設計實施和數(shù)據(jù)清理標記兩部分組成。這從根本上改變了我們在軟件開發(fā)迭代上的范式，團隊也會因此分成了兩個部分: 2.0 程序員負責模型和數(shù)據(jù)，而那些 1.0 程序員則負責維護和迭代運轉(zhuǎn)模型和數(shù)據(jù)的基礎設施、分析工具以及可視化界面。

Marc Andreessen 的經(jīng)典文章標題《Why Software Is Eating the World》現(xiàn)在可以改成這樣：“軟件（1.0）正在吞噬世界，而現(xiàn)在人工智能（2.0）正在吞噬軟件！

2.2 軟件的演化

軟件從 1.0 發(fā)展到軟件 2.0，經(jīng)過了一個叫做“數(shù)據(jù)產(chǎn)品”的中間態(tài)。當頂級軟件公司在了解大數(shù)據(jù)的商業(yè)潛力后，并開始使用 Machine Learning 構(gòu)建數(shù)據(jù)產(chǎn)品時，這種狀態(tài)就出現(xiàn)了。下圖來自 Ahmad Mustapha 的一篇文章《The Rise of Software 2.0》很好地呈現(xiàn)了這個過渡。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 11：軟件產(chǎn)品演化的三種狀態(tài)

這個中間態(tài)也叫大數(shù)據(jù) 和算法推薦。在現(xiàn)實生活中，這樣的產(chǎn)品可以是 Amazon 的商品推薦，它們可以預測客戶會感興趣什么，可以是 Facebook 好友推薦，還可以是 Netflix 電影推薦或 Tiktok 的短視頻推薦。還有呢？Waze 的路由算法、Airbnb 背后的排名算法等等，總之琳瑯滿目。

數(shù)據(jù)產(chǎn)品有幾個重要特點：1、它們都不是軟件的主要功能，通常是為了增加體驗，達成更好的用戶活躍以及銷售目標；2、能夠隨著數(shù)據(jù)的增加而進化；3、大部分都是基于傳統(tǒng) ML 實現(xiàn)的，最重要的一點數(shù)據(jù)產(chǎn)品是可解釋的。

但有些行業(yè)正在改變，Machine Learning 是主體。當我們放棄通過編寫明確的代碼來解決復雜問題時，這個到 2.0 技術(shù)棧的轉(zhuǎn)變就發(fā)生了，在過去幾年中，很多領(lǐng)域都在突飛猛進。語音識別曾經(jīng)涉及大量的預處理、高斯混合模型和隱式 Markov 模型，但今天幾乎完全被神經(jīng)網(wǎng)絡替代了。早在 1985 年，知名信息論和語言識別專家 Fred Jelinek 就有一句經(jīng)常被引用的段子：“每當我解雇一個語言學家，我們的語音識別系統(tǒng)的性能就會得到提高”。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 12：圖解軟件 2.0 的代表應用

除了大家熟悉的圖像語音識別、語音合成、機器翻譯、游戲挑戰(zhàn)之外，AI 在很多傳統(tǒng)系統(tǒng)也看到了早期的轉(zhuǎn)型跡象。例如 The Case for Learned Index Structures 用神經(jīng)網(wǎng)絡取代了數(shù)據(jù)管理系統(tǒng)的核心組件，在速度上比 B-Trees 緩存優(yōu)化達快 70%，同時節(jié)省了一個數(shù)量級的內(nèi)存。

所以，軟件 2.0 的范式具備了這幾個新特征：1、Deep Learning 是主體，所有的功能都是圍繞神經(jīng)網(wǎng)絡的輸入輸出構(gòu)建的，例如語音識別、自動駕駛；2、可解釋性并不重要，一個好的大數(shù)據(jù)推薦廣告可以告訴客戶用戶看到這條廣告的理由，但你沒法從神經(jīng)網(wǎng)絡中找到規(guī)則，至少目前不行；3、高研發(fā)投入與低開發(fā)投入，現(xiàn)在大量的成功都來自大學和科技公司的研究部門，論文絕對比應用多。。

2.3 軟件 2.0 的優(yōu)勢

為什么我們應該傾向于將復雜的程序移植到軟件 2.0 中？Andrej Karpathy 在《Software 2.0》中給出了一個簡單的答案：它們在實踐中表現(xiàn)得更好！

容易被寫入芯片

由于神經(jīng)網(wǎng)絡的指令集相對較小，主要是矩陣乘法（Matrix Multiplication）和閾值判斷（Thresholding at Zero），因此把它們寫入芯片要容易得多，例如使用定制的 ASIC、神經(jīng)形態(tài)芯片等等（Alan Turing 在設計 ACE 時就這樣考慮了）。例如，小而廉價的芯片可以帶有一個預先訓練好的卷積網(wǎng)絡，它們可以識別語音、合成音頻、處理視覺信號。當我們周圍充斥著低能耗的智能時，世界將會因此而大不同（好壞皆可）。

非常敏捷

敏捷開發(fā)意味著靈活高效。如果你有一段 C++ 代碼，有人希望你把它的速度提高一倍，那么你需要系統(tǒng)性的調(diào)優(yōu)甚至是重寫。然而，在軟件 2.0 中，我們在網(wǎng)絡中刪除一半的通道，重新訓練，然后就可以了。。它的運行速度正好提升兩倍，只是輸出更差一些，這就像魔法。相反，如果你有更多的數(shù)據(jù)或算力，通過添加更多的通道和再次訓練，你的程序就能工作得更好。

模塊可以融合成一個最佳的整體

做過軟件開發(fā)的同學都知道，程序模塊通常利用公共函數(shù)、 API 或遠程調(diào)用來通訊。然而，如果讓兩個原本分開訓練的軟件 2.0 模塊進行互動，我們可以很容易地通過整體進行反向傳播來實現(xiàn)。想象一下，如果你的瀏覽器能夠自動整合改進低層次的系統(tǒng)指令，來提升網(wǎng)頁加載效率，這將是一件令人驚奇的事情。但在軟件 2.0 中，這是默認行為。

它做得比你好

最后，也是最重要的一點，神經(jīng)網(wǎng)絡比你能想到的任何有價值的垂直領(lǐng)域的代碼都要好，目前至少在圖像、視頻、聲音、語音相關(guān)的任何東西上，比你寫的代碼要好。

2.4 Bug 2.0

對于傳統(tǒng)軟件，即軟件 1.0，大多數(shù)程序都通過源代碼保存，這些代碼可能少至數(shù)千行，多至上億行。據(jù)說，谷歌的整個代碼庫大約有 20 億行代碼。無論代碼有多少，傳統(tǒng)的軟件工程實踐表明，使用封裝和模塊化設計，有助于創(chuàng)建可維護的代碼，很容易隔離 Bug 來進行修改。

但在新的范式中，程序被存儲在內(nèi)存中，作為神經(jīng)網(wǎng)絡架構(gòu)的權(quán)重，程序員編寫的代碼很少。軟件 2.0 帶來了兩個新問題：不可解釋和數(shù)據(jù)污染。

因為訓練完成的神經(jīng)網(wǎng)絡權(quán)重，工程師無法理解（不過現(xiàn)在對理解神經(jīng)網(wǎng)絡的研究有了很多進展，第六章會講到），所以我們無法知道正確的執(zhí)行是為什么？錯誤又是因為什么？這個和大數(shù)據(jù)算法有很大的不同，雖然大多數(shù)的應用只關(guān)心結(jié)果，無需解釋；但對于一些安全敏感的領(lǐng)域，比如自動駕駛和醫(yī)療應用，這確實很重要。

在 2.0 的堆棧中，數(shù)據(jù)決定了神經(jīng)網(wǎng)絡的連接，所以不正確的數(shù)據(jù)集和標簽，都會混淆神經(jīng)網(wǎng)絡。錯誤的數(shù)據(jù)可能來自失誤、也可能是人為設計，或者是有針對性的投喂混淆數(shù)據(jù)（這也是人工智能領(lǐng)域中新的程序道德規(guī)范問題）。例如 iOS 系統(tǒng)的自動拼寫功能被意外的數(shù)據(jù)訓練污染了，我們在輸入某些字符的時候就永遠得不到正確的結(jié)果。訓練模型會認為污染數(shù)據(jù)是一個重要的修正，一但完成訓練部署，這個錯誤就像病毒一樣傳播，到達了數(shù)百萬部 iPhone 手機。所以在這種 2.0 版的 Bug 中，需要對數(shù)據(jù)以及程序結(jié)果進行良好的測試，確保這些邊緣案例不會使程序失敗。

在短期內(nèi)，軟件 2.0 將變得越來越普遍，那些沒法通過清晰算法和軟件邏輯化表述的問題，都會轉(zhuǎn)入 2.0 的新范式，現(xiàn)實世界并不適合整齊的封裝。就像明斯基說的，軟件開發(fā)應該更多的關(guān)心目標而不是過程，這種范式有機會顛覆整個開發(fā)生態(tài)，軟件 1.0 將成為服務于軟件 2.0 周邊系統(tǒng)，一同來搭建面向智能的架構(gòu)。有越來越清楚的案例表明，當我們開發(fā)通用人工智能（AGI）時，它一定會寫在軟件 2.0 中。

03、面向智能的架構(gòu)

回顧過去十多年 Deep Learning 在人工智能領(lǐng)域波瀾壯闊的發(fā)展，大家把所有的關(guān)注點都集中了算法的突破、訓練模型的創(chuàng)新還有智能應用的神奇表現(xiàn)上，這些當然可以理解，但關(guān)于智能系統(tǒng)的基礎設施被提及的太少了。

正如在計算機發(fā)展的早期，人們需要匯編語言、編譯器和操作系統(tǒng)方面的專家來開發(fā)一個簡單的應用程序，所以今天你需要大量的數(shù)據(jù) 和分布式系統(tǒng) 才能大規(guī)模地部署人工智能。經(jīng)濟學大師 Andrew McAfee 和 Erik Brynjolfsson 在他們的著作《Machine, Platform, Crowd: Harnessing Our Digital Future》中諷刺地調(diào)侃：“我們的機器智能時代仍然是人力驅(qū)動的”。

好在 GANs 的出現(xiàn)讓完全依賴人工數(shù)據(jù)的訓練成本大幅下降，還有 Google AI 在持續(xù)不斷的努力讓 AI 的基礎設施平民化。但這一切還在很早期，我們需要新的智能基礎設施，讓眾包數(shù)據(jù)變成眾包智能，把人工智能的潛力從昂貴的科研機構(gòu)和少數(shù)精英組織中釋放出來，讓其工程化。

3.1 Infrastructure 3.0

應用程序和基礎設施的發(fā)展是同步的。

Infrastructure 1.0 - C / S（客戶端 / 服務器時代）

商業(yè)互聯(lián)網(wǎng)在上世紀 90 年代末期成熟起來，這要歸功于 x86 指令集（Intel）、標準化操作系統(tǒng)（Microsoft）、關(guān)系數(shù)據(jù)庫（Oracle）、以太網(wǎng)（Cisco）和網(wǎng)絡數(shù)據(jù)存儲（EMC）。Amazon，eBay，Yahoo，甚至最早的 Google 和 Facebook 都建立在這個我們稱之為 Infrastructure 1.0 的基礎上。

Infrastructure 2.0 - Cloud（云時代）

Amazon AWS、Google Cloud 還有 Microsoft Azure 定義了一種新的基礎設施類型，這種基礎設施是無需物理部署可持續(xù)運行的、可擴展的、可編程的，它們有些是開源，例如 Linux、MySQL、Docker、Kubernetes、Hadoop、 Spark 等等，但大多數(shù)都是要錢的，例如邊緣計算服務 Cloudflare、數(shù)據(jù)庫服務 MangoDB、消息服務 Twilio、支付服務 Stripe，所有這些加在一起定義了云計算時代。

歸根結(jié)底，這一代技術(shù)把互聯(lián)網(wǎng)擴展到數(shù)十億的終端用戶，并有效地存儲了從用戶那里獲取的信息。Infrastructure 2.0 的創(chuàng)新催化了數(shù)據(jù)急劇增長，結(jié)合算力和算法飛速進步，為今天的 Machine Learning 時代搭建了舞臺。

Infrastructure 2.0 關(guān)注的問題是 - “我們?nèi)绾芜B接世界?” 今天的技術(shù)重新定義了這個問題 - “我們?nèi)绾卫斫膺@個世界?” 這種區(qū)別就像連通性與認知性的區(qū)別，先認識再了解。2.0 架構(gòu)中的各種服務，在給這個新的架構(gòu)源源不斷的輸送數(shù)據(jù)，這就像廣義上的眾包；訓練算法從數(shù)據(jù)中推斷出邏輯（神經(jīng)網(wǎng)絡），然后這種邏輯就被用于對世界做出理解和預測。這種收集并處理數(shù)據(jù)、訓練模型最后再部署應用的新架構(gòu)，就是 Infrastructure 3.0 - 面向智能的架構(gòu)。其實我們的大腦也是這樣工作的，我會在第六章中詳細介紹。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 13：Hidden technical debt in Machine Learning Systems

在現(xiàn)實世界的 Machine Learning 系統(tǒng)中，只有一小部分是由 ML 代碼組成的，如中間的小黑盒所示，其周邊基礎設施巨大而繁雜。一個“智能”的應用程序，數(shù)據(jù)非常密集，計算成本也非常高。這些特性使得 ML 很難適應已經(jīng)發(fā)展了七十多年的通用的馮?諾依曼計算范式。為了讓 Machine Learning 充分發(fā)揮其潛力，它必須走出今天的學術(shù)殿堂，成為一門工程學科。這實際上意味著需要有新的抽象架構(gòu)、接口、系統(tǒng)和工具，使開發(fā)人員能夠方便地開發(fā)和部署這些智能應用程序。

3.2 如何組裝智能

想要成功構(gòu)建和部署人工智能，需要一個復雜的流程，這里涉及多個獨立的系統(tǒng)。首先，需要對數(shù)據(jù)進行采集、清理和標記；然后，必須確定預測所依據(jù)的特征；最后，開發(fā)人員必須訓練模型，并對其進行驗證和持續(xù)優(yōu)化。從開始到結(jié)束，現(xiàn)在這個過程可能需要幾個月或者是數(shù)年，即使是行業(yè)中最領(lǐng)先的公司或者研究機構(gòu)。

好在除了算法和模型本身之外，組裝智能架構(gòu)中每個環(huán)節(jié)的效率都在提升，更高的算力和分布式計算框架，更快的網(wǎng)絡和更強大的工具。在每一層技術(shù)棧，我們都開始看到新的平臺和工具出現(xiàn)，它們針對 Machine Learning 的范式進行了優(yōu)化，這里面機會豐富。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 14：Intelligence Infrastructure from Determined AI

參照智能架構(gòu)領(lǐng)域的投資專家 Amplify Partners 的分類，簡單做個技術(shù)棧說明。

為 Machine Learning 優(yōu)化的高性能芯片，它們內(nèi)置多計算核心和高帶寬內(nèi)存（HBM），可以高度并行化，快速執(zhí)行矩陣乘法和浮點數(shù)學神經(jīng)網(wǎng)絡計算，例如 Nvidia 的 H100 Tensor Core GPU 還有 Google 的 TPU；

能夠完全發(fā)揮硬件效率的系統(tǒng)軟件，可以將計算編譯到晶體管級別。Nvidia 在 2006 年就推出的 CUDA 到現(xiàn)在也都保持著領(lǐng)先地位，CUDA 是一個軟件層，可以直接訪問 GPU 的虛擬指令集，執(zhí)行內(nèi)核級別的并行計算；

用于訓練和推理的分布式計算框架（Distributed Computing Frameworks），可以有效地跨多個節(jié)點，擴展模型的訓練操作；

數(shù)據(jù)和元數(shù)據(jù)管理系統(tǒng)，為創(chuàng)建、管理、訓練和預測數(shù)據(jù)而設計，提供了一個可靠、統(tǒng)一和可重復使用的管理通道。

極低延遲的服務基礎設施，使機器能夠快速執(zhí)行基于實時數(shù)據(jù)和上下文相關(guān)的智能操作；

Machine Learning 持續(xù)集成平臺（MLOps），模型解釋器，質(zhì)保和可視化測試工具，可以大規(guī)模的監(jiān)測，調(diào)試，優(yōu)化模型和應用；

封裝了整個 Machine Learning 工作流的終端平臺（End to End ML Platform），抽象出全流程的復雜性，易于使用。幾乎所有的擁有大用戶數(shù)據(jù)量的 2.0 架構(gòu)公司，都有自己內(nèi)部的 3.0 架構(gòu)集成系統(tǒng)，Uber 的 Michelangelo 平臺就用來訓練出行和訂餐數(shù)據(jù)；Google 的 TFX 則是面向公眾提供的終端 ML 平臺，還有很多初創(chuàng)公司在這個領(lǐng)域，例如 Determined AI。

總的來說，Infrastructure 3.0 將釋放 AI / ML 的潛力，并為人類智能系統(tǒng)的構(gòu)建添磚加瓦。與前兩代架構(gòu)一樣，雖然上一代基礎設施的巨頭早已入場，但每一次范式轉(zhuǎn)移，都會有有新的項目、平臺和公司出現(xiàn)，并挑戰(zhàn)目前的在位者。

2.3 智能架構(gòu)的先鋒

Deep Learning 被大科技公司看上的關(guān)鍵時刻是在 2010 年。在 Palo Alto 的一家日餐晚宴上，斯坦福大學教授 Andrew Ng 在那里會見了 Google 的 CEO Larry Page 和當時擔任 Google X 負責人的天才計算機科學家 Sebastian Thrun。就在兩年前，Andrew 寫過一篇關(guān)于將 GPU 應用于 DL 模型有效性分析論文。要知道 DL 在 2008 年是非常不受歡迎的，當時是算法的天下。

幾乎在同一時期，Nvidia 的 CEO Jensen Huang 也意識到 GPU 對于 DL 的重要性，他是這樣形容的："Deep Learning 就像大腦，雖然它的有效性是不合理的，但你可以教它做任何事情。這里有一個巨大的障礙，它需要大量的計算，而我們就是做 GPU 的，這是一個可用于 Deep Learning 的近乎理想的計算工具"。

以上故事的細節(jié)來自 Forbes 在 2016 年的一篇深度報道。自那時起，Nvidia 和 Google 就走上了 Deep Learning 的智能架構(gòu)之路，一個從終端的 GPU 出發(fā)，另一個從云端的 TPU 開始。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 15：Nvidia AI vs Google AI 的對比

Nvidia 今天賺的大部分錢的來自游戲行業(yè)，通過銷售 GPU，賣加速芯片的事情 AMD 和很多創(chuàng)業(yè)公司都在做，但 Nvidia 在軟件堆棧上的能力這些硬件公司無人能及，因為它有從內(nèi)核到算法全面控制的 CUDA，還能讓數(shù)千個芯片協(xié)同工作。這種整體控制力，讓 Nvidia 可以發(fā)展云端算力服務，自動駕駛硬件以及嵌入式智能機器人硬件，以及更加上層的 AI 智能應用和 Omniverse 數(shù)字模擬世界。

Google 擁抱 AI 的方式非常學術(shù)，他們最早成立了 Google Brain 嘗試大規(guī)模神經(jīng)網(wǎng)絡訓練，點爆了這個領(lǐng)域的科技樹，像 GANs 這樣充滿靈感的想法也是來自于 Google （Ian Goodfellow 同學當時任職于 Google Brain）。在 2015 年前后 Google 先后推出了 TensorFlow 還有 TPU（Tensor Processing Unit - 張量芯片），同年還收購了 DeepMind 來擴張研究實力。Google AI 更傾向于用云端的方式給大眾提供 AI / ML 的算力和全流程工具，然后通過投資和收購的方式把智能融入到自己的產(chǎn)品線。

現(xiàn)在幾乎所有的科技巨頭，都在完善自己的“智能”基礎設施，Microsoft 在 2019 年投資了 10 億美金給 OpenAI 成為了他們最大的機構(gòu)股東；Facebook 也成立了 AI 研究團隊，這個僅次于他們 Reality Lab 的地位，Metaverse 里所需的一切和“智能”相關(guān)的領(lǐng)域他們都參與，今年底還和 AMD 達成合作，投入 200 億美元并用他們的芯片來搭建新的“智能”數(shù)據(jù)中心；然后就是 Tesla，在造電車之外不務正業(yè)搭建了世界上規(guī)模最大的超級電腦 Dojo，它將被用來訓練 FSD 的神經(jīng)網(wǎng)絡和為未來的 Optimus（Tesla 人形機器人）的大腦做準備。

正如過去二十年見證了“云計算技術(shù)?！钡某霈F(xiàn)一樣，在接下來的幾年里，我們也期待著一個巨大的基礎設施和工具生態(tài)系統(tǒng)將圍繞著智能架構(gòu) - Infrastructure 3.0 建立起來。Google 目前正處于這個領(lǐng)域的前沿，他們試圖自己的大部分代碼用軟件 2.0 的范式重寫，并在新的智能架構(gòu)里運行，因為一個有可能一統(tǒng)江湖的“模型”的已經(jīng)出現(xiàn)，雖然還非常早期，但機器智能對世界的理解很快將趨向一致，就像我們的大腦皮質(zhì)層理解世界那樣。

04、一統(tǒng)江湖的模型

想象一下，你去五金店，看到架子上有一種新款的錘子。你或許已經(jīng)聽說過這種錘子了，它比其他的錘子更快、更準；而且在過去的幾年里，許多其他的錘子在它面前都顯得過時了。你只需要加一個配件再扭一下，它就變成了一個鋸子，而且和其它的鋸子一樣快、一樣準。事實上，這個工具領(lǐng)域的前沿專家說，這個錘子可能預示著所有的工具都將集中到單一的設備中。

類似的故事也在 AI 的工具中上演，這種多用途的新型錘子是一種神經(jīng)網(wǎng)絡，我們稱之為 Transformer（轉(zhuǎn)換器模型 - 不是動畫片里的變形金剛），它最初被設計用來處理自然語言，但最近已經(jīng)開始影響 AI 行業(yè)的其它領(lǐng)域了。

4.1 Transformer 的誕生

2017 年 Google Brain 和多倫多大學的研究人員一同發(fā)表了一篇名為《Attention Is All You Need》的論文，里面提到了一個自然語言處理（NLP）的模型 Transformer，這應該是繼 GANs 之后 Deep Learning 領(lǐng)域最重大的發(fā)明。2018 年 Google 在 Transformer 的基礎上實現(xiàn)并開源了第一款自然語言處理模型 BERT；雖然研究成果來自 Google，但很快被 OpenAI 采用，創(chuàng)建了 GPT-1 和最近的火爆的 GPT-3。其他公司還有開源項目團隊緊隨其后，實現(xiàn)了自己的 Transformer 模型，例如 Cohere，AI21，Eleuther（致力于讓 AI 保持開源的項目）；也有用在其它領(lǐng)域的創(chuàng)新，例如生成圖像的 Dall-E 2、MidJourney、Stable Diffusion、Disco Diffusion, Imagen 和其它許多。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 16：發(fā)表《Attention Is All You Need》論文的八位同學

發(fā)表這篇論文的 8 個人中，有 6 個人已經(jīng)創(chuàng)辦了公司，其中 4 個與人工智能相關(guān)，另一個創(chuàng)辦了名為 Near.ai 的區(qū)塊鏈項目。

自然語言處理這個課題在上世紀五十年代開創(chuàng) AI 學科的時候就明確下來了，但只到有了 Deep Learning 之后，它的準確度和表達合理性才大幅提高。序列傳導模型（Seq2Seq）是用于 NLP 領(lǐng)域的一種 DL 模型，在機器翻譯、文本摘要和圖像字幕等方面取得了很大的成功，2016 年之后 Google 在搜索提示、機器翻譯等項目上都有使用。序列傳導模型是在輸入端一個接一個的接收并編碼項目（可以是單詞、字母、圖像特征或任何計算機可以讀取的數(shù)據(jù))，并在同步在輸出端一個接一個解碼輸出項目的模型。

在機器翻譯的案例中，輸入序列就是一系列單詞，經(jīng)過訓練好的神經(jīng)網(wǎng)絡中復雜的矩陣數(shù)學計算，在輸出端的結(jié)果就是一系列翻譯好的目標詞匯。

Transformer 也是一款用于 NLP 的序列傳導模型，論文簡潔清晰的闡述了這個新的網(wǎng)絡結(jié)構(gòu)，它只基于注意力機制（Attention），完全不需要遞歸（RNN）和卷積（CNN）。在兩個機器翻譯的實驗表明，這個模型在質(zhì)量上更勝一籌，同時也更容易并行化，需要的訓練時間也大大減少。

好奇心強的同學，如果想了解 Transformer 模型的具體工作原理，推薦閱讀 Giuliano Giacaglia 的這篇《How Transformers Work》。

4.2 Foundation Models

斯坦福大學 CRFM & HAI 的研究人員在 2021 年 8 月的一篇名為《On the Opportunities and Risks of Foundation Models》的論文中將 Transformer 稱為 Foundation Models（基礎模型），他們認為這個模型已經(jīng)推動了 AI 領(lǐng)域新一輪的范式轉(zhuǎn)移。事實上，過去兩年在 arVix 上發(fā)表的關(guān)于 AI 的論文中，70% 都提到了 Transformer，這與 2017 年 IEEE 的一項研究相比是一個根本性的轉(zhuǎn)變，那份研究的結(jié)論是 RNN 和 CNN 是當時最流行的模型。

從 NLP 到 Generative AI

來自 Google Brain 的計算機科學家 Maithra Raghu 分析了視覺轉(zhuǎn)換器（Vision Transformer），以確定它是如何“看到”圖像的。與 CNN 不同，Transformer 可以從一開始就捕捉到整個圖像，而 CNN 首先關(guān)注小的部分來尋找像邊緣或顏色這樣的細節(jié)。

這種差異在語言領(lǐng)域更容易理解，Transformer 誕生于 NLP 領(lǐng)域。例如這句話：“貓頭鷹發(fā)現(xiàn)了一只松鼠。它試圖抓住它，但只抓到了尾巴的末端?！?第二個句子的結(jié)構(gòu)令人困惑: “它”指的是什么？如果是 CNN 就只會關(guān)注“它”周圍的詞，那會十分不解；但是如果把每個詞和其他詞連接起來，就會發(fā)現(xiàn)是”貓頭鷹抓住了松鼠，松鼠失去了部分尾巴”。這種關(guān)聯(lián)性就是“Attention”機制，人類就是用這種模式理解世界的。

Transformer 將數(shù)據(jù)從一維字符串（如句子）轉(zhuǎn)換為二維數(shù)組（如圖像）的多功能性表明，這種模型可以處理許多其他類型的數(shù)據(jù)。就在 10 年前，AI 領(lǐng)域的不同分支幾乎沒有什么可以交流的，計算機科學家 Atlas Wang 這樣表述，“我認為 Transformer 之所以如此受歡迎，是因為它暗示了一種變得通用的潛力，可能是朝著實現(xiàn)某種神經(jīng)網(wǎng)絡結(jié)構(gòu)大融合方向的重要一步，這是一種通用的計算機視覺方法，或許也適用于其它的機器智能任務”。

更多基于 Transformer 模型的 Generative AI 案例，推薦好友 Rokey 的這篇《AI 時代的巫師與咒語》，這應該是中文互聯(lián)網(wǎng)上寫得最詳細清晰的一篇。

涌現(xiàn)和同質(zhì)化

Foundation Models 的意義可以用兩個詞來概括：涌現(xiàn)和同質(zhì)化。涌現(xiàn) 是未知和不可預測的，它是創(chuàng)新和科學發(fā)現(xiàn)的源頭。同質(zhì)化表示在廣泛的應用中，構(gòu)建 Machine Learning 的方法論得到了整合；它讓你可以用統(tǒng)一的方法完成不同的工作，但也創(chuàng)造了單點故障。我們在 Bug 2.0 那一小節(jié)中提到的數(shù)據(jù)污染會被快速放大，現(xiàn)在還會波及到所有領(lǐng)域。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 18：人工智能的涌現(xiàn)過程（來自斯坦福研究人員 2021 年 8 月的論文）

AI 的進化史一個不斷涌現(xiàn)和同質(zhì)化的過程。隨著 ML 的引入，可以從實例中學習（算法概率推論）；隨著 DL 的引入，用于預測的高級特征出現(xiàn)；隨著基礎模型（Foundation Models）的出現(xiàn)，甚至出現(xiàn)了更高級的功能，在語境中學習。同時，ML 將算法同質(zhì)化（例如 RNN），DL 將模型架構(gòu)同質(zhì)化（例如 CNN），而基礎模型將模型本身同質(zhì)化（如 GPT-3）。

一個基礎模型如果可以集中來自各種模式的數(shù)據(jù)。那么這個模型就可以廣泛的適應各種任務。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 19：Foundation Model 的轉(zhuǎn)換（來自斯坦福研究人員 2021 年 8 月的論文）

除了在翻譯、文本創(chuàng)作、圖像生成、語音合成、視頻生成這些耳熟能詳?shù)念I(lǐng)域大放異彩之外，基礎模型也被用在了專業(yè)領(lǐng)域。

DeepMind 的 AlphaFold 2 在 2020 年 12 月成功的把蛋白質(zhì)結(jié)構(gòu)預測的準確度提升到了 90% 多，大幅超過所有的競爭對手。他們在《自然》雜志上發(fā)表的文章中提到，像處理文本字符串這樣讀取氨基酸鏈，用這個數(shù)據(jù)轉(zhuǎn)換成可能的蛋白質(zhì)折疊結(jié)構(gòu)，這項工作可以加速藥物的發(fā)現(xiàn)。類似的應用也在藥物公司發(fā)生，阿斯利康（AstraZeneca）和 NVIDIA 聯(lián)合開發(fā)了 MegaMolBART，可以在未標記的化合物數(shù)據(jù)庫上進行培訓練，大幅提升效率。

大規(guī)模語言模型

這種通用化的特征，讓大規(guī)模神經(jīng)網(wǎng)絡的訓練變得非常有意義。自然語言又是所有可訓練數(shù)據(jù)中最豐富的，它能夠讓基礎模型在語境中學習，轉(zhuǎn)換成各種需要的媒體內(nèi)容，自然語言 = 編程方式 = 通用界面。

因此，大規(guī)模語言模型（LLMs - Large Scale Language Models）成了科技巨頭和新創(chuàng)業(yè)公司必爭之地。在這個軍備競賽之中，財大氣粗就是優(yōu)勢，它們可以花費數(shù)億美元采購 GPU 來培訓 LLMs，例如 OpenAI 的 GPT-3 有 1750 億個參數(shù)，DeepMind 的 Gopher 有 2800 億個參數(shù)，Google 自己的 GLaM 和 LaMDA 分別有 1.2 萬億個參數(shù)和 1370 億個參數(shù)，Microsoft 與 Nvidia 合作的 Megatron-Turing NLG 有 5300 億個參數(shù)。

但 AI 有個特征它是涌現(xiàn) 的，大多數(shù)情況挑戰(zhàn)是科學問題，而不是工程問題。在 Machine Learning 中，從算法和體系結(jié)構(gòu)的角度來看，還有很大的進步空間。雖然，增量的工程迭代和效率提高似乎有很大的空間，但越來越多的 LLMs 創(chuàng)業(yè)公司正在籌集規(guī)模較小的融資（1000 萬至 5000 萬美元) ，它們的假設是，未來可能會有更好的模型架構(gòu)，而非純粹的可擴展性。

4.3 AI 江湖的新機會

隨著模型規(guī)模和自然語言理解能力的進一步增強（擴大訓練規(guī)模和參數(shù)就行），我們可以預期非常多的專業(yè)創(chuàng)作和企業(yè)應用會得到改變甚至是顛覆。企業(yè)的大部分業(yè)務實際上是在“銷售語言”—— 營銷文案、郵件溝通、客戶服務，包括更專業(yè)的法律顧問，這些都是語言的表達，而且這些表達可以二維化成聲音、圖像、視頻，也能三維化成更真實的模型用于元宇宙之中。機器能理解文檔或者直接生成文檔，將是自 2010 年前后的移動互聯(lián)網(wǎng)革命和云計算以來，最具顛覆性的轉(zhuǎn)變之一。參考移動時代的格局，我們最終也會有三種類型的公司：

1、平臺和基礎設施

移動平臺的終點是 iPhone 和 Android，這之后都沒有任何機會了。但在基礎模型領(lǐng)域 OpenAI、Google、Cohere、AI21、Stability.ai 還有那些構(gòu)建 LLMs 的公司的競爭才剛剛開始。這里還有許多許新興的開源選項例如 Eleuther。云計算時代，代碼共享社區(qū) Github 幾乎托管了軟件 1.0 的半壁江山，所以像 Hugging Face 這種共享神經(jīng)網(wǎng)絡模型的社群，應該也會成為軟件 2.0 時代智慧的樞紐和人才中心。

2、平臺上的獨立應用

因為有了移動設備的定位、感知、相機等硬件特性，才有了像 Instagram，Uber，Doordash 這種離開手機就不會存在的服務?，F(xiàn)在基于 LLMs 服務或者訓練 Transformer 模型，也會誕生一批新的應用，例如 Jasper（創(chuàng)意文案）、Synthesia（合成語音與視頻），它們會涉及 Creator & Visual Tools、Sales & Marketing、Customer Support、Doctor & Lawyers、Assistants、Code、Testing、Security 等等各種行業(yè)，如果沒有先進的 Machine Learning 突破，這些就不可能存在。

紅衫資本美國（SequoiaCap）最近一篇很火的文章《Generative AI: A Creative New World》詳細分析了這個市場和應用，就像在開篇介紹的那樣，整個投資界在 Web 3 的投機挫敗之后，又開始圍獵 AI 了。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 21：在模型之上的應用分類（Gen AI market map V2）

3、現(xiàn)有產(chǎn)品智能化

在移動互聯(lián)網(wǎng)的革命中，大部分有價值的移動業(yè)務依舊被上個時代的巨頭所占據(jù)。例如，當許多初創(chuàng)公司試圖建立“Mobile CRM”應用時，贏家是增加了移動支持的 CRM 公司，Salesforce 沒有被移動應用取代。同樣，Gmail、Microsoft Office 也沒有被移動應用取代，他們的移動版做得還不錯。最終，Machine Learning 將被內(nèi)置到用戶量最大的 CRM 工具中，Salesforce 不會被一個全新由 ML 驅(qū)動的 CRM 取代，就像 Google Workspace 正在全面整合它們的 AI 成果一樣。

我們正處于智能革命的初期，很難預測將要發(fā)生的一切。例如 Uber 這樣的應用，你按下手機上的按鈕，就會有一個陌生人開車來接你，現(xiàn)在看來稀疏平常，但智能手機剛出現(xiàn)的時候你絕對想不到這樣的應用和交互界面。那些人工智能的原生應用也將如此，所以請打開腦洞，最有趣的應用形態(tài)還在等你去發(fā)掘。

我們已經(jīng)感受了基礎模型的強大，但這種方法真能產(chǎn)生的智力和意識么？今天的人工智能看起來非常像工具，而不像智能代理。例如，像 GPT-3 在訓練過程中不斷學習，但是一旦模型訓練完畢，它的參數(shù)的各種權(quán)重就設置好了，不會隨著模型的使用而發(fā)生新的學習。想象一下，如果你的大腦被凍結(jié)在一個瞬間，可以處理信息，但永遠不會學到任何新的東西，這樣的智能是你想要的么？Transformer 模型現(xiàn)在就是這樣工作的，如果他們變得有知覺，可以動態(tài)的學習，就像大腦的神經(jīng)元無時不刻不在產(chǎn)生新的連接那樣，那它們更高級的形態(tài)可能代表一種新的智能。我們會在第六章聊一下這個話題，在這之前，先來看看 AI 如何在現(xiàn)實世界中生存的。

05、現(xiàn)實世界的 AI

過去對無人操作電梯的擔憂與我們今天聽到的對無人駕駛汽車的擔憂十分相似。
Garry Kasparov

現(xiàn)實世界的 AI（Real World AI），按照 Elon Musk 的定義就是 “模仿人類來感知和理解周圍的世界的 AI”，它們是可以與人類世界共處的智能機器。我們在本文前面四章中提到的用 AI 來解決的問題，大多數(shù)都是你輸入數(shù)據(jù)或者提出目標，然后 AI 反饋給你結(jié)果或者完成目標，很少涉及和真實世界的環(huán)境互動。在真實世界中，收集大量數(shù)據(jù)是極其困難的，除非像 Tesla 一樣擁有幾百萬輛帶著攝像頭還實時聯(lián)網(wǎng)的電車來幫你采集數(shù)據(jù)；其次感知、計劃再到行動，應該會涉及到多種神經(jīng)網(wǎng)絡和智能算法的組合，就像大腦控制人的行為那樣，這同樣也是對研發(fā)和工程學的極端挑戰(zhàn)。但在 Transformer 模型誕生之后，能夠征服現(xiàn)實世界的 AI 又有了新的進展。

5.1 自動駕駛新前沿

就在前幾周 Ford 旗下的 Argo AI 宣布倒閉，一時間又給備受爭議的自動駕駛領(lǐng)域蒙上了陰影。目前還沒有一家做自動駕駛方案的公司真正盈利，除了傳奇的 George Hotz 所創(chuàng)辦的 Comma.ai，這個當年 Elon Musk 都沒撬動的軟件工程師和高級黑客。

技術(shù)路線的選擇

一輛可以自動駕駛汽車，實際上就是一臺是需要同時解決硬件和軟件問題的機器人。它需要用攝像頭、雷達或其他硬件設備來感知周圍環(huán)境，軟件則是在了解環(huán)境和物理位置的情況下規(guī)劃路線，最終讓車輛駛達目的地。

目前的自動駕駛主要兩大流派：純視覺的系統(tǒng) 和基于激光雷達的系統(tǒng)。Google 的 Waymo 是激光雷達方案的先驅(qū)，還有剛破產(chǎn)的 Argo AI 也是，其實大部分都是這個流派，因為優(yōu)勢很明顯，激光雷達可以精準的識別三維世界，不需要太復雜的神經(jīng)網(wǎng)絡訓練就能輕松上路，但大功率激光雷達的成本是個大問題；采用純視覺方案的只有 Tesla 和 Comma 這樣的另類公司，它們完全靠攝像頭和軟件，無需任何輔助感知硬件。

激光雷達還有另一個問題，它眼中的世界沒有色彩也沒有紋理，必須配合攝像頭才能描繪真實世界的樣子。但兩種數(shù)據(jù)混合起來會讓算法極其復雜，因此 Tesla 完全放棄了激光雷達，甚至是超聲波雷達，節(jié)省成本是很重要的一個原因，另一個原因是現(xiàn)實世界都道路都是為人類駕駛設計的，人只靠視覺就能完成這個任務為什么人工智能不行？這個理由很具 Elon Musk 的風格，只需要加大在神經(jīng)網(wǎng)絡上的研發(fā)投入就可以。

Waymo 和 Tesla 是自動駕駛領(lǐng)域的領(lǐng)跑者，Gartner 的副總裁 Mike Ramsey 這樣評價：“如果目標是為大眾提供自動駕駛輔助，那么 Tesla 已經(jīng)很接近了；如果目標讓車輛能夠安全的自動行駛，那么 Waymo 正在取得勝利”。Waymo 是 Level 4，可以在有限的地理條件下自動駕駛，不需要司機監(jiān)督，但驅(qū)動它的技術(shù)還沒有準備好讓其在測試領(lǐng)域之外的大眾市場上使用，而且造價昂貴。從 2015 年開始，Tesla 花了六年多的時間趕上了 Waymo 現(xiàn)在的測試數(shù)據(jù)，同時用于自動駕駛的硬件越來越少，成本越來越低。Tesla 的戰(zhàn)略很有意思：“自動駕駛要適應任何道路，讓車像人一樣思考”，如果成功的話，它的可擴展性會大得多。

讓車看見和思考

Tesla 在 AI 上的押注是從 2017 年 Andrej Karpathy 的加入開始的，一個靈魂人物確實能改變一個行業(yè)。Andrej 領(lǐng)導的 AI 團隊完全重構(gòu)了原有的自動駕駛技術(shù)，采用最新的神經(jīng)網(wǎng)絡模型 Transformer 訓練了完全基于視覺的自動導航系統(tǒng) FSD Beta 10，在 2021 年的 AI Day 上，Tesla AI 團隊也毫無保留了分享了這些最新的研發(fā)成果，目的是為了招募更多人才加入。

為了讓車可以像人一樣思考，Tesla 模擬了人類大腦處理視覺信息的方式，這是一套的由多種神經(jīng)網(wǎng)絡和邏輯算法組合而成的復雜流程。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 22：The Architecture of Tesla AutoPilot

FSD 的自動駕駛步驟大概如下：

1.視覺影像收集：通過車載的 6 個 1280x960 解析度的攝像頭，采集 12bit 色深的視頻，識別出環(huán)境中的各種物體和 Triggers（道路情況）

2.向量空間生成：人類看到的世界是大腦根據(jù)感知數(shù)據(jù)實時構(gòu)建還原的三維世界，Tesla 用同樣的機制把車周圍世界的全部信息都投射到四維向量空間中，再做成動態(tài)的 BEV 鳥瞰圖，讓車在立體的空間中行使和預測，從而可以精準控制。在 2021 年之前采用的是基于 Transformer 模型的 HydraNets，現(xiàn)在已經(jīng)升級到最新的 Occupancy Networks，它可以更加精準的識別物體在 3D 空間中的占用情況

3.神經(jīng)網(wǎng)絡路線規(guī)劃：采用蒙特卡洛算法（mcts）在神經(jīng)網(wǎng)絡的引導下計算，快速完成自己路徑的搜索規(guī)劃，而且算法還能給所有移動的目標都做計劃，并且可以及時改變計劃?？磩e人的反應作出自己的決策，這不就是人類思維么？

Tesla FSD 能夠如此快速的感知和決策，還得靠背后超級電腦 Tesla Dojo 的神經(jīng)網(wǎng)絡訓練，這和 OpenAI 還有 Google 訓練 LLMs 類似，只不過這些數(shù)據(jù)不來自互聯(lián)網(wǎng)，而是跑在路上的每一輛 Tesla 汽車，通過 Shadow Mode 為 Dojo 提供真實的 3D 空間訓練數(shù)據(jù)。

大自然選擇了眼睛來作為最重要的信息獲取器官，也許是冥冥之中的進化必然。一個有理論認為 5.3 億年前的寒武紀物種大爆發(fā)的部分原因是因為能看見世界了，它讓新的物種可以在快速變化的環(huán)境中移動和導航、規(guī)劃行動了先和環(huán)境做出互動，生存概率大幅提高。同理，讓機器能看見，會不會一樣讓這個新物種大爆發(fā)呢？

5.2 不是機器人，是智能代理

并不是所有的機器人都具備感知現(xiàn)實世界的智能。對于一個在倉庫搬運貨物的機器人來說，它們不需要大量的 Deep Learning，因為環(huán)境是已知的和可預測的，大部分在特定環(huán)境中使用的自動駕駛汽車也是一樣的道理。就像讓人驚嘆的 Boston Dynamic 公司機器人的舞蹈，他們有世界上最好的機器人控制技術(shù)，但要做那些安排好的動作，用程序把規(guī)則寫好就行。很多看官都會覺得 Tesla 在今年九月發(fā)布的機器人 Tesla Optimus 那慢悠悠的動作和 Boston Dynamic 的沒法比，但擁有一個優(yōu)秀的機器大腦和可以量產(chǎn)的設計更重要。

自動駕駛和真實世界互動的核心是安全，不要發(fā)生碰撞；但 AI 驅(qū)動的機器人的核心是和真實世界發(fā)生互動，理解語音，抓握避讓物體，完成人類下達的指令。驅(qū)動 Tesla 汽車的 FSD 技術(shù)同樣會用來驅(qū)動 Tesla Optimus 機器人，他們有相同的心臟（FSD Computer）和相同的大腦（Tesla Dojo）。但訓練機器人比訓練自動駕駛還要困難，畢竟沒有幾百萬個已經(jīng)投入使用的 Optimus 幫你從現(xiàn)實世界采集數(shù)據(jù)，這時 Metaverse 概念中的虛擬世界就能展露拳腳了。

虛擬世界中的模擬真實

為機器人感知世界建立新的基礎模型將需要跨越不同環(huán)境大量數(shù)據(jù)集，那些虛擬環(huán)境、機器人交互、人類的視頻、以及自然語言都可以成為這些模型的有用數(shù)據(jù)源，學界對使用這些數(shù)據(jù)在虛擬環(huán)境中訓練的智能代理有個專門的分類 EAI（Embodied artificial intelligence）。在這一點上，李飛飛再次走在了前列，她的團隊發(fā)布了一個標準化的模擬數(shù)據(jù)集 BEHAVIOR，包含 100 個類人常見動作，例如撿玩具、擦桌子、清潔地板等等，EAI 們可以在任何虛擬世界中進行測試，希望這個項目能像 ImageNet 那樣對人工智能的訓練數(shù)據(jù)領(lǐng)域有杰出的學術(shù)貢獻。

在虛擬世界中做模擬，Meta 和 Nvidia 自然不能缺席。佐治亞理工學院的計算機科學家 Dhruv Batra 也是 Meta AI 團隊的主管，他們創(chuàng)造了一個名叫 AI 棲息地（AI Habitat）虛擬世界，目標是希望提高模擬速度。在這里智能代理只需掛機 20 分鐘，就可以學成 20 年的模擬經(jīng)驗，這真是元宇宙一分鐘，人間一年呀。Nvidia 除了給機器人提供計算模塊之外，由 Omniverse 平臺提供支持的 NVIDIA Isaac Sim 是一款可擴展的機器人模擬器與合成數(shù)據(jù)生成工具，它能提供逼真的虛擬環(huán)境和物理引擎，用于開發(fā)、測試和管理智能代理。

機器人本質(zhì)上是具體化的智能代理，許多研究人員發(fā)現(xiàn)在虛擬世界中訓練成本低廉、受益良多。隨著參與到這個領(lǐng)域的公司越來越多，那么數(shù)據(jù)和訓練的需求也會越來越大，勢必會有新的適合 EAI 的基礎模型誕生，這里面潛力巨大。

Amazon Prime 最新的科幻劇集《The Peripheral》，改編自 William Gibson 在 2014 年的出版的同名小說，女主角就可以通過腦機接口進入到未來的智能代理。以前一直覺得 Metaverse 是人類用來逃避現(xiàn)實世界的，但對于機器人來說，在 Metaverse 中修行才是用來征服現(xiàn)實世界的。

ARK Invest 在他們的 Big Ideas 2022 報告中提到，根據(jù)萊特定律，AI 相對計算單元（RCU - AI Relative Compute Unit）的生產(chǎn)成本可以每年下降 39%，軟件的改進則可以在未來八年內(nèi)貢獻額外 37% 的成本下降。換句話說，到 2030 年，硬件和軟件的融合可以讓人工智能訓練的成本以每年 60% 的速度下降。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 26：AI 在 2030 年的市場規(guī)模 87 萬億美元

AI 硬件和軟件公司的市值可以以大約 50% 的年化速度擴大，從 2021 年的 2.5 萬億美元劇增到 2030 年的 87 萬億美元。

通過將知識工作者的任務自動化，AI 應能提高生產(chǎn)力并大幅降低單位勞動成本，從生成式 AI 的應用的大爆發(fā)就可以看出端倪；但用來大幅降低體力勞動的成本，現(xiàn)實世界的 AI 還有更長的路要走。我們原以為著 AI 會讓體力勞動者失業(yè)，卻不知道它們確有潛力讓腦力勞動者先下崗了。

06、AI 進化的未來

科幻小說家 Arthur Clarke 這樣說過："任何先進的技術(shù)都與魔法無異"！如果回到 19 世紀，想象汽車在高速路上以 100 多公里的時速行駛，或者用手機與地球另一端的人視頻通話，那都不可想象的。自 1956 年 Dartmouth Workshop 開創(chuàng)了人工智能領(lǐng)域以來，讓 AI 比人類更好地完成智力任務，我們向先輩們的夢想前進了一大步。雖然，有些人認為這可能永遠不會發(fā)生，或者是在非常遙遠的未來，但新的模型會讓我們更加接近大腦工作的真相。對大腦的全面了解，才是 AI 通用化（AGI）的未來。

6.1 透視神經(jīng)網(wǎng)絡

科學家們發(fā)現(xiàn)，當用不同的神經(jīng)網(wǎng)絡訓練同一個數(shù)據(jù)集時，這些網(wǎng)絡中存在相同的神經(jīng)元。由此他們提出了一個假設：在不同的網(wǎng)絡中存在著普遍性的特征。也就是說，如果不同架構(gòu)的神經(jīng)網(wǎng)訓練同一數(shù)據(jù)集，那么有一些神經(jīng)元很可能出現(xiàn)在所有不同的架構(gòu)中。

這并不是唯一驚喜。他們還發(fā)現(xiàn)，同樣的特征檢測器也存在與不同的神經(jīng)網(wǎng)絡中。例如，在 AlexNet、InceptionV1、VGG19 和 Resnet V2-50 這些神經(jīng)網(wǎng)絡中發(fā)現(xiàn)了曲線檢測器（Curve Detectors）。。不僅如此，他們還發(fā)現(xiàn)了更復雜的 Gabor Filter，這通常存在于生物神經(jīng)元中。它們類似于神經(jīng)學定義的經(jīng)典 "復雜細胞"，難道我們的大腦的神經(jīng)元也存在于人工神經(jīng)網(wǎng)絡中？

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 27：OpenAI Microscope Modules

OpenAI 的研究團隊表示，這些神經(jīng)網(wǎng)絡是可以被理解的。通過他們的 Microscope 項目，你可以可視化神經(jīng)網(wǎng)絡的內(nèi)部，一些代表抽象的概念，如邊緣或曲線，而另一些則代表狗眼或鼻子等特征。不同神經(jīng)元之間的連接，還代表了有意義的算法，例如簡單的邏輯電路（AND、OR、XOR），這些都超過了高級的視覺特征。

大腦中的 Transformer

來自 University College London 的兩位神經(jīng)科學家 Tim Behrens 和 James Whittington 幫助證明了我們大腦中的一些結(jié)構(gòu)在數(shù)學上的功能與 Transformer 模型的機制類似，具體可以看這篇《How Transformers Seem to Mimic Parts of the Brain》，研究顯示了 Transformer 模型精確地復制在他們大腦海馬體中觀察到的那些工作模式。

去年，麻省理工學院的計算神經(jīng)科學家 Martin Schrimpf 分析了 43 種不同的神經(jīng)網(wǎng)絡模型，和大腦神經(jīng)元活動的磁共振成像（fMRI）還有皮層腦電圖（EEG）的觀測做對比。他發(fā)現(xiàn) Transformer 是目前最先進的神經(jīng)網(wǎng)絡，可以預測成像中發(fā)現(xiàn)的幾乎所有的變化。計算機科學家 Yujin Tang 最近也設計了一個 Transformer 模型，并有意識的向其隨機、無序的地發(fā)送大量數(shù)據(jù)，模仿人體如何將感官數(shù)據(jù)傳輸?shù)酱竽X。他們的 Transformer 模型，就像我們的大腦一樣，能夠成功地處理無序的信息流。

盡管研究在突飛猛進，但 Transformer 這種通用化的模型只是朝著大腦工作的精準模型邁出的一小步，這是起點而不是探索的終點。Schrimpf 也指出，即使是性能最好的 Transformer 模型也是有限的，它們在單詞和短語的組織表達上可以很好地工作，但對于像講故事這樣的大規(guī)模語言任務就不行了。這是一個很好的方向，但這個領(lǐng)域非常復雜！

6.2 千腦理論

Jeff Hawkins 是 Palm Computing 和 Handspring 的創(chuàng)始人，也是 PalmPilot 和 Treo 的發(fā)明人之一。創(chuàng)辦企業(yè)之后，他轉(zhuǎn)向了神經(jīng)科學的工作，創(chuàng)立了紅木理論神經(jīng)科學中心（Redwood Center），從此專注人類大腦工作原理的研究。《A Thousand Brains》這本書詳細的解釋了他最重要的研究成，湛廬文化在今年九月推出了中文版《千腦智能》。

大腦新皮層（Neocortex）是智力的器官。幾乎所有我們認為是智力的行為，如視覺、語言、音樂、數(shù)學、科學和工程，都是由新皮層創(chuàng)造的。Hawkins 對它工作機理采取了一種新的解釋框架，稱為 "Thousand Brains Theory"，即你的大腦被組織成成千上萬個獨立的計算單元，稱為皮質(zhì)柱（Cortical Columns）。這些柱子都以同樣的方式處理來自外部世界的信息，并且每個柱子都建立了一個完整的世界模型。但由于每根柱子與身體的其他部分有不同的聯(lián)系，所以每根柱子都有一個獨特的參考框架。你的大腦通過進行投票來整理出所有這些模型。因此，大腦的基本工作不是建立一個單一的思想，而是管理它每時每刻都有的成千上萬個單獨的思想。

我們可以把運行 Transformer 訓練的神經(jīng)網(wǎng)絡的電腦想象成一個及其簡陋的人工皮質(zhì)柱，給它灌輸各種數(shù)據(jù)，它輸出預測數(shù)據(jù)（參考第四、五兩章的講解來理解）。但大腦新皮層有 20 多萬個這樣的小電腦在分布式計算，他們連接著各種感知器官輸入的數(shù)據(jù)，最關(guān)鍵的是大腦無需預訓練，神經(jīng)元自己生長就完成了學習，相當于把人造的用于訓練的超級電腦和預測數(shù)據(jù)的電腦整合了。在科學家沒有給大腦完成逆向工程之前，AGI 的進展還舉步維艱。

千腦理論本質(zhì)上是一種感覺-運動理論（Sensory-Motor Theory），它解釋了我們?nèi)绾瓮ㄟ^看到、移動和感知三維空間來學習、識別物體。在該理論中，每個皮質(zhì)柱都有完整物體的模型，因此知道在物體的每個位置應該感應到什么。如果一個柱子知道其輸入的當前位置以及眼睛是如何移動的，那么它就可以預測新的位置以及它在那里將感應到什么。這就像看一張城鎮(zhèn)地圖，預測如果你開始朝某個方向走，你會看到什么一樣。有沒有覺得這個過程和 Tesla 的純視覺自動駕駛的實現(xiàn)方法很像？感知、建模、預測和行動。

要像大腦一樣學習

自我監(jiān)督：新皮層的計算單位是皮質(zhì)柱，每個柱子都是一個完整的感覺-運動系統(tǒng)，它獲得輸入，并能產(chǎn)生行為。比如說，一個物體移動時的未來位置，或者一句話中的下一個詞，柱子都會預測它的下一次輸入會是什么。預測是皮質(zhì)柱測試和更新其模型的方法。如果結(jié)果和預測不同，這個錯誤的答案就會讓大腦完成一次修正，這種方式就是自我監(jiān)督。現(xiàn)在最前沿的神經(jīng)網(wǎng)絡正 BERT、RoBERTa、XLM-R 正在通過預先訓練的系統(tǒng)來實現(xiàn)“自我監(jiān)督”。

持續(xù)學習：大腦通過 神經(jīng)元 組織來完成持續(xù)學習。當一個神經(jīng)元學一個新的模式時，它在一個樹突分支上形成新的突觸。新的突觸并不影響其他分支上先前學到的突觸。因此，學新的東西不會迫使神經(jīng)元忘記或修改它先前學到的東西。今天，大多數(shù) Al 系統(tǒng)的人工神經(jīng)元并沒有這種能力，他們經(jīng)歷了一個漫長的訓練，當完成后他們就被部署了。這就是它們不靈活的原因之一，靈活性要求不斷調(diào)整以適應不斷變化的條件和新知識。

多模型機制的：新皮層由數(shù)以萬計的皮質(zhì)柱組成，每根柱子都會學物體的模型，使多模型設計發(fā)揮作用的關(guān)鍵是投票。每一列都在一定程度上獨立運作，但新皮層中的長距離連接允許各列對其感知的對象進行投票。智能機器的 "大腦" 也應該由許多幾乎相同的元素（模型）組成，然后可以連接到各種可移動的傳感器。

有自己的參考框架：大腦中的知識被儲存在參考框架中。參考框架也被用來進行預測、制定計劃和進行運動，當大腦每次激活參考框架中的一個位置并檢索相關(guān)的知識時，就會發(fā)生思考。機器需要學會一個世界的模型，當我們與它們互動時，它們?nèi)绾巫兓?，以及彼此之間的相對位置，都需要參考框架來表示這類信息。它們是知識的骨干。

為什么需要通用人工智能（AGI）

AI 將從我們今天看到的專用方案過渡到更多的通用方案，這些將在未來占據(jù)主導地位，Hawkins 認為主要有兩個原因：

第一個就和通用電腦戰(zhàn)勝專用電腦的原因一樣。通用電腦有更好的成效比，這導致了技術(shù)的更快進步。隨著越來越多的人使用相同的設計，更多的努力被用于加強最受歡迎的設計和支持它們的生態(tài)系統(tǒng)，導致成本降低和性能的提升。這是算力指數(shù)式增長的基本驅(qū)動力，它塑造了二十世紀后半葉的工業(yè)和社會。

Al 將通用化的第二個原因是，機器智能的一些最重要的未來應用將需要通用方案的靈活性，例如 Elon Musk 就希望可以有通用智能的機器人來幫忙探索火星。這些應用將需要處理很多無法預料的問題，并設計出新穎的解決方案，而今天的專用的 Deep Learning 模型還無法做到這一點。

6.3 人工智能何時通用？

通用人工智能（AGI）這是 AI 領(lǐng)域的終極目標，應該也是人類發(fā)明了機器計算之后的終極進化方向?；仡?機器之心六十多年的進化，我們似乎找到了方法，就是模仿人類的大腦。Machine Learning 要完成這塊拼圖，需要有數(shù)據(jù)、算力還有模型的改進。

數(shù)據(jù) 應該是拼圖中最容易實現(xiàn)的。按秒來計算，ImageNet 數(shù)據(jù)集的大小已經(jīng)接近人從出生到大學畢業(yè)視覺信號的數(shù)據(jù)量；Google 公司創(chuàng)建的新模型 HN Detection，用來理解房屋和建筑物外墻上的街道號碼的數(shù)據(jù)集大小，已經(jīng)可以和人一生所獲取的數(shù)據(jù)量所媲美。要像人類一樣，使用更少的數(shù)據(jù)和更高的抽象來學習，才是神經(jīng)網(wǎng)絡的發(fā)展方向。

算力可以分解為兩個部分：神經(jīng)網(wǎng)絡的參數(shù)（神經(jīng)元的數(shù)量和連接）規(guī)模以及單位計算的成本。下圖可以看到，人工神經(jīng)網(wǎng)絡與人腦的大小仍有數(shù)量級的差距，但它們在某些哺乳動物面前，已經(jīng)具備競爭力了。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 29：神經(jīng)網(wǎng)絡規(guī)模和動物與人類神經(jīng)元規(guī)模的對比

我們每花一美元所能得到的計算能力一直在呈指數(shù)級增長?，F(xiàn)在大規(guī)模基礎模型所用到的計算量每 3.5 個月就會翻一番。

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

配圖 30：122 years of Moore’s Law: 每一美元產(chǎn)生的算力

有些人認為，由于物理學的限制，計算能力不能保持這種上升趨勢。然而，過去的趨勢并不支持這一理論。隨著時間的推移，該領(lǐng)域的資金和資源也在增加，越來越多人才進入該領(lǐng)域，因為涌現(xiàn) 的效應，會開發(fā)更好的軟件（算法模型等）和硬件。而且，物理學的限制同樣約束人腦的能力極限，所以 AGI 可以實現(xiàn)。

當 AI 變得比人類更聰明、我們稱這一刻為奇點。一些人預測，奇點最快將于 2045 年到來。Nick Bostrom 和 Vincent C. Müller 在 2017 年的一系列會議上對數(shù)百名 AI 專家進行了調(diào)查，奇點（或人類水平的機器智能）會在哪一年發(fā)生，得到的答復如下：

樂觀預測的年份中位數(shù) (可能性 10%) - 2022

現(xiàn)實預測的年份中位數(shù) (可能性 50%) - 2040

悲觀預測的年份中位數(shù) (可能性 90%) - 2075

因此，在 AI 專家眼里很有可能在未來的 20 年內(nèi)，機器就會像人類一樣聰明。

這意味著對于每一項任務，機器都將比人類做得更好；當計算機超過人類時，一些人認為，他們就可以繼續(xù)變得更好。換句話說，如果我們讓機器和我們一樣聰明，沒有理由不相信它們能讓自己變得更聰明，在一個不斷改進的機器之心進化的螺旋中，會導致超級智能的出現(xiàn)。

從工具進化到數(shù)字生命

按照上面的專家預測，機器應該具有自我意識和超級智能。到那時，我們對機器意識的概念將有一些重大的轉(zhuǎn)變，我們將面對真正的數(shù)字生命形式（DILIs - Digital Lifeforms）。

一旦你有了可以快速進化和自我意識的 DILIs，圍繞物種競爭會出現(xiàn)了一些有趣的問題。DILIs 和人類之間的合作和競爭的基礎是什么？如果你讓一個有自我意識的 DILIs 能模擬疼痛，你是在折磨一個有感知的生命嗎？

這些 DILIs 將能夠在服務器上進行自我復制和編輯（應該假設在某個時候，世界上的大多數(shù)代碼將由可以自我復制的機器來編寫），這可能會加速它們的進化。想象一下，如果你可以同時創(chuàng)建 100,000,000 個你自己的克隆體，修改你自己的不同方面，創(chuàng)建你自己的功能函數(shù)和選擇標準，DILIs 應該能夠做到這一切（假設有足夠的算力和能量資源）。關(guān)于 DILIs 這個有趣的話題在《Life 3.0》和《Superintelligence: Paths, Dangers, Strategies》這兩本書中有詳細的討論。

這些問題可能比我們的預期來得更快。Elad Gil 在他的最新文章《AI Revolution》提到 OpenAI、Google 和各種創(chuàng)業(yè)公司的核心 AI 研究人員都認為，真正的 AGI 還需要 5 到 20 年的時間才能實現(xiàn)，這也有可能會像自動駕駛一樣永遠都在五年后實現(xiàn)。不管怎樣，人類最終面臨的潛在生存威脅之一，就是與我們的數(shù)字后代競爭。

歷史學家 Thomas Kuhn 在其著名的《The Structure of Scientific Revolutions》一書中認為，大多數(shù)科學進步是基于廣泛接受的理論框架，他稱之為科學范式。偶爾，一個既定的范式被推翻，被一個新的范式所取代 - Kuhn 稱之為科學革命。我們正處在 AI 的智能革命之中！

最后，送上一首 AI 創(chuàng)作的曲子《I Am AI》，Nvidia 每年的 GTC 大會上都會更新一次內(nèi)容，看看 AI 如何從各個行業(yè)滲透到我們的生活。

參考

Letter from Alan Turing to W Ross Ashby - Alan Mathison Turing
Software 2.0 - Andrej Karpathy
The Rise of Software 2.0 - Ahmad Mustapha
Infrastructure 3.0: Building blocks for the AI revolution - Lenny Pruss, Amplify Partners
Will Transformers Take Over Artificial Intelligence? - Stephen Ornes
AI Revolution - Transformers and Large Language Models (LLMs) - Elad Gil
What Is a Transformer Model? - RICK MERRITT
AI 時代的巫師與咒語 - Rokey Zhang
Generative AI: A Creative New World - SONYA HUANG, PAT GRADY AND GPT-3
What Real-World AI From Tesla Could Mean - CleanTechNica
A Look at Tesla's Occupancy Networks - Think Autonomous
By Exploring Virtual Worlds, AI Learns in New Ways - Allison Whitten
Self-Taught AI Shows Similarities to How the Brain Works - Anil Ananthaswamy
How Transformers Seem to Mimic Parts of the Brain - Stephen Ornes
Attention Is All You Need - PAPER by Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
On the Opportunities and Risks of Foundation Models - PAPER by CRFM & HAI of Stanford University
Making Things Think - BOOK by Giuliano Giacaglia
A Thousand Brains（中文版：千腦智能）- BOOK by Jeff Hawkins

本文來自微信公眾號：INDIGO 的數(shù)字鏡像（ID：indigo-dm），作者：JEDI LU

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

機器之心的進化 / 理解 AI 驅(qū)動的軟件 2.0 智能革命

01、AI 進化史

1.1 前神經(jīng)網(wǎng)絡時代

1.2 Machine Learning 的躍遷

1.3 開啟潘多拉的魔盒

02、軟件 2.0 的崛起

2.1 范式轉(zhuǎn)移

2.2 軟件的演化

2.3 軟件 2.0 的優(yōu)勢

2.4 Bug 2.0

03、面向智能的架構(gòu)

3.1 Infrastructure 3.0

3.2 如何組裝智能

2.3 智能架構(gòu)的先鋒

04、一統(tǒng)江湖的模型

4.1 Transformer 的誕生

4.2 Foundation Models

4.3 AI 江湖的新機會

05、現(xiàn)實世界的 AI

5.1 自動駕駛新前沿

5.2 不是機器人，是智能代理

06、AI 進化的未來

6.1 透視神經(jīng)網(wǎng)絡

6.2 千腦理論

6.3 人工智能何時通用？

01、AI 進化史

03、面向智能的架構(gòu)

04、一統(tǒng)江湖的模型

06、AI 進化的未來

6.3 人工智能何時通用？