最近這兩年,隨著 AIGC 大模型的崛起,整個社會掀起了一股強勁的 AI 浪潮。
人們在關(guān)注 AI,企業(yè)在擁抱 AI,資本在追逐 AI。凡是和 AI 有關(guān)的概念,都會吸引大量的目光。
那么,AI 是如何一步一步走到今天的呢?它經(jīng)歷了哪些發(fā)展階段,又發(fā)生過哪些精彩的故事?
今天這篇文章,我們就來仔細(xì)回顧一下,人類 AI 的發(fā)展歷程。
█ 萌芽階段
人類對人造智能體的追求和暢想,最早可以追溯到古希臘時代。
在古希臘神話中,火與工匠之神赫菲斯托斯,曾經(jīng)制作了一組金制的女機器人,“有心能解意,有嘴能說話,有手能使力,精通手工制造”。
在中國的古代史籍中,也出現(xiàn)過“人工智能”的影子。
《列子?湯問篇》中,偃師向周穆王進獻了一個機械人,會唱歌、會跳舞,還會挑逗周穆王的嬪妃。周穆王醋意爆發(fā),認(rèn)為機械人是真人假扮,要殺掉偃師。偃師趕緊將機械人拆散,周穆公才罷休。
上面的這些文字記載,顯然都不靠譜。在遙遠(yuǎn)且漫長的古代,以人類當(dāng)時的技術(shù)水平,肯定是造不出智能體的。能造出一些簡單的機械(例如諸葛亮的木牛流馬),都已經(jīng)很了不起了。
人們對智能體的寄望,很多都依托于鬼神等宗教信仰 —— 將人的靈魂附身于機械,才能夠?qū)崿F(xiàn)“人工智能”。
到了近現(xiàn)代,隨著工業(yè)革命的爆發(fā),人類開始逐漸進入機械計算、電氣計算時代。計算能力的不斷增長,使得通過“算力”來驅(qū)動“智能”,成為一種可行選項。
17 世紀(jì),萊布尼茨、托馬斯?霍布斯和笛卡兒等率先提出:是否可以將人類理性的思考系統(tǒng),轉(zhuǎn)化為代數(shù)學(xué)或幾何學(xué)體系?
萊布尼茨認(rèn)為:“人類的思想,可以簡化成某種運算。”
霍布斯也提出:“推理就是計算?!?/p>
這些偉大的思想,為后來的計算機和人工智能發(fā)展指明了方向。
再后面的事情,大家都比較清楚了 ——
在查爾斯?巴貝奇(Charles Babbage)的分析機、赫爾曼?何樂禮(Herman Hollerith)的制表機、阿蘭?圖靈(Alan Turing)的圖靈機,以及 Z3、珍妮機、Mark I、ENIAC 等一系列發(fā)明的接力推動下,人類終于進入了數(shù)字電子計算機時代,也開啟了波瀾壯闊的信息技術(shù)革命。(不清楚的,看這里:算力簡史)
█ 第一次高潮階段(1950 年-1973 年)
圖靈測試
數(shù)字電子計算機正式誕生之后,很快就有科學(xué)家開始探索,是否可以通過計算機來實現(xiàn)“智能”。
1950 年,阿蘭?圖靈在《心靈(Mind)》雜志上發(fā)表了一篇非常重要的論文,名叫《計算機器與智能(Computing Machinery and Intelligence)》。
在論文開頭,他就提出了一個靈魂之問:
“I propose to consider the question, ‘Can machines think?’"
“我提議思考這樣一個問題:‘機器可以思考嗎?’”
圖靈在論文中仔細(xì)討論了創(chuàng)造“智能機器”的可能性。由于“智能”一詞很難定義,他提出了著名的圖靈測試(以下為大致意思):
“一個人在不接觸對方的情況下,通過一種特殊的方式和對方進行一系列的問答。如果在相當(dāng)長時間內(nèi),他無法根據(jù)這些問題判斷對方是人還是計算機,那么,就可以認(rèn)為這個計算機是智能的?!?/p>
圖靈的論文,在學(xué)術(shù)界引起了廣泛的反響。越來越多的學(xué)者被這個話題所吸引,參與到對“機器智能”的研究之中。其中,就包括達特茅斯學(xué)院的年輕數(shù)學(xué)助教約翰?麥卡錫(J. McCarthy),以及哈佛大學(xué)的年輕數(shù)學(xué)和神經(jīng)學(xué)家馬文?明斯基(M. L. Minsky)。
達特茅斯會議
1955 年 9 月,約翰?麥卡錫、馬文?明斯基、克勞德?香農(nóng)(C. E. Shannon)、納撒尼爾?羅切斯特(N. Rochester)四人,共同提出了一個關(guān)于機器智能的研究項目。在項目中,首次引入了“Artificial Intelligence”這個詞,也就是人工智能。
1956 年 6 月,在剛才那 4 個人的召集下,在洛克菲勒基金會的資助下,十余位來自不同領(lǐng)域的專家,聚集在美國新罕布什爾州漢諾威鎮(zhèn)的達特茅斯學(xué)院,召開了一場為期將近兩月的學(xué)術(shù)研討會,專門討論機器智能。
這次研討會,就是著名的達特茅斯會議(Dartmouth workshop)。
達特茅斯會議并沒有得出什么重要的結(jié)論或宣言,但是認(rèn)可了“人工智能(Artificial Intelligence)”的命名,也大致明確了后續(xù)的研究方向。
這次會議,標(biāo)志著人工智能作為一個研究領(lǐng)域正式誕生,也被后人視為現(xiàn)代人工智能的起點。
AI 三大學(xué)派
達特茅斯會議之后,人工智能進入了一個快速發(fā)展階段。參與研究的人變得更多了,而且,也逐漸形成了幾大學(xué)術(shù)派系。
在這里,我們要提到人工智能最著名的三大學(xué)派 —— 符號主義、聯(lián)結(jié)主義(也叫聯(lián)接主義、連結(jié)主義)、行為主義。
符號主義是當(dāng)時最主流的一個學(xué)派。
他們認(rèn)為,世界中的實體、概念以及它們之間的關(guān)系,都可以用符號來表示。人類思維的基本單元,也是符號。如果計算機能像人腦一樣,接收符號輸入,對符號進行操作處理,然后產(chǎn)生符號輸出,就可以表現(xiàn)出智能。
這個思路,關(guān)鍵在于把知識進行編碼,形成一個知識庫,然后通過推理引擎和規(guī)則系統(tǒng),進行推斷,以此解決復(fù)雜的問題。
符號主義早期的代表性成果,是 1955 年赫伯特?西蒙(Herbert A. Simon,也譯為司馬賀)和艾倫?紐維爾(Allen Newell)開發(fā)的一個名為“邏輯理論家(Logic Theorist)”的程序。
“邏輯理論家”被認(rèn)為是人類歷史上第一個人工智能程序,并且在達特茅斯會議上進行了演示。它將每個問題都表示成一個樹形模型,然后選擇最可能得到正確結(jié)論的那條線,來求解問題。
1957 年,赫伯特?西蒙等人在“邏輯理論家”的基礎(chǔ)上,又推出了通用問題解決器(General Problem Solver,GPS),也是符號主義的早期代表。
進入 1960 年代,符號主義也進入了一個鼎盛時期。在自然語言理解、微世界推理、專家系統(tǒng)(注意這個詞,后面會再次提到它)等領(lǐng)域,人工智能取得了突破性的進展,也逐漸成為公眾關(guān)注的對象。
1958 年,約翰?麥卡錫正式發(fā)布了自己開發(fā)的人工智能編程語言 ——LISP(LIST PROCESSING,意思是 "表處理")。后來的很多知名 AI 程序,都是基于 LISP 開發(fā)的。
1966 年,美國麻省理工學(xué)院的魏澤鮑姆(Joseph Weizenbaum),發(fā)布了世界上第一個聊天機器人 ——ELIZA。
ELIZA 的名字源于蕭伯納戲劇作品《賣花女》中的主角名。它只有 200 行程序代碼和一個有限的對話庫,可以針對提問中的關(guān)鍵詞,進行答復(fù)。
ELIZA 其實沒有任何智能性可言。它基于規(guī)則運作,既不理解對方的內(nèi)容,也不知道自己在說什么。但即便如此,它還是在當(dāng)時引起了轟動。ELIZA 可以說是現(xiàn)在 Siri、小愛同學(xué)等問答交互工具的鼻祖。
再來看看聯(lián)結(jié)主義。
聯(lián)結(jié)主義,強調(diào)模仿人腦的工作原理,建立神經(jīng)元之間的聯(lián)結(jié)模型,以此實現(xiàn)人工神經(jīng)運算。
大家可能會有點激動。沒錯,這就是現(xiàn)在非常熱門的神經(jīng)網(wǎng)絡(luò)模型。
神經(jīng)網(wǎng)絡(luò)的概念其實誕生得很早。1943 年,美國神經(jīng)生理學(xué)家沃倫?麥卡洛克(Warren McCulloch)和數(shù)學(xué)家沃爾特?皮茨(Walter Pitts),基于人類大腦的神經(jīng)網(wǎng)絡(luò),創(chuàng)建了一個形式神經(jīng)元的計算機模型,并將其取名為 MCP(McCulloch&Pitts)模型。
1951 年,馬文?明斯基(就是前面提到的那個)和他的同學(xué)鄧恩?埃德蒙(Dunn Edmund),建造了第一臺神經(jīng)網(wǎng)絡(luò)機 SNARC。
1957 年,美國康奈爾大學(xué)的心理學(xué)家和計算機科學(xué)家弗蘭克?羅森布拉特(Frank Rosenblatt),在一臺 IBM-704 計算機上,模擬實現(xiàn)了一種他發(fā)明的叫“感知機 (Perceptron) ”的神經(jīng)網(wǎng)絡(luò)模型。
這個“感知器”包括三層結(jié)構(gòu),一端是 400 個光探測器,模擬視網(wǎng)膜。光探測器多次連接一組 512 個電子觸發(fā)器。當(dāng)它通過一個特定的可調(diào)節(jié)的興奮閥值時,就會像神經(jīng)元一樣激發(fā)。這些觸發(fā)器連接到最后一層,當(dāng)一個物體與感知器受訓(xùn)見過的對象相互匹配時,它就會發(fā)出信號。
“感知機”是聯(lián)結(jié)主義的一項重要成果,在人工智能發(fā)展史上具有里程碑式的意義。但是,后來的一盆冰水,徹底澆滅了聯(lián)結(jié)主義的熱情。
1969 年,馬文?明斯基和西蒙?派珀特(Seymour Papert)寫了一本書《感知機: 計算幾何學(xué)導(dǎo)論》的書,對羅森布萊特的感知器提出了質(zhì)疑。馬文?明斯基認(rèn)為:
“神經(jīng)網(wǎng)絡(luò)具有很大的局限性(單層感知機無法解決線性不可分問題),沒有實際研究價值。”
來自大神的否定,等于直接宣判了神經(jīng)網(wǎng)絡(luò)(聯(lián)結(jié)主義)路線的死刑。于是,這個非常有價值的研究方向,被中止了。
羅森布萊特后來死于意外(也有人說是自殺),馬文?明斯基也因為這個錯誤的判斷,被一些學(xué)者抨擊。(需要注意,馬文?明斯基雖然有誤判,但他對人工智能事業(yè)的功遠(yuǎn)大于過,甚至也被譽為“人工智能之父”。)
等到神經(jīng)網(wǎng)絡(luò)(聯(lián)結(jié)主義)重新崛起,已經(jīng)是十多年后的事情了。我們待會再詳細(xì)說。
最后,說說行為主義。
行為主義,也稱為進化主義或控制論學(xué)派。他們認(rèn)為,通過與環(huán)境的互動來學(xué)習(xí)和適應(yīng),從而改進自身行為,就是行為主義認(rèn)為的智能。智能取決于感知和行動,不需要知識、表示和推理,只需要將智能行為表現(xiàn)出來就好。
簡單來說,行為主義 AI 系統(tǒng)基于“感知-動作”的閉環(huán)控制,強調(diào)即時反饋和適應(yīng)性學(xué)習(xí)。智能體通過感知環(huán)境信息,基于這些信息執(zhí)行動作,并根據(jù)動作結(jié)果調(diào)整后續(xù)行為。
行為主義在后來的機器人學(xué)、自動化控制、游戲 AI、自動駕駛汽車等領(lǐng)域有著重要應(yīng)用。
好了,以上是 AI 三大重要學(xué)派的介紹,作為學(xué)習(xí) AI 的知識鋪墊,也有助于閱讀后面的文章。
請大家注意,AI 的學(xué)派和思想路線并不止這三個,還有一些小學(xué)派,例如進化計算、模糊邏輯、貝葉斯網(wǎng)絡(luò)等。它們雖不構(gòu)成獨立的大學(xué)派,但在 AI 的某些子領(lǐng)域內(nèi)有著重要的應(yīng)用和影響。而且,AI 學(xué)派之間,邊界也比較模糊,有時候會互相融合。
其它重要成果
再簡單介紹一下當(dāng)時另外幾項重要的研究成果。
首先必須是亞瑟?塞繆爾(Arthur Samuel)的跳棋程序。
1959 年,IBM 科學(xué)家亞瑟?塞繆爾在自家首臺商用計算機 IBM701 上,成功編寫了一套西洋跳棋程序。這個程序具有“學(xué)習(xí)能力”,可以通過對大量棋局的分析,逐漸辨識出“好棋”和“壞棋”,從而提高自己的下棋水平。
這個程序很快就下贏了薩繆爾自己,后來,它還戰(zhàn)勝了當(dāng)時的西洋跳棋大師羅伯特尼賴。
因為首次提出了“機器學(xué)習(xí)(Machine Learning)”的概念,亞瑟?塞繆爾被后人譽為“機器學(xué)習(xí)之父”。
1959 年,美國發(fā)明家喬治?德沃爾(George Devol)與約瑟夫?英格伯格(Joseph Engelberger)發(fā)明了人類首臺工業(yè)機器人 ——Unimate。
Unimate 重達兩噸,安裝運行于通用汽車生產(chǎn)線。它可以控制一臺多自由度的機械臂,搬運和堆疊熱壓鑄金屬件。
左圖為 Unimate
右圖是約瑟夫?英格伯格(左)、喬治?德沃爾(右)
1966 年,查理?羅森(Charlie Rosen)領(lǐng)導(dǎo)的美國斯坦福研究所(SRI),研發(fā)成功了首臺人工智能機器人 ——Shakey。
Shakey 全面應(yīng)用了人工智能技術(shù),裝備了電子攝像機、三角測距儀、碰撞傳感器以及驅(qū)動電機,能簡單解決感知、運動規(guī)劃和控制問題。它是第一個通用移動機器人,也被稱為“第一個電子人”。
█ 第一次低谷階段(1974 年-1979 年)
剛才說了,1960 年代是符號主義的鼎盛時期。其實,在符號主義的帶動下,當(dāng)時整個人工智能研究都進入了一個高速發(fā)展的階段,也被稱為 AI 的黃金時代(Golden Time,1960-1973 年)。
那時,除了定理證明、人機互動、游戲博弈和機器人之外,人工智能很多領(lǐng)域都產(chǎn)出了不錯的成果。加上冷戰(zhàn)時期,美國政府愿意掏錢資助,使得 AI 研究變得異常火爆。
在這一背景下,學(xué)術(shù)界對 AI 的預(yù)期,開始變得盲目樂觀。有些研究者認(rèn)為:
“二十年內(nèi),機器將能完成人能做到的一切工作?!?/p>
1970 年,馬文?明斯基甚至放言:
“在未來 3-8 年內(nèi),會誕生和人類智慧相當(dāng)?shù)臋C器人,可能我們?nèi)祟悤蔀?AI 的寵物?!?/p>
盲目的樂觀,肯定不會有什么好結(jié)果。
隨著時間的推移,學(xué)者們逐漸發(fā)現(xiàn),基于推理規(guī)則的“智能”,實際上能力非常有限。加上當(dāng)時計算機的算力和存力尚處于早期階段,系統(tǒng)根本達不到預(yù)期的效果。
之前介紹的那些 AI 程序和工具,陸續(xù)開始出現(xiàn)瓶頸,甚至鬧出笑話。
以機器翻譯為例。當(dāng)時美國政府投入了 2000 多萬美元作為機器翻譯的經(jīng)費,結(jié)果相關(guān)團隊研發(fā)多年,發(fā)現(xiàn)完全低估了這個項目的難度。
翻譯工具經(jīng)常出現(xiàn)一些低級錯誤。例如,將“Out of sight,out of mind(眼不見,心不煩)”翻譯成“又瞎又瘋”,把“The spirit is willing but the flesh is weak(心有余而力不足)”翻譯成“酒是好的,但肉變質(zhì)了”,把“Time flies like an arrow(光陰似箭)”翻譯成“蒼蠅喜歡箭”。
接二連三的失敗,慢慢耗盡了政府金主的耐心。加上不久后美國經(jīng)濟出現(xiàn)了一些問題(1974-1975 年出現(xiàn)歷史上罕見的連續(xù)兩年 GDP 負(fù)增長),政府開始決定“斷糧”。
1973 年,數(shù)學(xué)家萊特希爾(Lighthill)向英國政府提交了一份關(guān)于人工智能的研究報告(著名的《萊特希爾報告》)。報告對當(dāng)時的機器人技術(shù)、語言處理技術(shù)和圖像識別技術(shù)進行了嚴(yán)厲且猛烈的批評,指出人工智能那些看上去宏偉的目標(biāo)根本無法實現(xiàn),研究已經(jīng)徹底失敗。
很快,英國政府、美國國防部高級研究計劃局(DARPA)和美國國家科學(xué)委員會等,開始大幅削減甚至終止了對人工智能的投資。
人工智能進入了第一個發(fā)展低谷,也被稱為“AI Winter(AI 之冬)”。
█ 第二次高潮階段(1980 年-1987 年)
AI 之冬的持續(xù)時間其實并不是很久。六年后,1980 年,第二次 AI 發(fā)展高潮開始了。
第二次浪潮,其實還是符號主義掀起的。這次的主角,是符號主義的一個新階段 —— 專家系統(tǒng)(Expert System)。
專家系統(tǒng)
專家系統(tǒng),就是一個面向?qū)I(yè)領(lǐng)域的超級“知識庫 + 推理庫”。
它找來很多人,對大量的專家知識和經(jīng)驗進行整理,分析并編寫出海量的規(guī)則,導(dǎo)入系統(tǒng)。然后,系統(tǒng)根據(jù)這些基于知識整理出來的規(guī)則,進行邏輯推理,來模擬和延伸人類專家的決策能力,解決復(fù)雜的問題。
大家能看出來,專家系統(tǒng)走的仍然是符號主義的“規(guī)則”路線。所以,專家系統(tǒng),也叫做規(guī)則基礎(chǔ)系統(tǒng)。
1968 年,美國科學(xué)家愛德華?費根鮑姆(Edward Feigenbaum)提出了第一個專家系統(tǒng) ——DENDRAL,并對知識庫給出了初步的定義。這標(biāo)志著專家系統(tǒng)的誕生。
DENDRAL 面向的是化學(xué)行業(yè)。它可以幫助化學(xué)家判斷物質(zhì)的分子結(jié)構(gòu)。系統(tǒng)推出之后,因為能夠減少人力成本并且提升工作效率,受到了化學(xué)行業(yè)的歡迎和認(rèn)可。
和 DENDRAL 差不多時間出現(xiàn)的專家系統(tǒng),還有威廉?馬丁(William A. Martin)開發(fā)的 Macsyma,以及安東尼?赫恩(Anthony C. Hearn)開發(fā)的“Reduce”。
這兩套都是數(shù)學(xué)領(lǐng)域的專家系統(tǒng)(用于求解數(shù)學(xué)問題),都采用了約翰?麥卡錫的 LISP 語言進行開發(fā)。
1972 年,美國醫(yī)生兼科學(xué)家愛德華?H?肖特利夫(Edward H. Shortliffe)創(chuàng)建了可以幫助進行醫(yī)學(xué)診斷的專家系統(tǒng) ——MYCIN。
MYCIN 也是基于 LISP 語言編寫,擁有 500 多條規(guī)則,能夠識別 51 種病菌,正確地處理 23 種抗菌素。
它能夠協(xié)助醫(yī)生診斷、治療細(xì)菌感染性血液病,為患者提供最佳處方。當(dāng)時,它成功地處理了數(shù)百個病例,并通過了嚴(yán)格的測試,顯示出了較高的醫(yī)療水平。
1977 年,愛德華?費根鮑姆在第五屆國際人工智能聯(lián)合會議上,提出了“知識工程(Knowledge Engineering)”的概念,進一步推動了專家系統(tǒng)的普及。
進入 1980 年代,隨著技術(shù)的演進,計算機的計算和存儲能力增加,專家系統(tǒng)開始在各個行業(yè)爆發(fā)。
1980 年,卡耐基梅隆大學(xué)研發(fā)的專家系統(tǒng) XCON(eXpertCONfigurer)正式商用,為當(dāng)時的計算機巨頭公司 DEC 每年省下數(shù)千萬美金。
1983 年,通用電氣公司搞出了柴油電力機車維修專家系統(tǒng)(DELTA)。這個系統(tǒng)封裝了眾多 GE 資深現(xiàn)場服務(wù)工程師的知識和經(jīng)驗,能夠指導(dǎo)員工進行故障檢修和維護。
當(dāng)時,美國運通公司也搞了一個信用卡認(rèn)證輔助決策專家系統(tǒng),據(jù)說每年可節(jié)省 2700 萬美金。
總而言之,那時候的專家系統(tǒng),是大公司趨之若鶩的神器。它能夠帶來實實在在的經(jīng)濟效益,所以,行業(yè)用戶愿意為之投資。這是第二次 AI 浪潮的根本原因。
我們也可以這么說,第一次 AI 浪潮,是政府投資帶動的。第二次 AI 浪潮,是企業(yè)投資帶動。AI,開始進入產(chǎn)業(yè)化的階段。
企業(yè)投資的成效,反過來又讓各國政府對 AI 恢復(fù)了一些信心。
1981 年,經(jīng)濟高速增長的日本,率先開始對 AI 進行投入。
那一年,日本經(jīng)濟產(chǎn)業(yè)省撥款 8.5 億美元,支持第五代計算機項目。這個項目的最終目的,是造出一臺人工智能計算機,能夠與人對話、翻譯語言、解釋圖像、完成推理。
美國和英國政府,也很快采取了行動。
1983 年,美國國防部高級研究計劃局(DARPA)通過“戰(zhàn)略計算促進會(Strategic Computing Initiative)”,重啟對人工智能研究的資助。
同年,英國投資 3.5 億英鎊,啟動了 Alvey(阿爾維)計劃,全面推進軟件工程、人機接口、智能系統(tǒng)和超大規(guī)模集成電路等領(lǐng)域的研發(fā)。
關(guān)于專家系統(tǒng),還有一個雄心勃勃的項目值得一提。那就是 1984 年啟動的 Cyc 項目。
Cyc 項目由美國微電子與計算機技術(shù)公司發(fā)起,是一個“超級百科全書”項目。它試圖將人類擁有的所有一般性知識都輸入計算機,建立一個巨型數(shù)據(jù)庫。
這個項目,據(jù)說到現(xiàn)在還在進行之中。
█ 第二次低谷階段(1987 年-1993 年)
好景不長,到了 1980 年代的后半段,人工智能又開始走下坡路了。
原因是多方面的。
首先,專家系統(tǒng)(符號主義)基于規(guī)則和已有知識的“檢索 + 推理”,面對復(fù)雜的現(xiàn)實世界,顯然還是有能力瓶頸。
它的應(yīng)用領(lǐng)域狹窄、缺乏常識性知識、知識獲取困難、推理方法單一、缺乏分布式功能、難以與現(xiàn)有數(shù)據(jù)庫兼容等…… 所有這些問題,都給它的進一步發(fā)展造成了困擾。
其次,80 年代 PC(個人電腦)技術(shù)革命的爆發(fā),也給專家系統(tǒng)造成了沖擊。
當(dāng)時專家系統(tǒng)基本上都是用 LISP 語言編寫的。系統(tǒng)采用的硬件,是 Symbolics 等廠商生產(chǎn)的人工智能專用計算機(也叫 LISP 機)。
1987 年,蘋果和 IBM 公司生產(chǎn)的臺式機,在性能上已經(jīng)超過了 Symbolics 的 AI 計算機,導(dǎo)致 AI 硬件市場需求土崩瓦解。
專家系統(tǒng)的維護和更新也存在很多問題。不僅操作復(fù)雜,價格也非常高昂。
結(jié)合以上種種原因,市場和用戶逐漸對專家系統(tǒng)失去了興趣。
到了 80 年代晚期,戰(zhàn)略計算促進會大幅削減對 AI 的資助。DARPA 的新任領(lǐng)導(dǎo)也認(rèn)為 AI 并非“下一個浪潮”,削減了對其的投資。
AI,進入了第二次低谷階段。
█ 第三次高潮階段(1994 年-現(xiàn)在)
在進入 1990 年代之前,小棗君還是要再講講 1980 年代。
1980 年代,專家系統(tǒng)掀起了第二次 AI 浪潮,也推動了 AI 技術(shù)的發(fā)展。但從上帝視角來看,真正對后來的 AI 發(fā)展產(chǎn)生深遠(yuǎn)影響的,其實不是專家系統(tǒng),而是另外一個被遺忘了二十多年的賽道。
沒錯,這個賽道,就是當(dāng)年被馬文?明斯基一句話給干廢的“神經(jīng)網(wǎng)絡(luò)”賽道。
機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)
前文我們提到,神經(jīng)網(wǎng)絡(luò)是聯(lián)結(jié)主義的一個代表性研究方向。但是,因為馬文?明斯基的否定,這個方向在 1969 年被打入冷宮。
1980 年,越來越多的科學(xué)家意識到專家系統(tǒng)存在不足。符號主義這條路,很可能走不通。人們認(rèn)為,人工智能想要實現(xiàn)真正的智能,就必須擁有自己的感知系統(tǒng),能夠自主學(xué)習(xí)。
于是,倡導(dǎo)讓機器“自動地從數(shù)據(jù)中學(xué)習(xí),并通過訓(xùn)練得到更加精準(zhǔn)的預(yù)測和決策能力”的研究思想,開始逐漸活躍起來。這就是前面提到過的機器學(xué)習(xí)。
機器學(xué)習(xí)包含多種方法和理論學(xué)派。源于聯(lián)結(jié)主義學(xué)派的神經(jīng)網(wǎng)絡(luò),就在這一時期開始“復(fù)活”。
1982 年,約翰?霍普菲爾德(John Hopfield)在自己的論文中重點介紹了 Hopfield 網(wǎng)絡(luò)模型(模型原型早期由其他科學(xué)家提出)。這是一種具有記憶和優(yōu)化功能的循環(huán)(遞歸)神經(jīng)網(wǎng)絡(luò)。
1986 年,戴維?魯梅爾哈特(David Rumelhart)、杰弗里?辛頓(Geoffrey Hinton,記住這個名字!)和羅納德?威廉姆斯(Ronald Williams)等人共同發(fā)表了一篇名為《Learning representations by back-propagation errors(通過反向傳播算法的學(xué)習(xí)表征)》的論文。
在論文中,他們提出了一種適用于多層感知器(MLP)的算法,叫做反向傳播算法(Backpropagation,簡稱 BP 算法)。
該算法通過在輸入層和輸出層之間設(shè)定一個中間層(隱藏層),以反向傳播的方式實現(xiàn)機器的自我學(xué)習(xí)。
算法咱們以后再研究。大家只需要記住,BP 算法不僅為多層神經(jīng)網(wǎng)絡(luò)的發(fā)展奠定了基礎(chǔ),也打破了馬文?明斯基當(dāng)年提出的“神經(jīng)網(wǎng)絡(luò)具有局限性”魔咒,意義非常重大。
1980 年代是人工智能研究方向發(fā)生重大轉(zhuǎn)折的時期。機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)(聯(lián)結(jié)主義)加速崛起,逐漸取代專家系統(tǒng)(符號主義),成為人工智能的主要研究方向。
我們也可以理解為,人工智能原本由知識驅(qū)動的方式,逐漸變成了由數(shù)據(jù)驅(qū)動。
機器學(xué)習(xí)的代表性算法包括決策樹、支持向量機、隨機森林等。
1995 年,克里娜?柯爾特斯(Corinna Cortes)和弗拉基米爾?萬普尼克(Vladimir Vapnik)開發(fā)了支持向量機(Support Vector Machine,SVM)。支持向量機是一種映射和識別類似數(shù)據(jù)的系統(tǒng),可以視為在感知機基礎(chǔ)上的改進。
神經(jīng)網(wǎng)絡(luò)方面,非常重要的 CNN(Convolutional Neural Network,卷積神經(jīng)網(wǎng)絡(luò))和 RNN(Recursive Neural Networks,遞歸神經(jīng)網(wǎng)絡(luò)),也在那一時期崛起了。
1988 年,貝爾實驗室的 Yann LeCun(他是法國人,網(wǎng)上翻譯的中文名有很多:楊立昆、楊樂春、燕樂存、揚?勒丘恩)等人,提出了卷積神經(jīng)網(wǎng)絡(luò)。大家應(yīng)該比較熟悉,這是一種專門用于處理圖像數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型。
1990 年,美國認(rèn)知科學(xué)家、心理語言學(xué)家杰弗里?艾爾曼(Jeffrey Elman)提出了首個遞歸神經(jīng)網(wǎng)絡(luò) —— 艾爾曼網(wǎng)絡(luò)模型。遞歸神經(jīng)網(wǎng)絡(luò)能夠在訓(xùn)練時維持?jǐn)?shù)據(jù)本身的先后順序性質(zhì),非常適合于自然語言處理領(lǐng)域的應(yīng)用。
1997 年,德國計算機科學(xué)家瑟普?霍克賴特(Sepp Hochreiter)及其導(dǎo)師于爾根?施密德胡伯(Jürgen Schmidhuber)開發(fā)了用于遞歸神經(jīng)網(wǎng)絡(luò)的 LSTM(長短期記憶網(wǎng)絡(luò))。
1998 年,Yann LeCun 等人提出了 LeNet,一個用于手寫數(shù)字識別的卷積神經(jīng)網(wǎng)絡(luò),初步展示了神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域的潛力。
總而言之,20 世紀(jì) 90 年代,神經(jīng)網(wǎng)絡(luò)在開始商用于文字圖像識別、語音識別、數(shù)據(jù)挖掘以及金融預(yù)測。在模式識別、信號處理、控制工程等領(lǐng)域,也有嘗試應(yīng)用,盡管當(dāng)時受到計算資源限制,應(yīng)用范圍和規(guī)模有限。
想要推動人工智能技術(shù)的進一步爆發(fā),既需要算法模型的持續(xù)演進,也需要算力的深入增強。此外,還有一個短板,也需要補充,那就是數(shù)據(jù)。
大家應(yīng)該看出來了,AI 的三要素,就是算法、算力和數(shù)據(jù)。
深藍(lán)
1990 年代最重要的 AI 事件,當(dāng)然是 1997 年 IBM 超級電腦“深藍(lán)(DEEP BLUE)”與國際象棋大師卡斯帕洛夫(KASPAROV)的世紀(jì)之戰(zhàn)。
此前的 1996 年 2 月,深藍(lán)已經(jīng)向卡斯帕洛夫發(fā)起過一次挑戰(zhàn),結(jié)果以 2-4 敗北。
1997 年 5 月 3 日至 11 日,“深藍(lán)”再次挑戰(zhàn)卡斯帕羅夫。在經(jīng)過六盤大戰(zhàn)后,最終“深藍(lán)”以 2 勝 1 負(fù) 3 平的成績,險勝卡斯帕羅夫,震驚了世界。
這是 AI 發(fā)展史上,人工智能首次戰(zhàn)勝人類。
作為 80 后的小棗君,對這件事情也印象深刻。當(dāng)時“深藍(lán)”所引起的熱潮,絲毫不亞于后來的 ChatGPT。幾乎所有的人都在想 —— 人工智能時代是否真的到來了?人工智能,到底會不會取代人類?
深度學(xué)習(xí)
進入 21 世紀(jì),得益于計算機算力的進一步飛躍,以及云計算、大數(shù)據(jù)的爆發(fā),人工智能開始進入一個更加波瀾壯闊的發(fā)展階段。
2006 年,多倫多大學(xué)的杰弗里?辛頓(就是 1986 年發(fā)表論文的那個大神)在 science 期刊上,發(fā)表了重要的論文《Reducing the dimensionality of data with neural networks(用神經(jīng)網(wǎng)絡(luò)降低數(shù)據(jù)維數(shù))》,提出深度信念網(wǎng)絡(luò)(Deep Belief Networks,DBNs)。
深度學(xué)習(xí)(Deeping Learning),正式誕生了。
2006 年被后人稱為深度學(xué)習(xí)元年,杰弗里?辛頓也因此被稱為“深度學(xué)習(xí)之父”。
深度學(xué)習(xí)是機器學(xué)習(xí)的一個重要分支。更準(zhǔn)確來說,機器學(xué)習(xí)底下有一條“神經(jīng)網(wǎng)絡(luò)”路線,而深度學(xué)習(xí),是加強版的“神經(jīng)網(wǎng)絡(luò)”學(xué)習(xí)。
經(jīng)典機器學(xué)習(xí)算法使用的神經(jīng)網(wǎng)絡(luò),具有輸入層、一個或兩個“隱藏”層和一個輸出層。數(shù)據(jù)需要由人類專家進行結(jié)構(gòu)化或標(biāo)記(監(jiān)督學(xué)習(xí)),以便算法能夠從數(shù)據(jù)中提取特征。
深度學(xué)習(xí)算法使用“隱藏”層更多(數(shù)百個)的深度神經(jīng)網(wǎng)絡(luò)。它的能力更強,可以自動從海量的數(shù)據(jù)集中提取特征,不需要人工干預(yù)(無監(jiān)督學(xué)習(xí))。
2006 年,在斯坦福任教的華裔科學(xué)家李飛飛,意識到了業(yè)界在研究 AI 算法的過程中,沒有一個強大的圖片數(shù)據(jù)樣本庫提供支撐。于是,2007 年,她發(fā)起創(chuàng)建了 ImageNet 項目,號召民眾上傳圖像并標(biāo)注圖像內(nèi)容。
2009 年,大型圖像數(shù)據(jù)集 ——ImageNet,正式發(fā)布。這個數(shù)據(jù)庫包括了 1400 萬張圖片數(shù)據(jù),超過 2 萬個類別,為全球 AI 研究(神經(jīng)網(wǎng)絡(luò)訓(xùn)練)提供了強大支持。
從 2010 年開始,ImageNet 每年舉行大規(guī)模視覺識別挑戰(zhàn)賽,邀請全球開發(fā)者和研究機構(gòu)參加,進行人工智能圖像識別算法評比。
2012 年,杰弗里?辛頓和他的學(xué)生伊利亞?蘇茨克沃(Ilya Sutskever)和亞歷克斯?克里切夫斯基(Alex Krizhevsky)參加了這個比賽。
他們設(shè)計的深度神經(jīng)網(wǎng)絡(luò)模型 AlexNet 在這次競賽中大獲全勝,以壓倒性優(yōu)勢獲得第一名(將 Top-5 錯誤率降到了 15.3%,比第二名低 10.8%),引起了業(yè)界轟動,甚至一度被懷疑是作弊。
值得一提的是,他們?nèi)擞糜谟?xùn)練模型的,只是 2 張英偉達 GTX 580 顯卡。GPU 在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練上表現(xiàn)出的驚人能力,不僅讓他們自己嚇了一跳,也讓黃仁勛和英偉達公司嚇了一跳。
作為對比,2012 年的早些時候,谷歌“Google Brain”項目的研究人員吳恩達(華裔美國人,1976 年生于倫敦)、杰夫?迪恩(Jeff Dean)等人,也搗鼓了一個神經(jīng)網(wǎng)絡(luò)(10 億參數(shù)),用來訓(xùn)練對貓的識別。
他們的訓(xùn)練數(shù)據(jù)是來自 youtube 的 1000 萬個貓臉圖片,用了 1.6 萬個 CPU,整整訓(xùn)練了 3 天。
“深度神經(jīng)網(wǎng)絡(luò) + GPU”的優(yōu)勢,顯露無疑。很多人和很多公司的命運,從此改變了。
2013 年,辛頓師徒三人共同成立了一家名為 DNNresearch 的公司。后來,這個只有三個人且沒有任何產(chǎn)品和計劃的公司,被谷歌以幾千萬美元的價格競購(百度也跑去買,和谷歌爭到最后,沒成功)。
AlphaGo
2013 年-2018 年,谷歌是人工智能領(lǐng)域最活躍的公司。
2014 年,谷歌公司收購了專注于深度學(xué)習(xí)和強化學(xué)習(xí)技術(shù)的人工智能公司 ——DeepMind 公司。
2016 年 3 月,DeepMind 開發(fā)的人工智能圍棋程序 AlphaGo(阿爾法狗),對戰(zhàn)世界圍棋冠軍、職業(yè)九段選手李世石,并以 4:1 的總比分獲勝,震驚了全世界。
AlphaGo 具有很強的自我學(xué)習(xí)能力,能夠搜集大量圍棋對弈數(shù)據(jù)和名人棋譜,學(xué)習(xí)并模仿人類下棋。
一年后,AlphaGo 的第四代版本 AlphaGoZero 問世。在無任何數(shù)據(jù)輸入的情況下,僅用了 3 天時間自學(xué)圍棋,就以 100:0 的巨大優(yōu)勢,橫掃了第二代版本 AlphaGo。學(xué)習(xí) 40 天后,AlphaGoZero 又戰(zhàn)勝了第三代版本 AlphaGo。
當(dāng)時,全世界都在熱議 AlphaGoZero 的強悍自學(xué)能力,甚至一度引起了人類的恐慌情緒。
谷歌在 AI 圈出盡風(fēng)頭,但他們估計也沒有想到,一家在 2015 年悄然成立的公司(確切說,當(dāng)時是非營利性組織),會很快取代他們的主角地位。這家公司(組織),就是如今大紅大紫的 OpenAI。
OpenAI 的創(chuàng)始人,除了埃隆?馬斯克(Elon Musk)之外,還有薩姆?奧爾特曼(Sam Altman)、彼得?泰爾(Peter Thiel)、里德?霍夫曼(Reid Hoffman)。辛頓的那個徒弟,伊利亞?蘇茨克沃,也跑去當(dāng)了研發(fā)主管。
AIGC
深度學(xué)習(xí)崛起之后,大家應(yīng)該注意到,都是用于一些判別類的場景,判斷貓、狗之類的。那么,深度學(xué)習(xí),是否可以創(chuàng)造(生成)一些什么呢?
2014 年,蒙特利爾大學(xué)博士生伊恩?古德費洛(Ian Goodfellow),從博弈論中的“二人零和博弈”得到啟發(fā),提出了生成對抗網(wǎng)絡(luò)(GANs,Generative Adversarial Networks)。
生成對抗網(wǎng)絡(luò)用兩個神經(jīng)網(wǎng)絡(luò)即生成器(Generator)和判別器(Discriminator)進行對抗。在兩個神經(jīng)網(wǎng)絡(luò)的對抗和自我迭代中,GAN 會逐漸演化出強大的能力。
生成對抗網(wǎng)絡(luò)的出現(xiàn),對無監(jiān)督學(xué)習(xí)、圖片生成等領(lǐng)域的研究,起到極大的促進作用,后來也拓展到計算機視覺的各個領(lǐng)域。
2017 年 12 月,Google 機器翻譯團隊在行業(yè)頂級會議 NIPS 上,丟下了一顆重磅炸彈。他們發(fā)表了一篇里程碑式的論文,名字叫做《Attention is all you need(你所需要的,就是注意力)》。
論文提出只使用“自我注意力(Self Attention)”機制來訓(xùn)練自然語言模型,并給這種架構(gòu)起了個霸氣的名字 ——Transformer(轉(zhuǎn)換器、變壓器,和“變形金剛”是一個詞)。
所謂 "自我注意力" 機制,就是只關(guān)心輸入信息之間的關(guān)系,而不再關(guān)注輸入和對應(yīng)輸出的關(guān)系,無需再進行昂貴的人工標(biāo)注。這是一個革命性的變化。
Transformer 的出現(xiàn),徹底改變了深度學(xué)習(xí)的發(fā)展方向。它不僅對序列到序列任務(wù)、機器翻譯和其它自然語言處理任務(wù)產(chǎn)生了深遠(yuǎn)的影響,也為后來 AIGC 的崛起打下了堅實的基礎(chǔ)。
終于,AIGC 的時代,要到來了。
2018 年 6 月,年輕的 OpenAI,發(fā)布了第一版的 GPT 系列模型 ——GPT-1。同時,他們還發(fā)表了論文《Improving Language Understanding by Generative Pre-training(通過生成式預(yù)訓(xùn)練改進語言理解)》。
GPT,就是 Generative Pre.trained Transfommer 的縮寫,生成式預(yù)訓(xùn)練變換器。
Generative(生成式),表示該模型能夠生成連續(xù)的、有邏輯的文本內(nèi)容,比如完成對話、創(chuàng)作故事、編寫代碼或者寫詩寫歌等。
Pre.trained(預(yù)訓(xùn)練),表示該模型會先在一個大規(guī)模未標(biāo)注文本語料庫上進行訓(xùn)練,學(xué)習(xí)語言的統(tǒng)計規(guī)律和潛在結(jié)構(gòu)。
Transfommer,剛才說過了,就是那個很厲害的轉(zhuǎn)換器模型。
谷歌緊隨其后。2018 年 10 月,他們發(fā)布了有 3 億參數(shù)的 BERT(Bidirectional Encoder Representation from Transformers)模型,意思是“來自 Transformers 的雙向編碼表示”模型。
GPT-1 和 BERT 都使用了深度學(xué)習(xí)和注意力機制,具備較強的自然語言理解能力。兩者的區(qū)別是,BERT 使用文本的上下文來訓(xùn)練模型。而專注于“文本生成”的 GPT-1,使用的是上文?;凇半p向編碼”的能力,BERT 的性能在當(dāng)時明顯優(yōu)異于 GPT-1。
谷歌的領(lǐng)先是暫時的。2019 年和 2020 年,OpenAI 接連發(fā)布了 GPT-2 和 GPT-3。2022 年 11 月,OpenAI 發(fā)布了基于 GPT 模型的人工智能對話應(yīng)用服務(wù) ——ChatGPT(也可以理解為 GPT-3.5),徹底引爆了全世界。
ChatGPT 結(jié)合了人類生成的對話數(shù)據(jù)進行訓(xùn)練,展現(xiàn)出豐富的世界知識、復(fù)雜問題求解能力、多輪對話上下文追蹤與建模能力,以及與人類價值觀對齊的能力。
它在人機對話方面的出色表現(xiàn),引發(fā)了社會的高度關(guān)注,在全球范圍內(nèi)掀起了一股 AI 巨浪。
后面的事情,大家都比較清楚了。
繼 ChatGPT 后,OpenAI 又發(fā)布了 GPT-4、GPT-4V、GPT-4 Turbo、GPT-4o,形成了如今難以撼動的領(lǐng)導(dǎo)者地位。谷歌雖然也發(fā)布號稱最強 AI 大模型的 Gemini,但仍然難以在風(fēng)頭上蓋過 OpenAI。
除了文本生成,生成式 AI 也積極向多模態(tài)發(fā)展,能夠處理圖像、音頻、視頻等多種媒體形式。
例如 DALL-E、Stable Diffusion、Midjourney 等圖像生成模型,Suno、Jukebox 音樂生成模型,以及 SoRa 視頻生成模型。
全球面向各個垂直領(lǐng)域的“大模型之戰(zhàn)”,仍在硝煙彌漫地進行之中。。。
█ 結(jié)語
寫到這里,這篇洋洋灑灑一萬多字的文章,終于要結(jié)束了。
我總結(jié)一下:
人工智能起步于 1950 年代,早期主要是符號主義占主流,并引發(fā)了第一次(政府投資)和第二次 AI 浪潮(企業(yè)投資)。
到 1980 年代,符號主義逐漸走弱,機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)開始崛起,成為主流。
1994-現(xiàn)在,雖然叫做第三次 AI 浪潮,但也分兩個階段。1994-2006(其實是 1980-2006),是機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)的早期積累階段,打基礎(chǔ)。
2006 年,神經(jīng)網(wǎng)絡(luò)進入深度學(xué)習(xí)階段,就徹底開始了 AI 的爆發(fā)。
從 2018 年開始,人工智能逐漸進入了 Transformer 和大模型時代,能力有了巨大的提升,也掀起了 AI 巨浪。
如今的人工智能,已經(jīng)是全世界關(guān)注的焦點,也處于一個前所未有的白金發(fā)展階段。
隨著深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、生成式 AI 等技術(shù)的不斷突破,人工智能已經(jīng)在工業(yè)、教育、醫(yī)療、金融、交通、娛樂等幾乎所有領(lǐng)域?qū)崿F(xiàn)了落地。人工智能在計算機視覺、自然語言處理、機器人等方面所具備的能力,已經(jīng)被應(yīng)用到大量的垂直場景,并產(chǎn)生了可觀的經(jīng)濟效益。
在人工智能熱潮的帶動下,軟件、半導(dǎo)體、通信等 ICT 產(chǎn)業(yè),都獲得了不錯的商業(yè)機會。圍繞人工智能的幾家大公司,包括英偉達、微軟、蘋果、Alphabet(谷歌母公司)、亞馬遜、Meta、特斯拉,目前在股票市場被譽為“七巨頭”,市值屢破紀(jì)錄。
當(dāng)然了,這股熱潮究竟會走向何方,我們還不得而知。也許,它會繼續(xù)增長一段時間,甚至長期持續(xù)下去,將人類徹底帶入智能時代。也許,我們會進入第三次 AI 低谷,泡沫破碎,一地雞毛,又進入一個新的周期。
未來如何,就讓時間來告訴我們答案吧。
參考文獻:
1、《人工智能簡史》,尼克;
2、《人工智能發(fā)展簡史》孫凌云、孟辰燁、李澤?。?/p>
3、《人工智能 60 年技術(shù)簡史》,李理;
4、《深度學(xué)習(xí)簡史》,Keith D. Foote;
5、《AI 是什么將帶我們?nèi)ツ膬??》,李開復(fù);
6、《人工智能的五個定義:哪個最不可取?》,李開復(fù);
7、《一文讀懂人工智能發(fā)展史:從誕生,到實現(xiàn)產(chǎn)業(yè)化》,李彎彎;
8、《你一定愛讀的人工智能簡史》,山本一成;
9、《AlphaGo 背后:深度學(xué)習(xí)的勝利》,曹玲;
10、《三張圖講述一部 AI 進化史》,產(chǎn)品二姐(知乎);
11、《GPT 的背后,從命運多舛到顛覆世界,人工神經(jīng)網(wǎng)絡(luò)的跌宕 80 年》,孫睿晨;
12、百度百科、維基百科等。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。