撰文:周熠 博士、上海腦科學(xué)與類腦研究中心類腦計算研究組研究員
回顧整個人類的發(fā)展歷史,人類文明高度整體上幾乎是呈現(xiàn)著指數(shù)上升的趨勢。我們花了很長的時間來感知自然界,但實(shí)際上人類目前的感知能力跟大猩猩、猴子等動物差不多。大約在 250 萬年前,人類祖先發(fā)生了認(rèn)知革命,從感知到認(rèn)知,開始認(rèn)知自然界。到了大概 1.2 萬年前,人類祖先又經(jīng)歷了一個新的革命,也就是從認(rèn)知自然界到改造自然界。而在約 500 年前的文藝復(fù)興后,人類的認(rèn)知能力又有了一次飛躍:從改造自然界到創(chuàng)造自然界。直至現(xiàn)在,人類文明在不斷攀登新的高度。
對機(jī)器而言,大抵也要經(jīng)歷這樣的過程,也要遵循一個類似的發(fā)展曲線。剛開始的時候,可能還是得先從感知做起,這也是現(xiàn)在人工智能正在做的,而且做得相對比較成功。某種意義上,現(xiàn)在人工智能正在經(jīng)歷一個所謂的范式轉(zhuǎn)變(paradigm shift),即從感知智能到認(rèn)知智能的范式轉(zhuǎn)變。
人類通過視覺、聽覺、觸覺、味覺等等,去感知自然界,得到一些初步的信息。認(rèn)知則是在感知的基礎(chǔ)之上,理解這些對象并且產(chǎn)生知識,做出決策。某種意義上,從感知到認(rèn)知是整個行為決策過程中的兩個不同的環(huán)節(jié)。為什么說從感知智能到認(rèn)知智能是一個很重要的變化呢?為什么認(rèn)知智能特別難?現(xiàn)在到底做的怎么樣了?
感知智能與認(rèn)知智能
很多社會新聞中的當(dāng)事人,作出了看上去不太明智的決定。大家看了之后,可能會覺得這些人做的事情很 “蠢”。但請仔細(xì)想一想,這些人在感知自然界的時候,他們很蠢嗎?其實(shí)并不是,他們和其他人的正常感知是一模一樣的。只是他們在做認(rèn)知的時候、在做決策的時候做了一些我們覺得很愚蠢的事情。實(shí)際上,從感知到認(rèn)知的跨度很大,我們覺得生活中有些小伙伴們比較愚蠢的行為,機(jī)器也并不能做得比他們好多少。這大概是現(xiàn)在人工智能所處的狀態(tài)。
簡而言之,從感知智能到認(rèn)知智能,人工智能還有很長的路要走。
如果再比較一下動物和人類,感知和認(rèn)知的區(qū)別就更加明顯了。人類是對地球,但事實(shí)上我們感知的能力并不比動物強(qiáng)。論速度比不上豹子,論力量比不過熊,論視覺比不過鷹,論嗅覺比不過狗。但是為什么我們成為了地球的主宰,因?yàn)槲覀冇泻軓?qiáng)的認(rèn)知能力。在感知之上,我們可以總結(jié)經(jīng)驗(yàn),得到知識,創(chuàng)造新的知識,從而成為了萬物靈長。
以上種種都大約能傳遞一個信息:認(rèn)知跟感知很不一樣,它很關(guān)鍵,是人類能夠變得一枝獨(dú)秀的最重要的原因。
那么機(jī)器到底在感知和認(rèn)知上做得怎么樣?
在感知智能上,目前機(jī)器智能正在接近和逼近人類,已經(jīng)做得很不錯。比方說,現(xiàn)在已經(jīng)被廣泛應(yīng)用的人臉識別,在火車站等公共場所中都已開始廣泛應(yīng)用;再有語音識別,這方面也做得非常好,可以把語音方便地轉(zhuǎn)成文字;還有光學(xué)字符識別,對于報銷單等,可以直接提取出一個結(jié)構(gòu)化的文檔來??梢哉f,在感知智能這個層次上面,基于深度學(xué)習(xí)的一些技術(shù)在某種意義上已經(jīng)能夠跟人類媲美了。
那么認(rèn)知智能呢?其實(shí)認(rèn)知智能領(lǐng)域也取得了很多突破,例如國際象棋和圍棋方面的迅猛進(jìn)步。1997 年時人工智能便能擊敗人類的國際象棋冠軍;而兩年前,AlphaGo 橫空出世,在圍棋上橫掃人類;2011 年的時候,IBM 做了一個叫 “沃森”的機(jī)器人,在類似于 “開心詞典”的知識搶答競賽中,擊敗了人類的世界冠軍。很多小伙伴在玩游戲時可能會感受到人工智能的能力,像星際爭霸、王者榮耀等等游戲中,人工智能都有了很多不錯的嘗試,而且已經(jīng)取得了很好的成績。
但為什么我們還會說認(rèn)知智能任重道遠(yuǎn)呢?不少人應(yīng)該都看過 2015 年 Alpha 機(jī)器人挑戰(zhàn)賽的失敗集錦視頻。雖然在演講、報道時得到傳播的往往都是行業(yè)發(fā)展的正面消息,但事實(shí)上這些反面的或者失敗的經(jīng)歷同樣很重要。它告訴我們?nèi)斯ぶ悄艿倪吔缭谀?,到底什么事情做得好,什么事情做得不好。?dāng)然,相比 2015 年的技術(shù)水平,現(xiàn)在的機(jī)器人技術(shù)已經(jīng)突飛猛進(jìn)了。比方說從 2015 年到現(xiàn)在,以波士頓動力為代表的一些公司研發(fā)的阿特拉斯機(jī)器人、“機(jī)器大狗”等產(chǎn)品,在平衡性上面已經(jīng)做得很好了。
但是在一些特別簡單的認(rèn)知任務(wù)上,人工智能卻出人意料得差。比如開一個閥門、開一扇門,在這些事情上面,機(jī)器人比大家想象的要差非常得多。某種意義上,現(xiàn)在的機(jī)器人技術(shù)根本沒有辦法打開任意一扇門。因?yàn)橛胁煌拈T,不同的把手,不同的開門方法。而機(jī)器人要用統(tǒng)一的方法來做 “開門”這件事情,這是非常困難的。
認(rèn)知智能在某些點(diǎn)上已經(jīng)做得很不錯了,但是反過來在有些很簡單的事情上面,其實(shí)還做得特別糟糕。這是因?yàn)槿烁鷻C(jī)器不是一個物種,人跟機(jī)器有本質(zhì)上的區(qū)別,某些人看起來特別難的事情,對機(jī)器并沒有那么困難。比方說下國際象棋,對機(jī)器來說,它就是個搜索問題,而對人來說,因?yàn)樗阉髂芰]達(dá)到那個程度,運(yùn)算量、運(yùn)算智能不足,才會覺得這個事情非常困難,需要有很多的知識和技巧,大量的高強(qiáng)度訓(xùn)練。
反過來,在有些人看起來特別簡單的事情,機(jī)器會覺得非常的困難。就拿 “開門”來說,世上有無數(shù)的不同類型的門,沒有辦法將其窮盡并定義成幾種不同的開門方式。另外一個很難的事情就是所謂的常識知識,比方說下雨的時候地面會濕,這一類的信息。雖然對一般人來說這些常識都是一些不需要特別注意的信息,但這些常識知識非常多、非常復(fù)雜,處于不同的領(lǐng)域,所以對機(jī)器來講就很難獲取。
所以每當(dāng)有人問:機(jī)器是不是要?dú)缛祟愔惖膯栴},我只好笑一笑:讓它先去開個門試一試!
什么是認(rèn)知智能?
那么我們又該怎么定義 “認(rèn)知智能”呢?或許我們可以先從詞源的角度探討一下。簡而言之,“認(rèn)知”基本上等于 “認(rèn)識知識”。尼爾森說過,人工智能某種意義上是關(guān)于知識的科學(xué)。
在牛津詞典里,關(guān)于智能、關(guān)于認(rèn)知這些詞的解釋會經(jīng)常變。其中有一個解釋是這樣的:智能是獲取和使用知識和技巧的能力。認(rèn)知是一個心理狀態(tài)過程,也是獲取知識并且去理解這些知識的能力。某種意義上,認(rèn)知智能的核心就是怎么去認(rèn)識知識,也就是說,它是關(guān)于知識處理方面的能力。
這方面的能力有三點(diǎn)是必備的,也是非常本質(zhì)的。第一,需要把知識編碼出來,即要進(jìn)行知識表示或者知識編碼。第二,怎么去獲取這些知識,不管是常識知識也好,專業(yè)知識也好,不管是開門也好,下圍棋也好,這知識到底怎么來的?第三,假設(shè)知識已經(jīng)有了,到底怎么去運(yùn)用這些知識解決問題。
因此,我個人的粗淺理解是,對于認(rèn)知智能而言,它的核心就是知識到底怎么表示、怎么獲取、怎么運(yùn)用。目前人工智能在這三方面也有著不同的進(jìn)展,我們可以將其分為 “三大流派”。
三大流派
第一個就是現(xiàn)在特別火的 “連接流派”,基于神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)。上圖左邊三位獲得了 2019 年的圖靈獎,右邊這一位也是深度學(xué)習(xí)的另一位領(lǐng)袖。他們提出了現(xiàn)在特別流行的一些概念,例如深度學(xué)習(xí)里的卷積神經(jīng)網(wǎng)絡(luò),還有循環(huán)神經(jīng)網(wǎng)絡(luò)等等。這些概念非常有用,也取得了很多成績。可以說,連接流派是通過模擬生物神經(jīng)網(wǎng)絡(luò)的方法來做人工智能的。
舉個簡單的例子,勾股定理(畢達(dá)哥拉斯定理),很早就被發(fā)現(xiàn)了,那么現(xiàn)在給深度學(xué)習(xí)一個神經(jīng)網(wǎng)絡(luò),比方說一億個直角三角形,它能夠?qū)W得會勾股定理嗎?恐怕很難,因?yàn)樗茈y學(xué)習(xí)結(jié)構(gòu)化知識。在表示上面,表示結(jié)構(gòu)化知識的時候,也遇到了很大的問題。連接流派在學(xué)習(xí)上面做得還不錯,但表示和推理還有一些缺陷和問題。
另外一個很重要的流派現(xiàn)在雖然不經(jīng)常被提到,但在機(jī)器人領(lǐng)域有很多應(yīng)用,叫做行為流派。MIT的 Rodney Brooks 提出了所謂的包容式體系結(jié)構(gòu),就是不同的層面都做簡單的反應(yīng)式推理,就像條件反射一樣,但是從不同的層次來做。已經(jīng)得到廣泛應(yīng)用的掃地機(jī)器人產(chǎn)品,iRobot,就來他和學(xué)生開的公司。除了掃地機(jī)器人之外,他也在嘗試新的機(jī)器人公司,包括通用工業(yè)機(jī)器人等等。
那么基于反應(yīng)式的行為流派在知識的表示、推理和學(xué)習(xí)上面做得怎么樣呢?。其實(shí)行為流派最大的優(yōu)勢在推理效率快,因?yàn)榉磻?yīng)快,只要給它一個刺激,它就能推出來。但它在表示和學(xué)習(xí)上面卻遇到了很大的困難,比方說反應(yīng)式的規(guī)則怎么得到,是不是能夠表示更復(fù)雜的知識等等。
第三個就是基于邏輯學(xué)的符號流派,這其實(shí)是原來人工智能的一個主流的流派。20 世紀(jì) 80 年代第二波人工智能潮,就主要是由基于符號流派的專家系統(tǒng)引起的。符號流派在人工智能歷史中很輝煌,除了剛才說的三位圖靈獎之外,其他的人工智能圖靈獎獲得者基本上都是符號流派的或與符號流派密切相關(guān),包括達(dá)特茅斯會議的那幾位先驅(qū) McCarthy、Minsky、Simon、Newell,還有后面的 Pearl 這些人。此外,人工智能的祖師爺圖靈,他本身就是個邏輯學(xué)家、符號學(xué)家。機(jī)器本身也需要建立在邏輯以及語言的一些基礎(chǔ)之上,所以符號流派當(dāng)時在人工智能領(lǐng)域占據(jù)了很重要的地位。
那為什么現(xiàn)在符號流派沒有在領(lǐng)域內(nèi)占據(jù)更多聲音?因?yàn)樗灿龅搅撕芏嗬щy,主要集中在學(xué)習(xí)和推理方面。當(dāng)關(guān)于人工智能的討論還停留在學(xué)術(shù)層面的時候,符號流派很吃香。因?yàn)楫?dāng)時討論的前提是假設(shè)知識已經(jīng)有了,機(jī)器也已經(jīng)學(xué)習(xí)到了,大家去討論該怎么用這些知識去解決問題。然而這些理論在后來真正跟應(yīng)用結(jié)合起來時,大家才發(fā)現(xiàn)一個慘痛的事實(shí):這個假設(shè)不成立。知識并不是天生就有的,需要通過某種方法去獲取知識。而符號流派的方法就很簡單粗暴——專家去寫。這也是為什么專家系統(tǒng)一度很 “火”,后來又遭遇了很大瓶頸的其中一個原因。
符號流派在表示上面做得不錯,比如像勾股定理之類的知識,甚至更復(fù)雜的知識,用符號的方法都可以比較好地表示出來。但是在推理和學(xué)習(xí)上,它遇到了一些很大的問題。如果連知識都沒有的話,所有的東西都是空中樓閣。所以這一流派現(xiàn)在有些萎靡不振。
通過這三個人工智能的重要流派,可以看出有一個很有意思現(xiàn)象:每個流派都在某一方面有專長。連接流派在學(xué)習(xí)上面做得不錯;行為流派在推理上面;符號流派則在表示上面做的不錯。于是,有一個很自然的想法出現(xiàn)了:是不是可以把它們折中或者說把它們?nèi)诤掀饋??最近幾年這一想法正在有越來越多的實(shí)踐和嘗試,例如現(xiàn)在還比較火的知識圖譜技術(shù)。但總地來說,這些嘗試僅僅是在 “折中”,各方面的優(yōu)點(diǎn)確實(shí)是取了一點(diǎn),但是同時也犧牲了它們的一些特性。
分析之后大家就會發(fā)現(xiàn),人工智能目前在知識表示、知識推理和知識學(xué)習(xí)上面,都遇到了一定的問題。這就是現(xiàn)在認(rèn)知智能為什么難做的一個很大的原因。
人工智能的 6E 目標(biāo)
而對人工智能抱有期盼的人們真正想要的是什么?毫無疑問是這么一個 “完美三角形”。人們希望人工智能在知識的表示、知識的推理和知識的學(xué)習(xí)上面都能做得很好,至少像人這么好,但這是無疑一個很困難的事情。個人淺見,為此,至少有下面幾點(diǎn)是必須要做到的,即 6E:簡潔(Elegant),可擴(kuò)展(Extensible),強(qiáng)表達(dá)(Expressive),高效(Efficient),可教育(Educable),可演化(Evolvable)。
人工智能想要達(dá)到完美三角形的能力,依舊有很長的路要走,任重而道遠(yuǎn)。就我個人的粗淺的理解,為了達(dá)到這個目標(biāo),需要開發(fā)新的人工智能方法,來做到 6E。事實(shí)上,如果基于已有的人工智能理論和方法,6E 是相互沖突的。比如說在符號流派里,表達(dá)能力跟效率之間的權(quán)衡,一直是一個核心問題。但事實(shí)上這些在應(yīng)用的時候都需要良好發(fā)揮,怎么去突破這些理論上的瓶頸,是非常困難的事情。
但轉(zhuǎn)念想想,反觀人類自己,是不是某種意義上在 6E 的各個方面都能表現(xiàn)出色?我們以自然語言為基礎(chǔ)的知識表示、推理和學(xué)習(xí)相對簡單、可擴(kuò)展性超級好、表達(dá)能力非常強(qiáng)、雖然不特別高效但也足夠用。也是可教育、可演化的:既能夠總結(jié)經(jīng)驗(yàn)、又能學(xué)習(xí)新的知識。我個人的理解,這才是現(xiàn)在的人工智能跟人真正的差距所在。
個人認(rèn)為,達(dá)到完美三角形是人工智能最重要的事情。屆時,針對以下一些認(rèn)知智能的關(guān)鍵科學(xué)問題,包括:什么是知識?是否存在統(tǒng)一的知識(數(shù)學(xué))模型?機(jī)器(人類 / 腦)如何編碼、獲取、運(yùn)用知識?知識和數(shù)據(jù)、知識和智能的關(guān)系是什么?認(rèn)知智能和知識科學(xué)會有哪些殺手級應(yīng)用?人工智能領(lǐng)域?qū)o出一個更好的回答。在此基礎(chǔ)上,我相信人工智能會有長足的進(jìn)展,會有一個從感知智能到認(rèn)知智能的范式轉(zhuǎn)變,會有一個從數(shù)據(jù)科學(xué)到知識科學(xué)的范式轉(zhuǎn)變。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。