設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

吳恩達(dá):百度人臉識別錯誤率低于谷歌

2015/3/22 10:23:12 來源:IT之家 作者:彌塵 責(zé)編:彌塵

2015年中國IT領(lǐng)袖峰會直播圖文概要點此進(jìn)入

3月22日,2015中國(深圳IT)領(lǐng)袖峰會開幕式的主題演講中,百度首席科學(xué)家吳恩達(dá)發(fā)表主題演講《深度學(xué)習(xí)與人工智能》。

他認(rèn)為人工智能的臨界點正在到來。百度在聲音和圖像識別方面取得了突破性進(jìn)展。比如,在人臉識別方面,google的6000對人臉識別錯誤百分比為0.37%,百度為0.16%。

此外,他認(rèn)為語音識別的99%的準(zhǔn)確率會徹底改變玩法,99%的準(zhǔn)確率可以讓我們徹底改變手機(jī)的語音交互方式。語音將會推動物聯(lián)網(wǎng)的巨大變革。

以下為吳恩達(dá)演講實錄:

吳恩達(dá):大家好!我還是每天學(xué)習(xí)一點中文,不過我現(xiàn)在普通話還是不夠好,所以如果有這個耳機(jī),我今天還是講英語,請翻譯者幫我翻譯。

我們看到新的人工智能技術(shù)出現(xiàn),我們把它稱為深度學(xué)習(xí),深度學(xué)習(xí)給我們帶來了巨大的價值,給很多的IT公司也帶來很多的價值。我相信人工智能,我指的是新的人工智能,也就是深度學(xué)習(xí)給我們帶來的影響將會越來越深遠(yuǎn)。在座的各位很多是企業(yè)的領(lǐng)袖,所以未來大家可能會做出對你的組織有利的很多重要的決定,可能是公司,也可能是大學(xué),這都是在深度學(xué)習(xí)方面的,所以我想分享一些對大家有用的東西。首先我講一下為什么現(xiàn)在人工智能的發(fā)展非常迅速,第二要怎樣進(jìn)行投資來推動人工智能的發(fā)展。我們在全球看到的人工智能發(fā)展趨勢,以及我們面臨的機(jī)會和挑戰(zhàn)。

我希望在我的演講當(dāng)中關(guān)注三個領(lǐng)域,我覺得這三個領(lǐng)域正在發(fā)生重大的創(chuàng)新,一個是圖像,第二個是語音,第三個是行為。我們先從圖像開始,很多年前我還在斯坦福大學(xué)教課的時候,我問學(xué)生一個問題,就用當(dāng)時一個人工智能的技術(shù)找到一個咖啡杯,結(jié)果非常亂,他們覺得整個廚房臺面上放的都是咖啡倍??墒沁^去幾年技術(shù)已經(jīng)取得了巨大的發(fā)展,在這些年當(dāng)中,人工智能的發(fā)展曾經(jīng)一度比較低迷或者說比較慢,而在最近幾年當(dāng)中有一類新的人工智能技術(shù)出來了,我們把它稱為深度學(xué)習(xí),也就是使計算機(jī)學(xué)習(xí)了更多人類的神經(jīng)系統(tǒng),來更好地解決比如說圖形識別的問題。

我們有時候不是很清楚人腦究竟是如何工作的,而我們要真正把深度學(xué)習(xí)做好,就必須要了解人腦在做什么,人腦當(dāng)中發(fā)生了什么,這對我們來說是非常重要的。我們使用這些計算的結(jié)果,我們可以給他們提供很多的數(shù)據(jù),比如咖啡倍圖像的數(shù)據(jù),這樣我們可以獲得更好的計算機(jī)視覺。做更好的辨識,我們對于網(wǎng)絡(luò)神經(jīng)的研究,對于人工智能的研究進(jìn)行了好多年,所以有些人問我為什么在最近幾年,比如最近五年才獲得比較快速的發(fā)展,要回答這個問題我需要打一個比方。

比如如何構(gòu)建火箭,火箭的形狀包括兩件事情,一個是發(fā)動機(jī),另外一個是燃料,這兩部分是非常重要的,必須把這兩方面做好,我們才能有機(jī)會把這個火箭發(fā)射到太空中去。如果你的發(fā)動機(jī)太小,燃料太大不行,發(fā)動機(jī)太大燃料不夠也不行。所以火箭發(fā)動機(jī)和火箭的比例非常好才能夠確保火箭準(zhǔn)確地發(fā)射到軌道當(dāng)中,這給我們深度學(xué)習(xí)也帶來了一些啟示。我們在深度學(xué)習(xí)的過程當(dāng)中就像發(fā)射火箭那樣研究巨大的神經(jīng)網(wǎng)絡(luò)在我們的社會當(dāng)中每天都發(fā)生著巨大的活動,而且人們的活動多數(shù)都是圍繞著他們的手機(jī)和電腦來開展的。我們?nèi)绾卫眠@種新的情況呢,或者新的環(huán)境更好地幫助我們了解巨大的神經(jīng)網(wǎng)絡(luò)呢?

我們的社會越來越多地進(jìn)行數(shù)據(jù)化或者數(shù)字化,我剛才已經(jīng)說了人們很多生活都是圍繞著手機(jī)和電腦來開展的。我想和大家分享一下我過去的一些經(jīng)驗,在IT世界發(fā)生什么,來構(gòu)造更好的IT行業(yè)的火箭發(fā)動機(jī)和燃料的比例配比。在很多年前,當(dāng)深度學(xué)習(xí)這個概念剛剛開始的時候,更多的是使用CPU技術(shù),構(gòu)建小的神經(jīng)元網(wǎng)絡(luò)只有100萬或1000萬的連接。我所說的是計算機(jī)連接的數(shù)目,之后我們?nèi)〉昧艘恍┻M(jìn)展。其中在2008年發(fā)生改變的事情就是GPU技術(shù)的發(fā)展,我們看到它的連接數(shù)目也發(fā)生了巨大的增長,GPU是手機(jī)上、pad上的硬件來幫助你做計算,有些人意識到硬件對我們加速深度學(xué)習(xí)非常重要,發(fā)揮著非常重要的作用。我們借助GPU可以構(gòu)造越來越大的神經(jīng)元網(wǎng)絡(luò)。

在往后,我們看到了更多大規(guī)模的發(fā)展,像谷歌的深度學(xué)習(xí)項目,使我們更多地了解相關(guān)的知識,我們有了更多的云,更多的CPU來推動相關(guān)的發(fā)展?,F(xiàn)在我們看到的,我也認(rèn)為這是下一階段的趨勢,就是我們要從云技術(shù),或者說僅僅利用純技術(shù)跳到HPC或者叫高性能的計算技術(shù),超性能的計算技術(shù)。我不想講過多的細(xì)節(jié),因為它會偏重于技術(shù),讓我們更多地來看今天所關(guān)注的話題,HPC和云,這可能是兩個比較分離的社區(qū),研究云和研究HPC的人也是兩類人。隨著云技術(shù)的發(fā)展,你可以同時使用上千臺計算機(jī),不用擔(dān)心這么多計算機(jī)會發(fā)生崩潰,這種情況是不會發(fā)生的,現(xiàn)在已經(jīng)認(rèn)證了這點。而HPC技術(shù)比較小數(shù)目,但是更貴、更高性能的硬件,而我們也認(rèn)為這對于我們構(gòu)造更好比例的火箭引擎也是更佳的一個解決方案。

在中國,我們其實在一些領(lǐng)域是比較領(lǐng)先的,甚至領(lǐng)先于世界很多其他先進(jìn)國家。HPC到深度學(xué)習(xí)的跳越,而其他國家也確實進(jìn)行大量的投資,這也是需要我們注意的。使用這些火箭引擎,再做一個類比,我還想給大家舉一個這樣的例子,看我們究竟能做什么。比如說計算機(jī)系統(tǒng)對人臉的識別,這對我們來說也是比較重要的計算機(jī)應(yīng)用。比如針對安全的目的,還有保安的目的,這都是在未來會越來越多的應(yīng)用。大家對這張臉都很熟,美國著名的影星,通過人臉識別可以告訴我們是同一張臉,這當(dāng)然是最佳的結(jié)果,不同的組織使用不同的技術(shù),他們得到的結(jié)果也是不一樣的,這是因為有時候這個軟件的計算也會發(fā)生不同。

我希望大家參考一下這個柱狀圖就可以了解相關(guān)的計算結(jié)果了,我們是這周才宣布我們能夠在這方面表現(xiàn)得比其他大多數(shù)公司都要好。謝謝大家鼓掌鼓勵!

和其他公司相比,比如說和谷歌、臉書相比,谷歌和臉書的火箭燃料比我們多,也就是他們的數(shù)據(jù)比我們多。但是我們在發(fā)動機(jī)上的投資比他們多,我們在發(fā)動機(jī)上的投資多給我們帶來巨大的好處。我們在發(fā)動機(jī)和燃料的比例方面要做得好才能確保這是一個好的火箭,我們正是在發(fā)動機(jī)方面進(jìn)行大量的投資。所以我們才在人臉識別領(lǐng)域和其他領(lǐng)域比其他國際上領(lǐng)先的大公司要做得好。我們在人臉識別只有0.3幾的錯誤率,大家可以看到我們的比例多么高,我給大家演示一下我們所發(fā)生的錯誤。

看一下這張臉,你覺得哪兩張臉是動一個人的臉,還是都不同的?比如說在左邊的女人的臉,和其他哪張臉是相同的,大家能告訴我嗎?我們所犯的9個錯誤,其實就是發(fā)生在這里面,這些都是一個人,大家根本想象不到,他們都是一個人,發(fā)生錯誤可能是數(shù)據(jù)的關(guān)系,不是我們自身的關(guān)系。而下面是不同的人,大家能看出來了。

我剛才提到了識別,像咖啡杯,還有人臉的東西,除了這些電腦能夠做的事情,還有很多,它能夠理解圖片還有很多,如果我們能夠在這方面做得很好的話,這張圖片能夠告訴我們很多東西。比如我們看左邊,如果要求你寫字幕的話會怎么寫呢?你可能會寫有一輛黃色的車在路上開著。如果要為右邊的圖片寫字幕的話會怎么寫呢?你可能會寫起居室充滿了下午的陽光。這個還不夠充滿激情,我們還可以通過深度學(xué)習(xí)讓你了解更多的信息來寫一篇更有吸引力的字幕。

一個計算機(jī)能不能了解你我了解的圖片信息呢,或者能不能像人腦一樣工作了解我們想了解的信息呢??赡芙Y(jié)果是非常讓大家吃驚的?,F(xiàn)在我在圖片上顯示的字幕 并不是人寫的,而是機(jī)器寫的,這就是我們百度可以提供的技術(shù),也是我們起步的技術(shù)。而其他公司甚至還沒有搞清相關(guān)的概念,他們有一個籠統(tǒng)的想法要提高電腦 圖像的識別,在過去幾年,具體來說大概三年的時間內(nèi),計算機(jī)圖像的技術(shù)發(fā)展非常迅速,現(xiàn)在計算機(jī)在圖像識別上,比更多年以前要做得好得多?,F(xiàn)在很多計算機(jī) 公司甚至比很多人腦眼睛一眼看上去了解的信息還多。我們有一些想法、有一些產(chǎn)品,也有一些技術(shù),我想說的是這些技術(shù)給我們開啟了無限的可能,可以使我們來 了解一下哪些產(chǎn)品領(lǐng)域是大有可為的。我們可以在圖上了解一些相關(guān)的領(lǐng)域,比如百度還有其他的搜索引擎正在做的事情。我不知道一個非常清晰的路線圖是怎樣 的,或者哪個領(lǐng)域會發(fā)展得更加迅速。

  比如百度在衣服的搜索方面做很多東西。還比如對老年人的照顧方面,我們也做了一些探索,因為中國現(xiàn)在面臨人口老齡化的問題。還有在可穿戴設(shè)備方面也有一些新的舉措。我們希望在這些新領(lǐng)域的探索開啟更多的機(jī)會,使我們可以創(chuàng)造更大的產(chǎn)業(yè)。

   來看一下計算機(jī)的發(fā)展,我想跟大家分享一下第二個領(lǐng)域語音識別方面我們做的東西。在移動互聯(lián)網(wǎng)方面,大家對互聯(lián)網(wǎng)的使用,對手機(jī)的使用越來越多的結(jié)合起 來。我們過去是用鍵盤,包括手機(jī)鍵盤來敲字,這是比較浪費時間的,大家現(xiàn)在用話音來進(jìn)行溝通,所以語音識別是一個非常重要的發(fā)展方向。大家可以試一下百度 上面有相關(guān)的應(yīng)用,現(xiàn)在已經(jīng)做得比較好了。而大家現(xiàn)在普遍反應(yīng)在手機(jī)上進(jìn)行語音通信的時候,如果手機(jī)離得比較遠(yuǎn)的話效果不是很好,要比較近的時候語音識別 才做得比較好。我們在相關(guān)的IT技術(shù)方面也做一些探索,從傳統(tǒng)領(lǐng)域來看,這是語音識別所做的事情,基本上所有做語音識別的公司都是使用非常復(fù)雜的管道。我 們來改善它的話音系統(tǒng),突出聲音特征,有一些不同的模塊,不的的模塊組合起來識別這個人到底講了什么。

  我們百度做的是什么事情呢?我 們 把所有這些東西都替代掉,用先進(jìn)的人工智能技術(shù)替代掉,用先進(jìn)的深度學(xué)習(xí)技術(shù)來替代掉,這就是我們百度的深度語音,我們的火箭發(fā)動機(jī)。大家看到這個話音識 別的結(jié)果如下,很多公司用的是依靠大量的數(shù)據(jù),而百度忘掉那些數(shù)據(jù)吧,我們將用1萬的數(shù)據(jù)集進(jìn)行人工智能處理,這就是我們的火箭燃料,我們形成了一些研究 的結(jié)果。大家可以看到,基本上結(jié)果是不可想象的。

  人們之前從來不會想到能利用這么多的數(shù)據(jù),我們使用神經(jīng)元系統(tǒng)以及數(shù)據(jù)燃料,我們發(fā) 布 了這樣一個結(jié)果,我們可以極大地提高語音識別的準(zhǔn)確性。根據(jù)我們的計算結(jié)果,我們的調(diào)查結(jié)果,我們現(xiàn)在正處于這樣一個環(huán)境,如果你對著手機(jī)說話提出你的要 求,我們的接口是做得越來越好了。我們可以很好地處理背景噪音,使手機(jī)更好地識別你自己講出的話。我非常興奮,我們能夠在這方面做得越來越精確,做得越來 越好。在百度,我們已經(jīng)看到了使用話音識別的用戶越來越多了。因此在這個領(lǐng)域,我們還有很多要提高的。很多人是低估了95%的準(zhǔn)確率和99%的語音識別準(zhǔn) 確率的差別。如果我們能夠做到95%的話,也就是今天的狀況,你說話要非常清楚,要離話筒非常近,必須這樣才能識別出來。如果我們將來能做到99%的準(zhǔn)確 率的話,這和95%簡直是天壤之別,這會徹底改變我們的玩法。如果我們能真正做到99%,我們甚至可以把所有手機(jī)的接口做重新的設(shè)計和修改,使我們自己更 加習(xí)慣于語音通話指令的發(fā)送方式,這可以推動這個領(lǐng)域的革新。你手里的東西將不是傳統(tǒng)上的手機(jī)了。

  在手機(jī)之外,我覺得我們的話音識別 還 會推動物聯(lián)網(wǎng)的革命,從汽車界面到家用設(shè)備到可穿戴設(shè)備將會發(fā)生很多的改變。我在家里有5個遙控可以控制的東西,我想再過幾年再回過頭來看,我們會覺得這 5個遙控太少了,比如你只是遙控電視,只是遙控空調(diào),簡直不夠了,看來都是小兒科的東西。在幾年的時間內(nèi),或者在未來幾年,我們將能夠和電視通話,和更多 的家電通話,這將是未來面臨的發(fā)展,我們將有很多的路由器內(nèi)置到這些機(jī)器當(dāng)中。

  這是對語音識別的介紹,下面再看一下最后一個部分,也就是行為這塊。

   我們看到很多技術(shù)公司現(xiàn)在都能夠獲取到一些大數(shù)據(jù)來了解人們在互聯(lián)網(wǎng)的環(huán)境當(dāng)中究竟是什么樣的行為,這是技術(shù)的發(fā)展。我們可以從這些數(shù)據(jù)當(dāng)中挖掘更多的 價值。正如很多人都知道的,我們百度的廣告也是在人工智能方面下了很大的工夫,我們有很多數(shù)據(jù)搜集過來是關(guān)于人的行為的,而這些深度學(xué)習(xí)可以使我們了解人 們的行為是什么樣的,他們傾向于做什么事情,他們喜歡做什么事情。因為我們的數(shù)據(jù)中心還有很多數(shù)據(jù)搜集起來,使我們了解不僅僅是人的行為,還有機(jī)器人行 為。今天的深度學(xué)習(xí)確實是一個非常強(qiáng)大的工具,使我們可以了解機(jī)器在做什么,來更好地管理數(shù)據(jù)中心。比如我們可以使用這方面我們了解的信息來更好地使機(jī)器 運作。我們也可以更好地了解計算機(jī)是如何工作的,我們還可以使用深度學(xué)習(xí)來提高計算機(jī)的安全性。

  這是我們百度正在做的事情,我們覺得 很 多行為數(shù)據(jù)給我們帶來的機(jī)會,包括人的行為,包括機(jī)器的行為,可能比我們今天所了解到的要廣得多。美國、中國和歐洲現(xiàn)在都越來越多使用深度學(xué)習(xí)來了解人的 行為,了解機(jī)器的行為。在IT世界當(dāng)中以及IT世界之外挖掘更多的機(jī)會,這也推動了我們未來的成功。我非常興奮地了解到深度學(xué)習(xí)在上述三個領(lǐng)域都給我們帶 來了巨大的改變或者將會帶來巨大的改變,我剛才用了火箭的引擎和燃料來做類比,使大家更生動地了解我們所面臨的改變。

  最后我跟大家分 享 一個框架,人工智能能給我們帶來什么,人工智能的循環(huán)發(fā)展是非常迅速的,在15年前,我們有這張圖,我們有這個想法,這就是AI人工智能的良性循環(huán)。那時 候我們?nèi)绻軌驑?gòu)造優(yōu)秀的產(chǎn)品可以吸引更多的用戶,有了更多的用戶就可以獲得更加大量的數(shù)據(jù)。現(xiàn)在這個良性循環(huán)確實已經(jīng)就位了,現(xiàn)實就是這樣。而還沒有發(fā) 生的事情,我們以前想過但還沒有發(fā)生的事情,更多的數(shù)據(jù)通過人工智能被你更好地利用,來推動更多的優(yōu)秀產(chǎn)品被生產(chǎn)出來,而這個只是在最近幾年我們才做的事 情。而我們的火箭引擎現(xiàn)在不夠大了,而我們的燃料變得越來越大了,現(xiàn)實世界是這種情況。大家搜集到的數(shù)據(jù)越來越多了,可是引擎不夠大,所以不能深度地利用 這些數(shù)據(jù)。在我們搜集更多數(shù)據(jù)的過程中,推動更多應(yīng)用發(fā)生的過程中,這是我們之前那些老的算法是連想都不會想的。而深度學(xué)習(xí)之所以能給我們帶來更多的價值 就是因為我們現(xiàn)在可以從越來越多的數(shù)據(jù)當(dāng)中受益,獲得越來越好的結(jié)果,開發(fā)越來越多的潛能。所以我說深度學(xué)習(xí)確實改變著我們的生活,改變著傳統(tǒng)的人工智 能,使我們最終可以把鏈接做得特別好,把發(fā)動機(jī)和燃料的鏈接做得特別好,把產(chǎn)品、大量用戶和海量數(shù)據(jù)之間的連接做得更加通暢。


  最后我 想 說的是,在這個介紹當(dāng)中,我主要是關(guān)注了圖像、語音和行為。但是對于人工智能的機(jī)會來說遠(yuǎn)不止這三個方面,我們看到在自然語言的處理方面有很多的事情可以 做,在生物技術(shù)方面人工智能也有很多東西可以做,這些創(chuàng)新都在發(fā)生的過程當(dāng)中,人工智能也可以更多地被應(yīng)用到機(jī)器人的開發(fā)。百度大腦大家都聽過吧,還有這 也是最近大家比較熟的中國大腦緊密聯(lián)系起來的概念。在很多年前,百度可以從應(yīng)用當(dāng)中吸取更多的價值,在百度專門有一個團(tuán)隊,他是余凱和王晶領(lǐng)導(dǎo)的,這個團(tuán) 隊主要是構(gòu)建深度學(xué)習(xí)的內(nèi)部平臺,這個平臺可以做的事情是什么呢?可以支持百度的工程師獲取CPU、GPU和深度學(xué)習(xí)的平臺資源,他們可以使用這些技術(shù)來 推動他喜歡的應(yīng)用。而這些在公司當(dāng)中就推動了深度學(xué)習(xí)的繁榮發(fā)展。

因為我們創(chuàng)造的東西那么多,我們?nèi)斯ぶ悄芎芏鄳?yīng)用的領(lǐng)域,我們甚至還想象不到,還不知 道。我想面對未來,可能機(jī)會會更大,能想象到的和不能想象到的機(jī)會會更多。我們可以抓住的方面也很多,可以真正幫助我們重塑經(jīng)濟(jì)結(jié)構(gòu)。面向未來,如果想看 一下人工智能給我們帶來的潛在影響的話,我不得不想到第一次工業(yè)革命,第一次工業(yè)革命是在英國,最后蔓延到整個歐洲的。我想這次工業(yè)革命在當(dāng)時也是推動了 一些新技術(shù)的發(fā)展,最初在英國,最后整個歐洲都采用了這些技術(shù),這是一百多年前,快兩百年的事情了。我也希望大家能把眼光放在未來的工業(yè)革命上面,它給我 們帶來的影響是非常深遠(yuǎn)的。這些工業(yè)革命也可以把人們從日常重復(fù)繁重的工作當(dāng)中解放出來,把人性解放出來,把人的思想解放出來,使人們不再成為思想的奴 隸。這些變革,這些工業(yè)革命將會使我們的生產(chǎn)力獲得極大的提升。

  剛才我和大家分享了很多機(jī)會,我真的是很期待未來的發(fā)展,當(dāng)那么多的人力,人的思想和大腦被解放出來之后,我們能做的事情很多。我非常興奮能在百度繼續(xù)進(jìn)行大量的投資,投到人工智能方面,也希望我們做的東西能給大家有所幫助,能對社會有所幫助,謝謝!

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

【廣告】

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知