IT之家 2 月 1 日消息,斯坦福大學(xué)計(jì)算機(jī)科學(xué)系客座教授吳恩達(dá)(Andrew Yan-Tak Ng)昨日在 X 平臺(tái)發(fā)文力挺 DeepSeek:“中國(guó)在生成式 AI 領(lǐng)域正追趕美國(guó)”。
IT之家附吳恩達(dá)觀點(diǎn)大意如下:
本周關(guān)于 DeepSeek 的討論讓人們更加清晰地看到了幾個(gè)顯而易見(jiàn)的發(fā)展趨勢(shì):
中國(guó)在生成式 AI 方面正在追趕美國(guó),這對(duì) AI 供應(yīng)鏈產(chǎn)生了深遠(yuǎn)影響。
開(kāi)放權(quán)重模型正在將基礎(chǔ)模型層轉(zhuǎn)變?yōu)樯唐坊a(chǎn)品,為應(yīng)用開(kāi)發(fā)者提供了更多機(jī)會(huì)。
擴(kuò)大規(guī)模并非推動(dòng) AI 進(jìn)步的唯一途徑。盡管在處理能力上有著極大的關(guān)注和炒作,但算法創(chuàng)新正迅速降低訓(xùn)練成本。
大約一周前,總部位于中國(guó)的 DeepSeek 發(fā)布了其令人矚目的 DeepSeek-R1 模型,該模型在基準(zhǔn)測(cè)試中的表現(xiàn)與 OpenAI 的 o1 相當(dāng)。更為重要的是,DeepSeek-R1 作為開(kāi)放權(quán)重模型發(fā)布,并采用了寬松的 MIT 許可。上周在達(dá)沃斯會(huì)議上,許多非技術(shù)領(lǐng)域的商業(yè)領(lǐng)袖向我詢問(wèn)了這款模型。而在周一,股市出現(xiàn)了“DeepSeek 拋售”:英偉達(dá)和其他多家美國(guó)科技公司的股價(jià)大幅下跌。(截至寫(xiě)作時(shí),一些股價(jià)已有回升。)
DeepSeek 讓許多人意識(shí)到以下幾點(diǎn):
中國(guó)在生成式 AI 領(lǐng)域正趕超美國(guó)。2022 年 11 月 ChatGPT 發(fā)布時(shí),美國(guó)在這一領(lǐng)域遠(yuǎn)遠(yuǎn)領(lǐng)先于中國(guó)。然而,過(guò)去兩年里,中國(guó)的進(jìn)步非常迅速,許多來(lái)自中國(guó)的模型,如通義千問(wèn)(我的團(tuán)隊(duì)已經(jīng)使用了幾個(gè)月)、Kimi、書(shū)生 InternVL 和 DeepSeek,已經(jīng)顯著縮小了與美國(guó)的差距,尤其在視頻生成領(lǐng)域,中國(guó)已在某些時(shí)刻超越了美國(guó)。
我對(duì) DeepSeek-R1 作為開(kāi)放權(quán)重模型發(fā)布感到非常高興,同時(shí)它的技術(shù)報(bào)告也提供了大量細(xì)節(jié)。而與此形成對(duì)比的是,一些美國(guó)公司通過(guò)炒作人類滅絕等假設(shè)性的 AI 危機(jī)來(lái)推動(dòng)監(jiān)管,試圖壓制開(kāi)源發(fā)展。
如今,開(kāi)源 / 開(kāi)放權(quán)重模型已成為 AI 供應(yīng)鏈的核心組成部分,許多公司將會(huì)使用這些模型。如果美國(guó)繼續(xù)打壓開(kāi)源,最終中國(guó)將在這一領(lǐng)域占據(jù)主導(dǎo)地位,許多企業(yè)將使用更多符合中國(guó)價(jià)值觀的模型,而非美國(guó)的。
開(kāi)放權(quán)重模型正在加速基礎(chǔ)模型層的商品化。正如我之前提到的,大語(yǔ)言模型 token 價(jià)格迅速下降,開(kāi)放權(quán)重模型加劇了這一趨勢(shì),也讓開(kāi)發(fā)者擁有更多選擇。OpenAI 的 o1 每百萬(wàn)輸出 token 的費(fèi)用為 60 美元,而 DeepSeek-R1 的費(fèi)用僅為 2.19 美元,這種近 30 倍的價(jià)格差異引起了許多人的關(guān)注。
基礎(chǔ)模型的訓(xùn)練與 API 銷售業(yè)務(wù)非常艱難。許多公司仍在尋找收回巨額訓(xùn)練成本的途徑。紅杉資本的文章《AI 的 6000 億美元問(wèn)題》很好地說(shuō)明了這一挑戰(zhàn)(不過(guò)需要強(qiáng)調(diào)的是,我認(rèn)為基礎(chǔ)模型公司做得非常好,也希望它們能夠成功)。相比之下,在基礎(chǔ)模型上構(gòu)建應(yīng)用程序則為商業(yè)提供了更多機(jī)會(huì)。既然其他公司已經(jīng)花費(fèi)數(shù)十億美元訓(xùn)練這些模型,現(xiàn)在你只需要花很少的錢就可以使用它們,開(kāi)發(fā)客戶服務(wù)機(jī)器人、電子郵件摘要工具、AI 醫(yī)生、法律文書(shū)助手等。
擴(kuò)大規(guī)模并非 AI 進(jìn)步的唯一方式。圍繞規(guī)模擴(kuò)展模型已成為推動(dòng) AI 進(jìn)步的重要話題。誠(chéng)然,我曾是規(guī)模擴(kuò)展的支持者之一。許多公司通過(guò)炒作這一話題籌集了巨額資金,宣稱通過(guò)更多資本,它們能夠擴(kuò)大規(guī)模并可預(yù)見(jiàn)地推動(dòng)進(jìn)步。因此,規(guī)模擴(kuò)展成為了焦點(diǎn),而忽略了更多進(jìn)步的途徑。由于美國(guó)對(duì) AI 芯片的禁運(yùn),DeepSeek 團(tuán)隊(duì)不得不在性能較低的 H800 GPU 上進(jìn)行優(yōu)化,以替代 H100 GPU,最終使得模型訓(xùn)練的計(jì)算成本(不包括研究費(fèi)用)低于 600 萬(wàn)美元。
是否這會(huì)減少計(jì)算需求仍待觀察。降低每單位商品的價(jià)格有時(shí)會(huì)促使人們花費(fèi)更多的總金額來(lái)購(gòu)買該商品。我認(rèn)為,在長(zhǎng)期內(nèi),智能和計(jì)算的需求幾乎沒(méi)有上限,因此,即使變得便宜,我依然看好人類對(duì)智能的需求會(huì)越來(lái)越大。
我看到在 X 上關(guān)于 DeepSeek 進(jìn)展的各種解讀,仿佛它是一面鏡子,反射出每個(gè)人不同的看法。我認(rèn)為 DeepSeek-R1 涉及到的地緣政治問(wèn)題仍有待解決,同時(shí)它也為 AI 應(yīng)用構(gòu)建者帶來(lái)了極大的機(jī)會(huì)。我的團(tuán)隊(duì)已經(jīng)在構(gòu)思一些新想法,這些想法只有通過(guò)使用一個(gè)開(kāi)放的先進(jìn)推理模型才能實(shí)現(xiàn)?,F(xiàn)在是一個(gè)構(gòu)建的好時(shí)機(jī)!
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。