Wolfram 語言之父 Stephen Wolfram,又來給 ChatGPT 背書了。
上個月,他還專門寫過一篇文章,力薦自家的計算知識搜索引擎 WolframAlpha,希望能跟 ChatGPT 來個完美結(jié)合。
大概表達的意思就是,“你計算能力不達標,那可以把我的’超能力’注入進去嘛”。
而時隔一個多月,Stephen Wolfram 圍繞“ChatGPT 是什么”和“為什么它能這么有效”兩個問題,再次發(fā)表萬字長文做了番深入淺出的詳解。
一次添加一個單詞
ChatGPT 能夠自動生成類似于人類撰寫的文本,這一點非常引人注目,也是出乎意料的。那么,它是如何實現(xiàn)的?為什么它能夠如此出色地生成有意義的文本呢?
在本文中,我將大致介紹 ChatGPT 內(nèi)部運作的機制,并探討它為什么能夠成功地生成令人滿意的文本。
需要說明的是,我將重點關(guān)注 ChatGPT 的整體機制,雖然會提到一些技術(shù)細節(jié),但不會做深入的探討。同時,還要強調(diào)的一點是,我所說的內(nèi)容同樣適用于當(dāng)前其它的“大型語言模型”(LLM),而不僅僅限于 ChatGPT。
首先需要解釋的一點是,ChatGPT 的核心任務(wù)始終是生成一個“合理的延續(xù)”,即根據(jù)已有的文本,生成一個符合人類書寫習(xí)慣的下一個合理內(nèi)容。所謂“合理”,是指根據(jù)數(shù)十億個網(wǎng)頁、數(shù)字化書籍等人類撰寫內(nèi)容的統(tǒng)計規(guī)律,推測接下來可能出現(xiàn)的內(nèi)容。
例如,我們輸入了文本“AI 最好的事情是它的能力”,ChatGPT 就會在數(shù)十億頁的人類文本中查找類似文本,然后統(tǒng)計下一個單詞出現(xiàn)的概率。需要注意的是,ChatGPT 并不是直接對比文字本身,而是以某種意義上的“意思匹配”為依據(jù)。最終,ChatGPT 會生成一個可能的單詞列表,并給出每個單詞的概率排名:
值得注意的是,當(dāng) ChatGPT 完成像寫文章這樣的任務(wù)時,它實際上只是一遍又一遍地詢問:“在已有的文本的基礎(chǔ)上,下一個詞應(yīng)該是什么?”—— 并且每次都會添加一個詞(更準確地說,如我所解釋的,它添加一個“token”,這可能只是單詞的一部分,這就是為什么它有時會“創(chuàng)造新詞”的原因)。
在每一步中,它都會得到一個帶有概率的單詞列表。但是,它應(yīng)該選擇哪個單詞來添加到它正在寫作的文章(或任何其他東西)中呢?
有人可能認為應(yīng)該選擇“排名最高”的單詞(即被分配最高“概率”的單詞)。但這就是一些神秘的事情開始悄悄發(fā)生的地方。因為由于某種原因 —— 也許有一天我們會有一種科學(xué)式的理解 —— 如果我們總是選擇排名最高的單詞,我們通常會得到一篇非?!捌降钡奈恼?,從不顯示任何創(chuàng)造力(有時甚至逐字重復(fù))。如果有時(隨機地)我們選擇較低排名的單詞,可能會得到一篇“更有趣”的文章。
這里存在隨機性意味著,如果我們多次使用相同的提示,很可能每次都會得到不同的文章。與 voodoo 理念一致,過程中會有一個特定的所謂“溫度”(temperature)參數(shù),它決定較低排名的單詞會被使用的頻率,對于文章生成,這個“溫度”最好設(shè)置為 0.8。值得強調(diào)的是,這里沒有使用“理論”;這只是已被證明在實踐中起作用的事實。例如,“溫度”概念之所以存在,是因為指數(shù)分布(來自統(tǒng)計物理學(xué)的熟悉分布)恰好被使用,但至少就我們所知,它們之間沒有“物理”聯(lián)系。
在繼續(xù)之前,我應(yīng)該解釋一下,為了表達的目的,我大多數(shù)時候不會使用 ChatGPT 中的完整系統(tǒng);相反,我通常會使用一個更簡單的 GPT-2 系統(tǒng),它具有很好的特性,即它足夠小,可以在標準臺式計算機上運行。因此,我所展示的幾乎所有內(nèi)容都將包含明確的 Wolfram 語言代碼,您可以立即在計算機上運行。
例如,下面這張圖展示了如何獲得上述概率表的。首先,我們必須檢索底層的 “語言模型 “神經(jīng)網(wǎng)絡(luò):
稍后,我們將深入了解這個神經(jīng)網(wǎng)絡(luò),并討論它是如何工作的。但目前為止,我們可以將這個“網(wǎng)絡(luò)模型”作為一個黑盒應(yīng)用到我們的文本中,并根據(jù)模型認為應(yīng)該遵循的概率,請求前 5 個單詞:
獲取結(jié)果后,會將其轉(zhuǎn)換為顯式格式化的“數(shù)據(jù)集”:
下面是重復(fù) “應(yīng)用模型 “的情況 — 在每一步中加入概率最高的詞(在此代碼中指定為模型中的 “決定”):
如果再繼續(xù)下去會怎樣?在這種(”零度”)情況下,很快就會出現(xiàn)相當(dāng)混亂和重復(fù)的情況。
但如果不總是挑選 “頂級 “詞,而是有時隨機挑選 “非頂級 “詞(”隨機性 “對應(yīng) “溫度 “為 0.8)呢?我們就又可以續(xù)寫文本了:
而每次這樣做,都會有不同的隨機選擇,對應(yīng)的文本也會不同。例如以下這 5 個例子:
值得指出的是,即使在第一步,根據(jù)已有的文本,也有很多可能的“下一個詞”可供選擇(在溫度為 0.8 的情況下),盡管它們的概率很快就會下降(是的,在這個對數(shù)圖上的直線對應(yīng)于一個 n–1 的“冪律”衰減,這是語言的一般統(tǒng)計特征):
那么如果我們繼續(xù)寫下去會發(fā)生什么呢?這里有一個隨機的例子。它比使用最高排名的單詞(零度)的情況要好一些,但仍然是有點奇怪:
這是使用最簡單的 GPT-2 模型(來自 2019 年)完成的。使用更新的更大的 GPT-3 模型結(jié)果更好。這里是使用相同的“提示”,但使用最大的 GPT-3 模型生成的使用最高排名單詞(零度)的文本:
接下來是一個“溫度為 0.8”的隨機例子:
這些概率是從何而來?
ChatGPT 總是基于概率來選擇下一個單詞。但這些概率從何而來呢?
讓我們先從一個更簡單的問題開始。當(dāng)我們考慮逐字母(而非逐詞)生成英文文本,該如何確定每個字母的概率呢?
最簡單的方法是取一份英文文本樣本,然后計算其中不同字母的出現(xiàn)頻率。例如,這是“貓”在維基百科文章中字母的計數(shù)情況(此處省略了計數(shù)結(jié)果):
這是“狗”的情況:
結(jié)果相似,但并不完全一樣(畢竟,“o”在“dogs”文章中更常見,因為它本身就出現(xiàn)在“dog”這個單詞中)。然而,如果我們?nèi)∽銐虼蟮挠⑽奈谋緲颖?,最終可以期望得到至少相當(dāng)一致的結(jié)果:
下面是我們只用這些概率生成字母序列的樣本:
我們可以通過像是將空格視為帶有一定概率的字母來將其分解為“單詞”:
可以通過強制“單詞長度”的分布與英文一致,來更好地分割“單詞”:
這里我們沒有生成任何“真實的單詞”,但結(jié)果看起來稍微好了一些。然而,要進一步推進,我們需要比僅僅隨機選擇每個字母更多的工作。例如,我們知道如果出現(xiàn)了“q”,下一個字母基本上必須是“u”。
這是字母本身的概率圖:
這是典型英文文本中字母對(“2-grams”)的概率圖。橫軸是可能的第一個字母,縱軸是第二個字母(此處省略了概率圖):
在這里,我們可以看到,“q”列除了在“u”行上以外,其他地方都是空白(零概率)。那么,現(xiàn)在我們不再逐個字母地生成“單詞”,而是使用這些“2-gram”概率,一次生成兩個字母來生成它們。以下是結(jié)果的一個樣本 —— 恰好包括一些“實際單詞”:
通過足夠多的英語文本,我們不僅可以很好地估計單個字母或字母對(2-gram)的概率,還可以估計更長的字母組合的概率。如果我們使用逐漸變長的 n-gram 概率來生成“隨機單詞”,我們會發(fā)現(xiàn)它們逐漸變得“更加真實”。
但是現(xiàn)在讓我們假設(shè) —— 與 ChatGPT 一樣 —— 我們處理的是整個單詞,而不是字母。英語中大約有 40,000 個常用單詞。通過查看大量的英語文本(例如幾百億個單詞的幾百萬本書),我們可以估計每個單詞的出現(xiàn)頻率。使用這個估計,我們可以開始生成“句子”,其中每個單詞都是獨立地隨機選擇的,其概率與它在語料庫中出現(xiàn)的概率相同。以下是我們得到的一個樣本:
毫不意外,這是無意義的。那么我們該怎么做才能更好地生成句子?就像處理字母一樣,我們可以開始考慮不僅單詞的概率,還可以考慮單詞對或更長的 n-gram 的概率。對于單詞對,以下是 5 個例子,所有情況都是從單詞“cat”開始:
看起來稍微“更有意義”了一點。如果我們能夠使用足夠長的 n-grams,我們可能會想象基本上會“得到一個 ChatGPT”—— 也就是說,我們會得到一些生成具有“正確的整體文章概率”的長篇文字序列的東西。但是問題在于:實際上沒有足夠多的英語文本被寫出來,以便能夠推斷出這些概率。
在網(wǎng)絡(luò)爬蟲中可能有數(shù)百億個單詞;在數(shù)字化的書籍中可能還有另外數(shù)百億個單詞。但是,即使是 4 萬個常用單詞,可能的 2 元組數(shù)量已經(jīng)達到 16 億,而可能的 3 元組數(shù)量則高達 60 萬億。因此,我們無法通過現(xiàn)有的文本估計這些可能性的概率。當(dāng)我們需要生成 20 個單詞的“文章片段”時,可能性的數(shù)量已經(jīng)超過了宇宙中的粒子數(shù)量,所以在某種意義上,它們無法全部被寫下。
那么,我們該怎么辦呢?關(guān)鍵的想法是建立一個模型,讓我們能夠估計序列應(yīng)該出現(xiàn)的概率,即使我們從未在我們查看的文本語料庫中明確看到過這些序列。而在 ChatGPT 的核心正是所謂的“大型語言模型”(LLM),它被構(gòu)建出來可以很好地估計這些概率。
(由于篇幅原因,此處省略“什么是模型”、“神經(jīng)網(wǎng)絡(luò)”、“機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的訓(xùn)練”、“神經(jīng)網(wǎng)絡(luò)訓(xùn)練的實踐與知識”、“Embedding 概念”等章節(jié)的編譯,感興趣讀者可自行閱讀原文)
ChatGPT 的內(nèi)部結(jié)構(gòu)
毫無疑問,它最終是一個巨大的神經(jīng)網(wǎng)絡(luò),目前版本是一個擁有 1750 億個權(quán)重的 GPT-3 網(wǎng)絡(luò)。在許多方面,這個神經(jīng)網(wǎng)絡(luò)與我們討論過的其它神經(jīng)網(wǎng)絡(luò)非常相似,但它是一個專門用于處理語言的神經(jīng)網(wǎng)絡(luò)。最顯著的特征是一個被稱為“Transformer”的神經(jīng)網(wǎng)絡(luò)架構(gòu)。
在我們上面討論的第一類神經(jīng)網(wǎng)絡(luò)中,每個神經(jīng)元在任何給定層都與前一層的每個神經(jīng)元基本上相連(至少有一些權(quán)重)。但是,如果要處理具有特定已知結(jié)構(gòu)的數(shù)據(jù),這種完全連接的網(wǎng)絡(luò)(大概)是 overkill 的。因此,在處理圖像的早期階段,通常會使用所謂的卷積神經(jīng)網(wǎng)絡(luò)(“convnets”),其中神經(jīng)元實際上是布置在類似于圖像像素的網(wǎng)格上,并且僅與網(wǎng)格附近的神經(jīng)元相連。
Transformer 的思路是對組成文本的 token 序列做出至少有點類似的事情。但是,Transformer 不僅定義了一個固定區(qū)域,在該區(qū)域內(nèi)可以建立連接,還引入了“注意力”的概念 ——“注意力”的概念更多地集中在序列的某些部分而不是其他部分。也許有一天,通過訓(xùn)練,直接啟動通用神經(jīng)網(wǎng)絡(luò)并進行所有自定義都會有意義。但至少目前在實踐中,模塊化東西是至關(guān)重要的,就像 Transformer 一樣,也可能是我們的大腦所做的一樣。
那么 ChatGPT(或者更準確地說,它所基于的 GPT-3 網(wǎng)絡(luò))實際上是在做什么呢?請記住,它的總體目標是基于其從訓(xùn)練中看到的東西(其中包括查看了來自網(wǎng)絡(luò)等數(shù)十億個頁面的文本),“合理地”續(xù)寫文本。因此,在任何給定的時刻,它都有一定量的文本,并且其目標是為下一個 token pick 一個適當(dāng)?shù)倪x擇。
ChatGPT 的運作基于三個基本階段。首先,它獲取與目前文本對應(yīng)的 token 序列,并找到代表它們的 embedding(即一個數(shù)字數(shù)組)。然后,它以“標準神經(jīng)網(wǎng)絡(luò)方式”對此 embedding 進行操作,使值在網(wǎng)絡(luò)中的連續(xù)層中“波動”,以產(chǎn)生一個新的 embedding(即一個新的數(shù)字數(shù)組)。接著,它獲取該數(shù)組的最后一部分并生成一個包含約 50,000 個值的數(shù)組,這些值將轉(zhuǎn)化為不同且可能的下一個 token 的概率(是的,恰好有與英語常用詞匯相同數(shù)量的 token,盡管只有大約 3000 個 token 是完整單詞,其余是片段。)
關(guān)鍵的一點是,這個 pipeline 的每個部分都由神經(jīng)網(wǎng)絡(luò)實現(xiàn),其權(quán)重由網(wǎng)絡(luò)的端到端訓(xùn)練決定。換句話說,實際上,除了整體架構(gòu)之外,沒有什么是“明確設(shè)計的”;一切都是從訓(xùn)練數(shù)據(jù)中“學(xué)到”的。
而,在架構(gòu)建立的方式上有很多細節(jié) —— 反映了各種各樣的經(jīng)驗和神經(jīng)網(wǎng)絡(luò)知識。雖然這絕對是一個細節(jié)問題,但我認為討論其中一些細節(jié)很有用,至少可以了解構(gòu)建 ChatGPT 所需的內(nèi)容。
首先是 embedding 模塊。這是 GPT-2 的一個示意圖,用 Wolfram 語言表示:
這段文字介紹了一個名為“embedding module”的模塊,它有三個主要步驟。第一步,將文本轉(zhuǎn)化為 token 序列,每個 token 都用一個單層神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化為長度為 768(對于 GPT-2)或 12288(對于 ChatGPT 的 GPT-3)的 embedding 向量。同時,模塊中還有一個“輔助通路”(secondary pathway),用于將 token 的整數(shù)位置轉(zhuǎn)化為 embedding 向量。最后,將 token 值和 token 位置的 embedding 向量加在一起,生成最終的 embedding 向量序列。
為什么要將 token 值和 token 位置的 embedding 向量相加呢?似乎并沒有特別科學(xué)的解釋。只是嘗試了各種不同的方法,這種方法似乎能夠奏效。而且神經(jīng)網(wǎng)絡(luò)的傳統(tǒng)也認為,只要初始設(shè)置“大致正確”,通過足夠的訓(xùn)練,通??梢宰詣诱{(diào)整細節(jié),而不需要真正“理解神經(jīng)網(wǎng)絡(luò)是如何進行工程配置的”。
這個“embedding module”模塊的作用是將文本轉(zhuǎn)換為 embedding 向量序列。以字符串“hello hello hello hello hello hello hello hello hello hello bye bye bye bye bye bye bye bye bye bye”為例,它可以將其轉(zhuǎn)化為一系列長度為 768 的 embedding 向量,其中包括從每個 token 的值和位置中提取的信息。
這里展示了每個 tokenembedding 向量的元素,橫向顯示了一系列“hello”embedding,其后是一系列“bye”的 embedding。上面的第二個數(shù)組是位置 embedding,其看似隨機的結(jié)構(gòu)只是因為“(在這種情況下在 GPT-2 中)恰好被學(xué)習(xí)到了”。
好的,embedding 模塊之后是 Transformer 的“主要部分”:一系列所謂的“注意力塊”(GPT-2 為 12 個,ChatGPT 的 GPT-3 為 96 個)。這很復(fù)雜,讓人想起典型的難以理解的大型工程系統(tǒng),或者說生物系統(tǒng)。但是,這里是 GPT-2 的單個“注意力塊”的示意圖:
在每個注意力塊中,都有一組“attention heads”(GPT-2 有 12 個,ChatGPT 的 GPT-3 有 96 個),每個 attention head 都獨立地作用于 embedding 向量中不同值的塊。(是的,我們不知道將 embedding 向量拆分成若干部分的好處,也不知道它們的不同部分的含義;這只是已被發(fā)現(xiàn)可行的技術(shù)之一。)
那么,attention head 的作用是什么呢?基本上,它們是一種“回顧”token 序列(即已經(jīng)生成的文本),并以一種有用的形式“打包”歷史信息以便于找到下一個 token 的方式。在上文中,我們提到過使用二元概率來基于它們的前一個 token 選擇單詞。Transformer 中的“注意力”機制允許對更早的單詞進行“注意力”,從而可能捕捉到例如動詞引用在句子中出現(xiàn)在它們前面多個詞的名詞的方式。
具體而言,attention head 的作用是重新組合與不同 token 相關(guān)的 embedding 向量的塊,并賦予一定的權(quán)重。因此,例如,GPT-2 中第一個注意塊中的 12 個 attention head 對于上面的“hello,bye”字符串具有以下(“回顧 token 序列一直到開頭”的)“重新組合權(quán)重”模式:
經(jīng)過注意力機制的處理,得到了一個“重新加權(quán)的 embedding 向量”(對于 GPT-2 長度為 768,對于 ChatGPT 的 GPT-3 長度為 12,288),然后通過一個標準的“全連接”神經(jīng)網(wǎng)絡(luò)層。很難理解這一層在做什么。但是這里是它所使用的 768×768 權(quán)重矩陣的繪圖(這里是 GPT-2):
通過 64×64 的移動平均,一些(隨機游走狀的)結(jié)構(gòu)開始出現(xiàn):
是什么決定了這種結(jié)構(gòu)呢?這可能是一些關(guān)于人類語言特征的“神經(jīng)網(wǎng)絡(luò)編碼”。但是到目前為止,這些特征可能還是未知的。實際上,我們正在“打開 ChatGPT 的大腦”(或至少是 GPT-2),并發(fā)現(xiàn),是的,里面很復(fù)雜,我們并不理解,盡管最終它產(chǎn)生了可識別人類語言的能力。
好的,在經(jīng)過一個注意力模塊之后,我們得到了一個新的 embedding 向量,隨后連續(xù)通過其他注意力模塊(對于 GPT-2 總共有 12 個,對于 GPT-3 則有 96 個)。每個注意力模塊都有其自己特定的“注意力”和“全連接”權(quán)重模式。這里是針對“hello, bye”輸入的第一個 attention head 的注意力權(quán)重的序列(對于 GPT-2):
以下是(移動平均后的)全連接層的“矩陣”:
有趣的是,即使在不同的注意力塊中,這些“權(quán)重矩陣”看起來非常相似,權(quán)重大小的分布也可能有所不同(并且并不總是高斯分布):
那么,經(jīng)過所有這些注意力塊后,Transformer 的凈效應(yīng)是什么?本質(zhì)上,它將 token 序列的原始 embedding 集合轉(zhuǎn)換為最終集合。而 ChatGPT 的特定工作方式是選擇該集合中的最后一個 embedding,并對其進行“解碼”,以產(chǎn)生下一個 token 的概率列表。
因此,這就是 ChatGPT 內(nèi)部的概述。它可能看起來很復(fù)雜(其中許多選擇都是不可避免的、有些任意的“工程選擇”),但實際上,最終涉及的元素非常簡單。因為最終我們處理的只是由“人造神經(jīng)元”構(gòu)成的神經(jīng)網(wǎng)絡(luò),每個神經(jīng)元都執(zhí)行將一組數(shù)字輸入與某些權(quán)重組合的簡單操作。
ChatGPT 的原始輸入是數(shù)字數(shù)組(到目前為止 token 的 embedding 向量),當(dāng) ChatGPT“運行”以生成新的 token 時,這些數(shù)字只是通過神經(jīng)網(wǎng)絡(luò)的層“傳播”,每個神經(jīng)元“做自己的事情”并將結(jié)果傳遞給下一層的神經(jīng)元。沒有循環(huán)或“回溯”。所有東西都只是通過網(wǎng)絡(luò)“前饋”。
這與典型的計算系統(tǒng)(如圖靈機)完全不同,后者通過相同的計算元素重復(fù)“重新處理”結(jié)果。在這里 —— 至少在生成給定輸出 token 方面 —— 每個計算元素(即神經(jīng)元)只使用一次。
但在 ChatGPT 中仍然存在某種意義上的“外部循環(huán)”,即使是在計算元素中也會重復(fù)使用。因為當(dāng) ChatGPT 要生成新 token 時,它總是“讀取”(即將其作為輸入)在它之前出現(xiàn)的整個 token 序列,包括 ChatGPT 自己先前“編寫”的 token。我們可以將這個設(shè)置視為意味著 ChatGPT 在其最外層至少涉及一個“反饋循環(huán)”,盡管每次迭代都明確可見為在其生成的文本中出現(xiàn)的 token。
讓我們回到 ChatGPT 的核心:用于生成每個 token 的神經(jīng)網(wǎng)絡(luò)。從某個層面上說,它非常簡單:一個由相同人工神經(jīng)元構(gòu)成的集合。網(wǎng)絡(luò)的一些部分僅由(“完全連接”)神經(jīng)元層組成,在該層上的每個神經(jīng)元都連接到前一層上的每個神經(jīng)元(具有某些權(quán)重)。但特別是在其 Transformer 架構(gòu)中,ChatGPT 具有更多結(jié)構(gòu)化的部分,其中僅特定層上的特定神經(jīng)元相連。(當(dāng)然,人們?nèi)匀豢梢哉f“所有神經(jīng)元都連接”-但有些神經(jīng)元的權(quán)重為零)。
此外,ChatGPT 中的神經(jīng)網(wǎng)絡(luò)的一些方面并不是最自然的“同質(zhì)”層。例如,在一個注意力塊中,有一些地方會對傳入的數(shù)據(jù)進行“多份拷貝”,然后每一份都經(jīng)過不同的“處理路徑”,可能涉及不同數(shù)量的層,直到后來才重新組合。雖然這可能是一種方便的表示方式,但至少在原則上,總是可以考慮“densely filling in”層,只是讓一些權(quán)重為零。
如果你看一下 ChatGPT 的最長路徑,大約有 400 層 (核心層)—— 在某些方面并不是一個龐大的數(shù)字。但是有數(shù)百萬個神經(jīng)元,總共有 1750 億個連接,因此有 1750 億個權(quán)重。需要意識到的一件事是,每次 ChatGPT 生成一個新 token 時,它都必須進行涉及每個權(quán)重的計算。在實現(xiàn)上,這些計算可以被組織成高度并行的數(shù)組操作,可以方便地在 GPU 上完成。但是對于產(chǎn)生的每個 token,仍然需要進行 1750 億次計算(最后還要多一點)—— 所以,是的,用 ChatGPT 生成一長段文本需要一段時間也就不足為奇了。
但最終我們還需要值得注意的是,所有這些操作都能以某種方式共同完成如此“類似人類”的生成文本的工作。必須再次強調(diào)的是,(至少就我們所知)沒有“終極理論原因”可以解釋為什么像這樣的任何東西應(yīng)該起作用。實際上,正如我們將要討論的那樣,我認為我們必須將其視為一項-潛在令人驚訝的-科學(xué)發(fā)現(xiàn):在像 ChatGPT 這樣的神經(jīng)網(wǎng)絡(luò)中,有可能捕捉到人類大腦在生成語言方面所能夠做到的本質(zhì)。
One More Thing
或許在打開這篇文章的時候,有些小伙伴已經(jīng)注意到了一些細微變化:
沒錯,這篇文章核心內(nèi)容的編輯,正是 ChatGPT!
以及,它自己談了談對 Stephen Wolfram 這篇文章的看法:
參考鏈接:
[1] https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/
[2] https://twitter.com/stephen_wolfram/status/1625611360967983104
[3] https://writings.stephenwolfram.com/2023/01/wolframalpha-as-the-way-to-bring-computational-knowledge-superpowers-to-chatgpt/
本文來自微信公眾號:量子位 (ID:QbitAI),作者:ChatGPT
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。