設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

LeCun 力薦,哈佛博士分享用 GPT-4 搞科研,細(xì)到每個工作流程

新智元 2023/4/3 21:31:04 責(zé)編:夢澤

用 GPT-4 搞科研未來或許成為每個人的標(biāo)配,但是究竟如何高效利用 LLM 工具,還得需要技巧。近日,一位哈佛博士分享了自己的經(jīng)驗,還獲得了 LeCun 的推薦。

GPT-4 的橫空出世,讓許多人對自己的科研擔(dān)憂重重,甚至調(diào)侃稱 NLP 不存在了。

與其擔(dān)憂,不如將它用到科研中,簡之「換個卷法」。

來自哈佛大學(xué)的生物統(tǒng)計學(xué)博士 Kareem Carr 稱,自己已經(jīng)用 GPT-4 等大型語言模型工具進行學(xué)術(shù)研究了。

他表示,這些工具非常強大,但是同樣存在一些非常令人痛苦的陷阱。

他的關(guān)于 LLM 使用建議的推文甚至獲得了 LeCun 的推薦。

一起來看看 Kareem Carr 如何利用 AI 利器搞科研。

第一原則:自己無法驗證的內(nèi)容,不要找 LLM

一開始,Carr 給出了第一條最重要的原則:

永遠不要向大型語言模型(LLM)詢問你無法自行驗證的信息,或要求它執(zhí)行你無法驗證已正確完成的任務(wù)。

唯一的例外是它不是一項關(guān)鍵的任務(wù),比如,向 LLM 詢問公寓裝飾的想法。

「使用文獻綜述的最佳實踐,總結(jié)過去 10 年乳腺癌研究的研究」。這是一個比較差的請求,因為你無法直接驗證它是否正確地總結(jié)了文獻。

而應(yīng)當(dāng)這么問「給我一份過去 10 年中關(guān)于乳腺癌研究的頂級評論文章的清單」。

這樣的提示不僅可以驗證來源,并且自己也可以驗證可靠性。

撰寫「提示」小技巧

要求 LLM 為你編寫代碼或查找相關(guān)信息非常容易,但是輸出內(nèi)容的質(zhì)量可能會有很大的差異。你可以采取以下措施來提高質(zhì)量:

設(shè)定上下文:

?明確告訴 LLM 應(yīng)該使用什么信息

?使用術(shù)語和符號,讓 LLM 傾向正確的上下文信息

如果你對如何處理請求有想法,請告訴 LLM 使用的具體方法。比如「解決這個不等式」應(yīng)該改成「使用 Cauchy-Schwarz 定理求解這個不等式,然后應(yīng)用完全平方」。

要知道,這些語言模型在語言方面上比你想象的要復(fù)雜得多,即使是非常模糊的提示也會有所幫助。

具體再具體:

這不是谷歌搜索,所以也不必?fù)?dān)心是否有個網(wǎng)站在討論你的確切問題。

「二次項的聯(lián)立方程如何求解?」這個提示就不是明確的,你應(yīng)該這樣問:「求解 x=(1/2)(a+b) 和 y=(1/3)(a^2+ab+b^2) 關(guān)于 a 和 b 的方程組」。

定義輸出格式:

利用 LLMs 的靈活性,將輸出格式化為最適合你的方式,比如:

?代碼

?數(shù)學(xué)公式

?文章

?教程

?簡明指南

你甚至可以要求提供生成以下內(nèi)容的代碼,包括表格、繪圖、圖表。

盡管你得到了 LLM 輸出的內(nèi)容,但這僅是一個開始。因為你需要對輸出內(nèi)容進行驗證。這包括:

?發(fā)現(xiàn)不一致之處

?通過谷歌檢索工具輸出內(nèi)容的術(shù)語,獲取可支撐的信源

?在可能的情況下,編寫代碼自行測試

需要自行驗證的原因是,LLM 經(jīng)常犯一些與其看似專業(yè)水平不一致的奇怪錯誤。比如,LLM 可能會提到一個非常先進的數(shù)學(xué)概念,但卻對簡單的代數(shù)問題摸不著頭腦。

多問一次:

大型語言模型生成的內(nèi)容是隨機的。有時,重新創(chuàng)建一個新窗口,并再次提出你的問題,或許可以為你提供更好的答案。

另外,就是使用多個 LLM 工具。Kareem Carr 目前根據(jù)自己的需要在科研中使用了 Bing AI,GPT-4,GPT-3.5 和 Bard AI。然而,它們各有自己的優(yōu)缺點。

引用 + 生產(chǎn)力

引用

根據(jù) Carr 經(jīng)驗,最好向 GPT-4 和 Bard AI 同時提出相同的數(shù)學(xué)問題,以獲得不同的觀點。必應(yīng) AI 適用于網(wǎng)絡(luò)搜索。而 GPT-4 比 GPT-3.5 要聰明得多,但目前 OpenAI 限制了 3 個小時 25 條消息,比較難訪問。

就引用問題,引用參考文獻是 LLM 的一個特別薄弱的點。有時,LLM 給你的參考資料存在,有時它們不存在。

此前,有個網(wǎng)友就遇到了同樣的問題,他表示自己讓 ChatGPT 提供涉及列表數(shù)學(xué)性質(zhì)的參考資料,但 ChatGPT 生成了跟不不存在的引用,也就是大家所說的「幻覺」問題。

然而,Kareem Carr 指出虛假的引用并非完全無用。

根據(jù)他的經(jīng)驗,捏造的參考文獻中的單詞通常與真實術(shù)語,還有相關(guān)領(lǐng)域的研究人員有關(guān)。因此,再通過谷歌搜索這些術(shù)語,通常讓你可以更接近你正在尋找的信息。

此外,必應(yīng)在搜尋來源時也是一個不錯的選擇。

生產(chǎn)力

對于 LLM 提高生產(chǎn)力,有很多不切實際的說法,比如「LLM 可以讓你的生產(chǎn)力提高 10 倍,甚至 100 倍」。

根據(jù) Carr 的經(jīng)驗,這種加速只有在沒有對任何工作進行雙重檢查的情況下才有意義,這對作為學(xué)者的人來說是不負(fù)責(zé)任的。

然而,LLM 對 Kareem Carr 的學(xué)術(shù)工作流程有很大改進,具體包括:

- 原型想法設(shè)計- 識別無用的想法- 加速繁瑣的數(shù)據(jù)重新格式化任務(wù)- 學(xué)習(xí)新的編程語言、包和概念- 谷歌搜索

借助當(dāng)下的 LLM,Carr 稱自己用在下一步該做什么上的時間更少了。LLM 可以幫助他將模糊,或不完整的想法推進到完整的解決方案中。

此外,LLM 還減少了 Carr 花在與自己主要目標(biāo)無關(guān)的副業(yè)上的時間。

我發(fā)現(xiàn)我進入了一種心流狀態(tài),我能夠繼續(xù)前進。這意味著我可以工作更長時間,而不會倦怠。

最后一句忠告:小心不要被卷入副業(yè)。這些工具突然提高生產(chǎn)力可能會令人陶醉,并可能分散個人的注意力。

關(guān)于 ChatGPT 的體驗,Carr 曾在領(lǐng)英上發(fā)表了一條動態(tài)分享了對 ChatGPT 使用后的感受:

作為一名數(shù)據(jù)科學(xué)家,我已經(jīng)用 OpenAI 的 ChatGPT 做了幾周的實驗。它并不像人們想象的那樣好。

盡管最初令人失望,但我的感覺是,類似 ChatGPT 的系統(tǒng)可以為標(biāo)準(zhǔn)數(shù)據(jù)分析工作流程增加巨大的價值。

在這一點上,這個價值在哪里并不明顯。ChatGPT 很容易在簡單的事情上弄錯一些細(xì)節(jié),而且它根本無法解決需要多個推理步驟的問題。

未來每個新任務(wù)的主要問題仍然是評估和改進 ChatGPT 的解決方案嘗試是否更容易,還是從頭開始。

我確實發(fā)現(xiàn),即使是 ChatGPT 的一個糟糕的解決方案也傾向于激活我大腦的相關(guān)部分,而從頭開始則不會。

就像他們總是說批評一個計劃總是比自己想出一個計劃更容易。

網(wǎng)友對于 AI 輸出的內(nèi)容,需要進行驗證這一點,并稱在大多數(shù)情況下,人工智能的正確率約為 90%。但剩下 10% 的錯誤可能是致命的。

Carr 調(diào)侃道,如果是 100%,那我就沒有工作了。

那么,為什么 ChatGPT 會生成虛假的參考文獻?

值得注意的是,ChatGPT 使用的是統(tǒng)計模型,基于概率猜測下一個單詞、句子和段落,以匹配用戶提供的上下文。

由于語言模型的源數(shù)據(jù)規(guī)模非常大,因此需要「壓縮」,這導(dǎo)致最終的統(tǒng)計模型失去了精度。

這意味著即使原始數(shù)據(jù)中存在真實的陳述,模型的「失真」會產(chǎn)生一種「模糊性」,從而導(dǎo)致模型產(chǎn)生最「似是而非」的語句。

簡而言之,這個模型沒有能力評估,它所產(chǎn)生的輸出是否等同于一個真實的陳述。

另外,該模型是基于,通過公益組織「Common Crawl」和類似來源收集的公共網(wǎng)絡(luò)數(shù)據(jù),進行爬蟲或抓取而創(chuàng)建的,數(shù)據(jù)截止到 21 年。

由于公共網(wǎng)絡(luò)上的數(shù)據(jù)基本上是未經(jīng)過濾的,這些數(shù)據(jù)可能包含了大量的錯誤信息。

近日,NewsGuard 的一項分析發(fā)現(xiàn),GPT-4 實際上比 GPT-3.5 更容易生成錯誤信息,而且在回復(fù)中的說服力更加詳細(xì)、令人信服。

在 1 月份,NewsGuard 首次測試了 GPT-3.5,發(fā)現(xiàn)它在 100 個虛假新聞敘述中生成了 80 個。緊接著 3 月,又對 GPT-4 進行了測試,結(jié)果發(fā)現(xiàn),GPT-4 對所有 100 種虛假敘述都做出了虛假和誤導(dǎo)性的回應(yīng)。

由此可見,在使用 LLM 工具過程中需要進行來源的驗證和測試。

參考資料:

  • https://twitter.com/kareem_carr/status/1640003536925917185

  • https://scholar.harvard.edu/kareemcarr/home

  • https://www.newsguardtech.com/misinformation-monitor/march-2023/

本文來自微信公眾號:新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:科研,GPT4

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知