首頁 > 智能時代>人工智能

微軟僅憑「提示工程」讓 GPT-4 成醫(yī)學專家！超過一眾高度微調(diào)模型，專業(yè)測試準確率首次超 90%

量子位 2023/12/4 16:00:25 責編：遠洋

評論：

微軟最新研究再次證明了提示工程的威力 ——

無需額外微調(diào)，無需專家策劃，僅憑提示，GPT-4 就能化身“專家”。

微軟僅憑「提示工程」讓 GPT-4 成醫(yī)學專家！超過一眾高度微調(diào)模型，專業(yè)測試準確率首次超 90%

使用他們提出的最新提示策略 Medprompt，在醫(yī)療專業(yè)領域，GPT-4 在 MultiMed QA 九個測試集中取得最優(yōu)結(jié)果。

在 MedQA 數(shù)據(jù)集 (美國醫(yī)師執(zhí)照考試題) 上，Medprompt 讓 GPT-4 的準確率首次超過 90%，超越 BioGPT 和 Med-PaLM 等一眾微調(diào)方法。

微軟僅憑「提示工程」讓 GPT-4 成醫(yī)學專家！超過一眾高度微調(diào)模型，專業(yè)測試準確率首次超 90%

研究人員還表示 Medprompt 方法是通用的，不僅適用于醫(yī)學，還可以推廣到電氣工程、機器學習、法律等專業(yè)中。

這項研究在 X（原 Twitter）一經(jīng)分享，就引發(fā)眾多網(wǎng)友關注。

微軟僅憑「提示工程」讓 GPT-4 成醫(yī)學專家！超過一眾高度微調(diào)模型，專業(yè)測試準確率首次超 90%

沃頓商學院教授 Ethan Mollick、Artificial Intuition 作者 Carlos E. Perez 等都有轉(zhuǎn)發(fā)分享。

Carlos E. Perez 直呼“出色的提示策略可以甩微調(diào)一大截”：

微軟僅憑「提示工程」讓 GPT-4 成醫(yī)學專家！超過一眾高度微調(diào)模型，專業(yè)測試準確率首次超 90%

有網(wǎng)友表示早就有這種預感，現(xiàn)在能看到結(jié)果出來，真的是“so cool”：

微軟僅憑「提示工程」讓 GPT-4 成醫(yī)學專家！超過一眾高度微調(diào)模型，專業(yè)測試準確率首次超 90%

還有網(wǎng)友表示這真的很“激進”：

GPT-4 是一項能改變行業(yè)的技術，而我們還遠沒有觸及提示的極限，也未達到微調(diào)極限。

微軟僅憑「提示工程」讓 GPT-4 成醫(yī)學專家！超過一眾高度微調(diào)模型，專業(yè)測試準確率首次超 90%

組合提示策略，“變身”專家

Medprompt 是多種提示策略的組合體，包含三大法寶：

動態(tài)少樣本選擇（Dynamic few-shot selection）

自生成思維鏈（Self-generated chain of thought）

選項洗牌集成（Choice shuffling ensemble）

微軟僅憑「提示工程」讓 GPT-4 成醫(yī)學專家！超過一眾高度微調(diào)模型，專業(yè)測試準確率首次超 90%

下面我們來一一介紹。

微軟僅憑「提示工程」讓 GPT-4 成醫(yī)學專家！超過一眾高度微調(diào)模型，專業(yè)測試準確率首次超 90%

動態(tài)少樣本選擇

少樣本學習是讓模型快速學習上下文的一種有效的方法。簡單來說，就是輸入一些示例，讓模型快速適應特定領域，并學習遵循任務的格式。

這種用于特定任務提示的少樣本示例通常是固定的，所以對示例的代表性和廣泛性有較高的要求。

之前一種方法是讓領域?qū)＜?strong>手動制作范例，但即便如此，也不能保證專家策劃的固定的少樣本示例在每個任務中都有代表性。

因此，微軟研究人員提出了動態(tài)少樣本示例的方法。

想法是，任務訓練集可以作為少樣本示例的來源，如果訓練集足夠大，那就可以為不同的任務輸入選擇不同的少樣本示例。

具體來說，研究人員先利用 text-embedding-ada-002 模型為每個訓練樣本和測試樣本生成向量表示。然后，對于每個測試樣本，基于向量相似度，從訓練樣本中挑選出最相似的 k 個樣本。

與微調(diào)方法相比，動態(tài)少樣本選擇利用了訓練數(shù)據(jù)，但不需要對模型參數(shù)進行大量更新。

自生成思維鏈

思維鏈（CoT）方法就是讓模型一步一步思考，生成一系列中間推理步驟。

之前一種方法也是依賴專家手動編寫少量的帶有提示思維鏈的示例。

微軟僅憑「提示工程」讓 GPT-4 成醫(yī)學專家！超過一眾高度微調(diào)模型，專業(yè)測試準確率首次超 90%

在這里，研究人員發(fā)現(xiàn)，可以簡單地要求 GPT-4 使用以下提示為訓練示例生成思維鏈：

微軟僅憑「提示工程」讓 GPT-4 成醫(yī)學專家！超過一眾高度微調(diào)模型，專業(yè)測試準確率首次超 90%

但研究人員也指出這種自動生成的思維鏈可能包含錯誤的推理步驟，于是設置了一個驗證標簽作為過濾器，可以有效減少錯誤。

與在 Med-PaLM 2 模型中專家手工制作的思維鏈示例相比，GPT-4 生成的思維鏈基本原理更長，而且分步推理邏輯更細粒度。

選項洗牌集成

除此之外，GPT-4 在做選擇題時，可能會存在一種偏見，就是不管選項內(nèi)容是什么，它會偏向總是選擇 A，或者總是選擇 B，這就是位置偏差。

為了減少這個問題，研究人員選擇將原來的選項順序打亂重排。比如原先選項是 ABCD，可以變成 BCDA、CDAB。

然后讓 GPT-4 做多輪預測，每輪使用選項的一個不同排列順序。如此一來“迫使”GPT-4 考慮選項的內(nèi)容。

最后對多輪預測結(jié)果做個投票，選擇最一致、正確的選項。

將以上幾種提示策略組合在一起就是 Medprompt，下面來看測試結(jié)果。

多項測試最優(yōu)

在測試中，研究人員采用了 MultiMed QA 評估基準。

微軟僅憑「提示工程」讓 GPT-4 成醫(yī)學專家！超過一眾高度微調(diào)模型，專業(yè)測試準確率首次超 90%

使用 Medprompt 提示策略的 GPT-4，在 MultiMedQA 的九個基準數(shù)據(jù)集中均取得最高分，優(yōu)于 Flan-PaLM 540B、Med-PaLM 2。

此外研究人員還討論了 Medprompt 策略在“Eyes-Off”數(shù)據(jù)上的表現(xiàn)，也就是在訓練或優(yōu)化過程中模型未曾見過的數(shù)據(jù)中的表現(xiàn)，用于檢驗模型是否過擬合訓練數(shù)據(jù)。

微軟僅憑「提示工程」讓 GPT-4 成醫(yī)學專家！超過一眾高度微調(diào)模型，專業(yè)測試準確率首次超 90%

結(jié)果 GPT-4 結(jié)合 Medprompt 策略在多個醫(yī)學基準數(shù)據(jù)集上表現(xiàn)出色，平均準確率達到了 91.3%。

研究人員還在 MedQA 數(shù)據(jù)集上進行了消融實驗，探索了三個組件對于整體性能的相對貢獻。

微軟僅憑「提示工程」讓 GPT-4 成醫(yī)學專家！超過一眾高度微調(diào)模型，專業(yè)測試準確率首次超 90%

其中自動生成思維鏈步驟對性能提升的貢獻最大。

微軟僅憑「提示工程」讓 GPT-4 成醫(yī)學專家！超過一眾高度微調(diào)模型，專業(yè)測試準確率首次超 90%

而且 GPT-4 自動生成的思維鏈比 Med-PaLM 2 中專家策劃的得分更高：

微軟僅憑「提示工程」讓 GPT-4 成醫(yī)學專家！超過一眾高度微調(diào)模型，專業(yè)測試準確率首次超 90%

最后，研究人員還探索了 Medprompt 的跨域泛化能力，取用了 MMLU 基準中的六個不同的數(shù)據(jù)集，涵蓋了電氣工程、機器學習、哲學、專業(yè)會計、專業(yè)法律和專業(yè)心理學的問題。

還添加了另外兩個包含 NCLEX（美國護士執(zhí)照考試）問題的數(shù)據(jù)集。

結(jié)果顯示，Medprompt 在這些數(shù)據(jù)集上的效果與在 MultiMedQA 醫(yī)學數(shù)據(jù)集上的提升幅度相近，平均準確率提高了 7.3%。

微軟僅憑「提示工程」讓 GPT-4 成醫(yī)學專家！超過一眾高度微調(diào)模型，專業(yè)測試準確率首次超 90%

論文鏈接：https://arxiv.org/ pdf / 2311.16452.pdf

參考鏈接：

[1]https://twitter.com/erichorvitz/status/1729854235443884385
[2]https://twitter.com/emollick/status/1729733749657473327

本文來自微信公眾號：量子位（ID：QbitAI），作者：西風

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：GPT4，OpenAI，ChatGPT

微軟僅憑「提示工程」讓 GPT-4 成醫(yī)學專家！超過一眾高度微調(diào)模型，專業(yè)測試準確率首次超 90%

組合提示策略，“變身”專家

動態(tài)少樣本選擇

自生成思維鏈

選項洗牌集成

多項測試最優(yōu)

相關文章

組合提示策略，“變身”專家