新研究發(fā)現(xiàn) OpenAI 的 o1-preview AI 模型在診斷棘手醫(yī)療案例方面優(yōu)于醫(yī)生

2024/12/25 14:10:43 來源：IT之家作者：故淵責(zé)編：故淵

評論：

IT之家 12 月 25 日消息，由哈佛醫(yī)學(xué)院和斯坦福大學(xué)組成的科研團(tuán)隊(duì)，在醫(yī)學(xué)診斷領(lǐng)域深入評估 OpenAI 的 o1-preview 模型，發(fā)現(xiàn)其比人類醫(yī)生更擅長診斷棘手的醫(yī)療案例。

根據(jù)研究報(bào)告，o1-preview 正確診斷了 78.3% 的測試案例，在 70 個特定案例的對比測試中，準(zhǔn)確率更是高達(dá) 88.6%，顯著優(yōu)于其前身 GPT-4 的 72.9%。

使用醫(yī)學(xué)推理質(zhì)量評估標(biāo)準(zhǔn)量表 R-IDEA，o1-preview 在 80 個案例中取得了 78 個滿分。相比之下，經(jīng)驗(yàn)豐富的醫(yī)生僅在 28 個案例中獲得滿分，住院醫(yī)生則僅為 16 例。

在 25 位專家設(shè)計(jì)的復(fù)雜案例中，o1-preview 得分高達(dá) 86%，是使用 GPT-4 的醫(yī)生（41%）和使用傳統(tǒng)工具的醫(yī)生（34%）的兩倍多。

研究人員承認(rèn)該測試存在局限性，部分測試案例可能包含在 o1-preview 的訓(xùn)練數(shù)據(jù)中，且測試主要集中于系統(tǒng)單獨(dú)工作，并未充分考慮其與人類醫(yī)生協(xié)同工作的場景；此外 o1-preview 建議的診斷測試成本高昂，在實(shí)際應(yīng)用中存在局限性。

IT之家附上參考地址

Superhuman performance of a large language model on the reasoning tasks of a physician
OpenAI's o1-preview outperforms doctors in diagnosing tricky medical cases, study finds

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

新研究發(fā)現(xiàn) OpenAI 的 o1-preview AI 模型在診斷棘手醫(yī)療案例方面優(yōu)于醫(yī)生

相關(guān)文章