谷歌旗下健康部門Google Health、AI部門DeepMind聯(lián)手倫敦帝國(guó)理工學(xué)院的研究人員日前在《自然》(Nature)雜志上撰文,描述了三個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)如何在某些情況下通過(guò)閱讀乳房X光照片診斷癌癥方面勝過(guò)人類放射科醫(yī)生。但相關(guān)細(xì)則顯示,這項(xiàng)技術(shù)還沒(méi)有達(dá)到完全取代放射科醫(yī)生的水平。
▲圖:谷歌的健康部門團(tuán)隊(duì)、DeepMind部門和倫敦帝國(guó)理工學(xué)院使用了三個(gè)不同的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),從上到下分別是Facebook AI的“RetinaNet”與谷歌的“MobileNetV2”結(jié)合體,中間部分是ResNet-v2-50,最后底層的ResNet-v1-50。每個(gè)神經(jīng)網(wǎng)絡(luò)都以不同的方式挑選出乳房X光照片中看起來(lái)可疑的區(qū)域,然后對(duì)發(fā)現(xiàn)進(jìn)行匯總,以得出關(guān)于癌癥或非癌癥的概率決定
如果你得到“相當(dāng)正確”的評(píng)價(jià),也就是說(shuō)正確多于錯(cuò)誤,結(jié)果可能并不太令人滿意。但如果你是個(gè)人工智能(AI)算法,你會(huì)為此得到很多贊譽(yù)。畢竟,AI程序不一定要給出明確的答案,只需要給出概率答案,或正確答案的可能性(百分比),無(wú)論是執(zhí)行自然語(yǔ)言翻譯還是診斷癌癥任務(wù)。
AI取得概率成就的最新例子出現(xiàn)在本周的《自然》雜志上,題為“乳腺癌篩查AI系統(tǒng)的國(guó)際評(píng)估”,由來(lái)自谷歌健康部門、DeepMind和倫敦帝國(guó)理工學(xué)院的31名學(xué)者撰寫,作者包括斯科特·邁耶·麥金尼(Scott Mayer McKinney)、馬爾辛·西尼克(Marcin T.Sieniek)、瓦倫·戈德布爾(Varun Godbole)和喬納森·戈德溫(Jonathan Godwin)以及DeepMind首席執(zhí)行官戴米斯·哈薩比斯(Demis Hassabis)等。
頭條新聞是,谷歌的科學(xué)在事后數(shù)年的乳房x光檢查中戰(zhàn)勝了英國(guó)和美國(guó)的放射學(xué)家,并宣布是否存在癌癥的診斷,表明“假陽(yáng)性和假陰性的誤報(bào)大幅減少?!边@種AI技術(shù)甚至擊敗了一個(gè)由6名人類放射科醫(yī)生組成的團(tuán)隊(duì),他們受托執(zhí)行這項(xiàng)任務(wù),查看了500張乳房X光照片,并給出了診斷結(jié)果。
結(jié)果對(duì)AI工具發(fā)展方面做出了重要貢獻(xiàn),這可能對(duì)醫(yī)生也非常有用。但這并不意味著它可以取代人類醫(yī)生的診斷。仔細(xì)觀察數(shù)據(jù)很重要,因?yàn)槔锩姘挡刂S多鮮為人知的東西。
我們首先看下研究背景:科學(xué)家們從英國(guó)三家不同的醫(yī)院收集了2012年至2015年間接受乳腺癌篩查的女性數(shù)據(jù),這些女性符合某些標(biāo)準(zhǔn),如年齡和檢查,總共有13918名女性數(shù)據(jù)。這就是研究人員用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)系統(tǒng)的東西。一旦系統(tǒng)經(jīng)過(guò)培訓(xùn),另有2.6萬(wàn)名女性數(shù)據(jù)被用于測(cè)試該系統(tǒng)。研究人員還對(duì)一家美國(guó)醫(yī)院收集的數(shù)據(jù)進(jìn)行了同樣的處理,即西北紀(jì)念醫(yī)院從2001年到2018年收集的數(shù)據(jù),只是樣本數(shù)量要小得多。
科學(xué)家們訓(xùn)練了巧妙的三種不同神經(jīng)網(wǎng)絡(luò),每個(gè)神經(jīng)網(wǎng)絡(luò)都以不同的細(xì)節(jié)水平觀察乳房X光照片。深度學(xué)習(xí)的這種設(shè)置細(xì)節(jié)令人著迷,也許代表了結(jié)合機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的最先進(jìn)水平。其中一種神經(jīng)網(wǎng)絡(luò)是ResNet V-150,到目前為止是一種經(jīng)典的圖像識(shí)別方法,由何凱明博士及其微軟同事在2015年開發(fā)。
第二個(gè)神經(jīng)網(wǎng)絡(luò)是RetinaNet,由Facebook AI研究學(xué)者于2017年開發(fā)。第三個(gè)是谷歌科學(xué)家去年發(fā)布的MobileNet V2神經(jīng)網(wǎng)絡(luò)。這是一個(gè)非常棒的混合方法,展示了代碼共享和開放的科學(xué)出版物如何豐富每個(gè)網(wǎng)絡(luò)的工作。詳細(xì)信息包含在《自然》雜志主要論文底部的補(bǔ)充材料論文中。
現(xiàn)在,棘手的部分來(lái)了:經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)所判斷的病例中,是否有乳腺癌病例經(jīng)隨后的活組織檢查證實(shí)為“基本事實(shí)”。換句話說(shuō),診斷不僅僅是圖像上的東西是什么樣子的,還包括隨后的醫(yī)學(xué)測(cè)試通過(guò)明確地提取一塊癌變組織而得出的結(jié)論。在這種情況下,對(duì)于癌癥的存在,答案是明確的是或不是。
但上面描述的三個(gè)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的完美結(jié)合,并不能給出是或不是的明確答案。它只會(huì)產(chǎn)生一個(gè)從0到1的分?jǐn)?shù)作為一個(gè)“連續(xù)值”,而不是二元式的“非此即彼”判斷。換句話說(shuō),AI診斷可能是絕對(duì)精確的,也可能是完全錯(cuò)誤的,這取決于在任何給定的情況下,它離正確的值有多近或多遠(yuǎn),是0還是1。
為了將概率分?jǐn)?shù)與人類在做出判斷時(shí)所做的事情相匹配,麥金尼和他的同事們不得不將AI的概率分?jǐn)?shù)轉(zhuǎn)換為二進(jìn)制值。他們是通過(guò)一套單獨(dú)的驗(yàn)證測(cè)試來(lái)挑選單個(gè)答案來(lái)做到這一點(diǎn)的。將“優(yōu)越性”與人類判斷進(jìn)行比較,是AI在其產(chǎn)生的更廣泛總答案集中精選出相對(duì)準(zhǔn)確答案的方式。
正如作者解釋的那樣:“AI系統(tǒng)天生就會(huì)產(chǎn)生一個(gè)連續(xù)的分?jǐn)?shù),代表癌癥存在的可能性,因此,為了支持與人類醫(yī)生的預(yù)測(cè)進(jìn)行比較,我們對(duì)這個(gè)分?jǐn)?shù)進(jìn)行了閾值劃分,以產(chǎn)生類似的二元篩查決定,在這種情況下,閾值意味著選擇一個(gè)單一的點(diǎn)進(jìn)行比較。對(duì)于每個(gè)臨床基準(zhǔn),我們使用驗(yàn)證集來(lái)選擇一個(gè)不同的操作點(diǎn),這相當(dāng)于一個(gè)將正面和負(fù)面決策分開的分?jǐn)?shù)閾值?!?/p>
與英國(guó)的數(shù)據(jù)相比,AI在預(yù)測(cè)某種東西是否是癌癥方面幾乎和人類一樣好。正如報(bào)告中所說(shuō),這個(gè)術(shù)語(yǔ)是“非劣質(zhì)的”,意思是它并不比人類的判斷力差。AI網(wǎng)絡(luò)做得明顯更好的領(lǐng)域是所謂的“特異性”,這是一個(gè)統(tǒng)計(jì)學(xué)術(shù)語(yǔ),意思是神經(jīng)網(wǎng)絡(luò)在避免假陽(yáng)性方面做得更好。也就是說(shuō),在不存在的情況下預(yù)測(cè)疾病。這當(dāng)然很重要,因?yàn)楸徽`診為癌癥對(duì)女性來(lái)說(shuō)意味著太多的壓力和焦慮。
不過(guò),值得注意的是,在這種情況下,人類得分來(lái)自醫(yī)生,他們必須判斷是否需要根據(jù)乳房X光檢查進(jìn)行進(jìn)一步的檢查,如活檢??梢韵胂?,在診斷的早期階段,醫(yī)生可能會(huì)做出過(guò)于寬泛的評(píng)估,以便推動(dòng)患者進(jìn)行進(jìn)一步的測(cè)試,以避免發(fā)生未發(fā)現(xiàn)癌癥的風(fēng)險(xiǎn)。這是醫(yī)生決定病人下一步去哪里和機(jī)器猜測(cè)幾年后結(jié)果的可能性之間的根本區(qū)別。
換句話說(shuō),坐在患者面前的醫(yī)生通常不會(huì)試圖猜測(cè)未來(lái)幾年的結(jié)果概率,而是試圖確定患者下一步要采取的關(guān)鍵步驟是什么?例如,即使AI在特定情況下根據(jù)乳房X光檢查確定癌癥的可能性很低,患者仍會(huì)希望他們的醫(yī)生犯了錯(cuò)誤,并開出活檢處方,以確保安全而不留下遺憾。他們很可能會(huì)欣賞這種謹(jǐn)慎。
科學(xué)家們?cè)诳偨Y(jié)部分寫道,盡管AI發(fā)現(xiàn)了醫(yī)生漏掉的病例,但也有好幾個(gè)醫(yī)生診斷的患癌病例被AI忽略。這在額外的“讀數(shù)研究”中尤其明顯,在這項(xiàng)研究中,6名人類放射科醫(yī)生觀察了500例癌癥篩查。研究人員發(fā)現(xiàn)了“所有六位放射科醫(yī)生都漏掉的癌癥樣本,但被AI系統(tǒng)正確識(shí)別出來(lái)”,而“六位放射科醫(yī)生都發(fā)現(xiàn)了的癌癥樣本,卻被AI系統(tǒng)漏掉了。”
有些令人不安的是,作者寫道,目前還不完全清楚AI在每一種情況下成功或失敗的原因。他們稱:“盡管我們無(wú)法在這些情況下確定明確的模式,但這種邊緣情況的存在表明,AI系統(tǒng)和人類醫(yī)生在得出準(zhǔn)確結(jié)論方面可能起到互補(bǔ)作用?!?/p>
可以肯定的是,人們想知道更多關(guān)于這三個(gè)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)是如何進(jìn)行概率猜測(cè)的。比如說(shuō),它們看到了什么?這個(gè)問(wèn)題,即神經(jīng)網(wǎng)絡(luò)代表什么的問(wèn)題,沒(méi)有在研究中得到解決,但對(duì)于AI在如此敏感的應(yīng)用中來(lái)說(shuō),這是一個(gè)至關(guān)重要的問(wèn)題。
綜上所述,我們面臨的一個(gè)大問(wèn)題是:對(duì)于一個(gè)能夠比許多必須進(jìn)行初步評(píng)估的醫(yī)生更準(zhǔn)確地預(yù)測(cè)未來(lái)癌癥發(fā)展概率的系統(tǒng),我們應(yīng)該付出多大的努力去開發(fā)?如果這些概率分?jǐn)?shù)能夠幫助醫(yī)生在某些“邊緣案例”中做出決定,那么,幫助醫(yī)生使用AI的價(jià)值將是非常高的,即使在這一點(diǎn)上AI并不能真正取代醫(yī)生。
順便說(shuō)一句,這項(xiàng)研究同時(shí)考察了英國(guó)和美國(guó)的數(shù)據(jù),得出了一些關(guān)于比較醫(yī)療體系質(zhì)量的令人困惑的發(fā)現(xiàn)??偟膩?lái)說(shuō),從對(duì)測(cè)試的初步審查來(lái)看,英國(guó)醫(yī)生的準(zhǔn)確率似乎明顯高于美國(guó),他們正確地得出結(jié)論,即某些東西將被證明是癌癥。
考慮到使用的數(shù)據(jù)集存在差異,即英國(guó)有13981名女性數(shù)據(jù)來(lái)自三家醫(yī)院,而美國(guó)只有一家醫(yī)院提供3097人的數(shù)據(jù),真的很難知道如何得出這些不同的結(jié)果。顯然,與AI同樣有趣的是,在這兩個(gè)不同醫(yī)療系統(tǒng)中醫(yī)生的相對(duì)能力同樣存在差異。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。