- +1
AI在新冠檢測(cè)中失靈了?研究發(fā)現(xiàn)647款A(yù)I工具不適用于臨床
原創(chuàng) 健恩 智東西 收錄于話題#人工智能465個(gè)


兩個(gè)研究團(tuán)隊(duì)分別測(cè)試了232種和415種AI工具,發(fā)現(xiàn)它們均無效。
編譯 | 健恩
編輯 | 高歌
智東西8月2日消息,自新冠疫情爆發(fā)以來,世界各地的研究團(tuán)隊(duì)開發(fā)了各種人工智能(AI)工具來幫助檢測(cè)新冠病毒或者對(duì)新冠病毒的感染情況進(jìn)行預(yù)測(cè)。但是很不幸,來自荷蘭馬斯特里赫特大學(xué)和英國劍橋大學(xué)的兩個(gè)研究團(tuán)隊(duì)分別獨(dú)立對(duì)232種和415種AI工具進(jìn)行測(cè)試,發(fā)現(xiàn)這一共647種工具沒有一個(gè)適合臨床使用,有些甚至還會(huì)有害。
產(chǎn)生這個(gè)結(jié)果主要與訓(xùn)練AI模型的數(shù)據(jù)質(zhì)量有關(guān)。開發(fā)者采用的數(shù)據(jù)集里面往往摻雜了一些無效信息或錯(cuò)誤信息,導(dǎo)致AI工具學(xué)會(huì)了錯(cuò)誤的判斷方法。而開發(fā)者往往不具備醫(yī)學(xué)的專業(yè)知識(shí),這使他們很難發(fā)現(xiàn)其中的錯(cuò)誤。
有專家認(rèn)為,只有通過開發(fā)者與臨床醫(yī)生的通力合作才能盡可能的避免這種錯(cuò)誤產(chǎn)生。另外,還有專家呼吁對(duì)于此類全球突發(fā)的衛(wèi)生健康事件應(yīng)該做好“數(shù)據(jù)共享”,以便各國能夠充分應(yīng)對(duì)。
01.
共647種AI工具被測(cè)試
均不適合臨床使用
2020年3月,COVID-19開始襲擊歐洲,但那時(shí)的人們?nèi)藗儗?duì)此知之甚少,這讓歐洲的醫(yī)院陷入了一場(chǎng)危機(jī)。荷蘭馬斯特里赫特大學(xué)流行病學(xué)家Laure Wynants一直在研究流行病的預(yù)測(cè)工具,她說:“醫(yī)生真的不知道如何管理這些患者?!?/p>
世界各地的研究團(tuán)隊(duì)加緊進(jìn)行研究,尤其是AI社區(qū)緊急開了發(fā)各種軟件。許多人認(rèn)為這些軟件可以讓醫(yī)院更快地診斷或分診患者,為抗擊疫情的前線提供支持。但是,數(shù)百種檢測(cè)工具被開發(fā)出來,卻沒有一個(gè)真正的產(chǎn)生作用。
今年6月,英國國家數(shù)據(jù)科學(xué)和人工智能中心圖靈研究所發(fā)布了一份報(bào)告,總結(jié)了其在2020年底舉辦的一系列研討會(huì)上討論的內(nèi)容,這些研討會(huì)中達(dá)成的一項(xiàng)明確共識(shí)是:AI工具在抗擊新冠疫情的戰(zhàn)斗中幾乎沒有產(chǎn)生任何實(shí)質(zhì)性的影響。兩個(gè)研究團(tuán)隊(duì)圍繞著這些AI工具分別進(jìn)行的兩項(xiàng)研究得到的結(jié)果支持了這個(gè)結(jié)論。
Laure Wynants和她的同事研究了232種用來預(yù)測(cè)或診斷新冠肺炎患者的算法,結(jié)果發(fā)現(xiàn)都不適合臨床使用,只有兩個(gè)算法可能在未來會(huì)對(duì)臨床上的檢測(cè)有所幫助。這項(xiàng)研究結(jié)果以一篇評(píng)論文章的形式發(fā)表在英國醫(yī)學(xué)雜志(British Medical Journal)上,到現(xiàn)在這篇文章仍在隨著新工具的發(fā)布和研究者對(duì)現(xiàn)有工具的測(cè)試而進(jìn)行更新。
對(duì)于這樣的結(jié)果Laure Wynants說道:“這十分令人震驚。我?guī)е@樣的擔(dān)憂開始了這項(xiàng)工作,但是這個(gè)結(jié)果超出了我的預(yù)想,讓我非??謶帧!?/p>
▲荷蘭馬斯特里赫特大學(xué)流行病學(xué)家Laure Wynants
劍橋大學(xué)機(jī)器學(xué)習(xí)研究員Derek Driggs及其同事進(jìn)行的另一項(xiàng)研究結(jié)果也得出了相同的結(jié)論。該團(tuán)隊(duì)利用深度學(xué)習(xí)模型診斷新冠肺炎,并讓AI通過胸部X射線和CT掃描來預(yù)測(cè)患者的患病風(fēng)險(xiǎn)。他們研究了415種已經(jīng)公開的AI工具,但是結(jié)果和Laure Wynants的發(fā)現(xiàn)一致,沒有一個(gè)工具適合臨床使用。
這項(xiàng)研究結(jié)果被發(fā)表在Nature Machine Intelligence上,論文題目為《使用機(jī)器學(xué)習(xí)通過胸片和 CT 掃描檢測(cè)和預(yù)測(cè) COVID-19 的常見缺陷和建議(Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans)》。
論文鏈接:
https://www.nature.com/articles/s42256-021-00307-0
Derek Driggs正在研究一種機(jī)器學(xué)習(xí)工具,希望能夠在新冠疫情流行期間幫助醫(yī)生,他說:“這次的疫情是一次對(duì)AI和醫(yī)學(xué)的重大考驗(yàn),不過我認(rèn)為我們沒有通過這個(gè)考驗(yàn)?!?/p>
盡管結(jié)果如此,Laure Wynants和Derek Driggs仍相信AI有潛力為醫(yī)生提供幫助,同時(shí)他們也擔(dān)心以錯(cuò)誤的方式構(gòu)建的AI工具不僅不會(huì)產(chǎn)生幫助甚至還會(huì)有害,因?yàn)檫@樣可能會(huì)使醫(yī)生做出錯(cuò)誤的診斷或低估患者的病情。
Derek Driggs稱,關(guān)于機(jī)器學(xué)習(xí)模型以及它的作用有很多炒作,人們對(duì)它們不切實(shí)際的期望促使這些工具被提前投入使用。Laure Wynants和Derek Driggs研究的數(shù)百種AI工具中的一部分已經(jīng)被一些醫(yī)院所使用,而有些正在被私人開發(fā)商四處兜售?!拔覔?dān)心他們可能傷害了病人?!盠aure Wynants說。
新冠疫情讓很多研究人員清楚的看到他們需要改變AI工具的構(gòu)建方式。Laure Wynants談道:“新冠疫情的流行讓這個(gè)問題成為了人們關(guān)注的焦點(diǎn)。”
02.
訓(xùn)練AI的數(shù)據(jù)錯(cuò)誤太多
讓AI學(xué)習(xí)結(jié)果出偏差
研究人員發(fā)現(xiàn),這些AI工具出現(xiàn)的問題很多都與開發(fā)者用來開發(fā)工具的數(shù)據(jù)質(zhì)量有關(guān)。在新冠疫情蔓延期間,通常是治療新冠肺炎的醫(yī)生收集和共享關(guān)于這一疾病的信息,包括醫(yī)學(xué)掃描圖像。而這些信息和數(shù)據(jù)是工具開發(fā)者唯一可用的公共數(shù)據(jù)集,這意味著很多是使用錯(cuò)誤標(biāo)記的數(shù)據(jù)或未知來源的數(shù)據(jù)構(gòu)建的。
Derek Driggs強(qiáng)調(diào)了這個(gè)他稱作“Frankenstei”數(shù)據(jù)集的問題,這些數(shù)據(jù)集是從多個(gè)來源拼接在一起的,可能包含重復(fù)項(xiàng)。這意味著某些工具最終進(jìn)行測(cè)試的數(shù)據(jù)可能與它們訓(xùn)練時(shí)使用的數(shù)據(jù)相同,讓它們看起來比實(shí)際上更加準(zhǔn)確。
開發(fā)者還有可能混淆了某些數(shù)據(jù)集的來源,這可能會(huì)錯(cuò)過一些影響模型訓(xùn)練結(jié)果的重要特征。比如有些人在不知不覺中使用了一個(gè)數(shù)據(jù)集,其中包含沒有感染過新冠病毒的兒童的胸部掃描圖,并將這些作為非新冠病毒感染病例的示例。結(jié)果AI學(xué)會(huì)的是如何識(shí)別兒童,而不是識(shí)別新冠病毒。
Derek Driggs的小組嘗試使用一個(gè)數(shù)據(jù)集來訓(xùn)練自己的模型,該數(shù)據(jù)集中包含患者躺下和站起來時(shí)的混合掃描。由于躺下進(jìn)行掃描的患者更有可能患有重病,因此AI錯(cuò)誤地學(xué)會(huì)了從一個(gè)人的站立或躺下來預(yù)測(cè)患病嚴(yán)重程度。
還有一種情況,研究者發(fā)現(xiàn)一些AI會(huì)對(duì)某些醫(yī)院用來標(biāo)記掃描結(jié)果的文本字體產(chǎn)生反應(yīng),結(jié)果來自接收重癥患者醫(yī)院的字體成為了預(yù)測(cè)新冠肺炎患病風(fēng)險(xiǎn)的指標(biāo)。
事后看來,這些錯(cuò)誤似乎很容易被發(fā)現(xiàn),如果開發(fā)者知道它們,也可以通過調(diào)整模型來進(jìn)行修復(fù)。但是,許多工具要么是由缺乏醫(yī)學(xué)專業(yè)知識(shí)的AI研究員開發(fā)的,他們很難從中發(fā)現(xiàn)數(shù)據(jù)缺陷;要么是由缺乏數(shù)學(xué)技能的醫(yī)學(xué)研究人員開發(fā)的,他們很難用專業(yè)知識(shí)來彌補(bǔ)這些數(shù)據(jù)缺陷。
Derek Driggs還提到了一個(gè)更微妙的錯(cuò)誤,那就是合并偏差(incorporation bias),或者說是數(shù)據(jù)集被標(biāo)注時(shí)引入的偏差。例如,許多醫(yī)學(xué)掃描是根據(jù)放射科醫(yī)生對(duì)于它們是否顯示出新冠病毒的判斷來標(biāo)記的,但是這會(huì)將一些醫(yī)生的偏見嵌入或合并到數(shù)據(jù)集中。Derek Driggs說,用PCR測(cè)試的結(jié)果來標(biāo)記醫(yī)學(xué)掃描會(huì)比僅聽醫(yī)生的意見要好得多,但是在醫(yī)院里往往沒那么多時(shí)間去統(tǒng)計(jì)這些細(xì)節(jié)。
Laure Wynants稱這些已知的錯(cuò)誤并沒有阻止其中一些工具被匆忙投入臨床實(shí)踐,目前尚不清楚哪些正在被使用,也不知道它們被如何使用。醫(yī)院有時(shí)會(huì)說他們僅將工具用于研究目的,這讓研究者很難評(píng)估醫(yī)生對(duì)這些AI工具的依賴程度。
Laure Wynants曾要求一家銷售深度學(xué)習(xí)算法的公司分享有關(guān)其方法的信息,但是并沒有得到回應(yīng)。后來她從與這家公司有關(guān)的研究人員那里得到了幾個(gè)已經(jīng)發(fā)表了的模型,不出任何意外,這些模型都有著很高的偏見風(fēng)險(xiǎn)。
“我們實(shí)際上并不知道這家公司都做了哪些工作。甚至一些醫(yī)院還與醫(yī)療AI的供應(yīng)商簽了保密協(xié)議?!盠aure Wynants說。當(dāng)她問醫(yī)生使用的什么算法或軟件時(shí),會(huì)被告知醫(yī)院不允許醫(yī)生將這些說出去。
03.
AI開發(fā)者要與臨床醫(yī)生合作
專家呼吁“數(shù)據(jù)共享”
更加完善的數(shù)據(jù)可能會(huì)對(duì)解決這個(gè)問題有所幫助,但是在危機(jī)時(shí)期,這個(gè)要求很難做到。Derek Driggs稱,更重要的是要充分利用已經(jīng)擁有的數(shù)據(jù)集,應(yīng)該讓AI開發(fā)團(tuán)隊(duì)與臨床醫(yī)生進(jìn)行更多合作。開發(fā)者要分享他們的模型,并公開他們是如何訓(xùn)練這些模型的,以便其他人可以測(cè)試它們并以此為基礎(chǔ)來正確的使用。
“這是我們現(xiàn)在能夠做到的幾件事,它們可能會(huì)解決我們發(fā)現(xiàn)的50%的問題?!盌erek Driggs說。
總部位于倫敦的全球健康研究慈善機(jī)構(gòu)Wellcome Trust的臨床技術(shù)團(tuán)隊(duì)負(fù)責(zé)人Bilal Mateen說,如果格式標(biāo)準(zhǔn)化,獲取數(shù)據(jù)也更加容易。
Laure Wynants、Derek Driggs和Bilal Mateen都發(fā)現(xiàn)的一個(gè)問題是,大多數(shù)開發(fā)者都急于開發(fā)自己的模型,而不是和他人合作或改進(jìn)現(xiàn)有模型。這樣造成的結(jié)果是全世界的開發(fā)者集體努力創(chuàng)造出了數(shù)百種無用的工具,而不是共同創(chuàng)造出幾種經(jīng)過訓(xùn)練和測(cè)試的工具。
Laure Wynants說:“這些模型非常相似,它們都使用了幾乎相同的技術(shù),只是進(jìn)行了稍微的調(diào)整,輸入幾乎相同的數(shù)據(jù),并且犯了幾乎同樣的錯(cuò)誤。”
“從某種意義上說這是研究領(lǐng)域的老毛病了。學(xué)術(shù)研究人員幾乎沒有任何動(dòng)機(jī)去分享工作經(jīng)驗(yàn)或驗(yàn)證現(xiàn)有結(jié)果。將技術(shù)從實(shí)驗(yàn)室工作臺(tái)帶到病床邊的最后一英里是沒有回報(bào)的?!盉ilal Mateen說。
為了解決這個(gè)問題,世界衛(wèi)生組織正在考慮簽訂一份緊急數(shù)據(jù)共享協(xié)議,該協(xié)議將在國際健康危機(jī)期間生效。這會(huì)讓研究人員更容易地跨境共享數(shù)據(jù)。在6月份英國舉行G7峰會(huì)之前,來自參與國的領(lǐng)先科學(xué)團(tuán)體也呼吁“準(zhǔn)備好數(shù)據(jù)”,為未來的突發(fā)衛(wèi)生事件做好準(zhǔn)備。
這樣的呼吁聽起來有點(diǎn)含糊不清,并且?guī)в兄唤z一廂情愿的想法。在新冠疫情爆發(fā)之前,這類共享數(shù)據(jù)的舉措已經(jīng)停滯。
Bilal Mateen認(rèn)為,新冠疫情讓很多事情重新提上了議程。他說:“除非我們都認(rèn)同在解決共享數(shù)據(jù)這一問題之前要先克服數(shù)據(jù)不能共享背后的難題,否則我們注定要重復(fù)同樣的錯(cuò)誤。如果這樣的錯(cuò)誤再次發(fā)生,將是不可接受的,忘記這次全球疫情的教訓(xùn)是對(duì)逝者的不尊重?!?/p>
04.
結(jié)語:AI在抗疫大戰(zhàn)中暴露短板
新冠疫情是一場(chǎng)席卷全球的災(zāi)難??箵粜鹿谝咔椴皇悄硞€(gè)人、某個(gè)團(tuán)體或某個(gè)國家的責(zé)任,而是全人類都要參與的一場(chǎng)斗爭。
這場(chǎng)斗爭中,AI被寄予了厚望,眾多研究團(tuán)隊(duì)參與其中開發(fā)各種AI工具,希望能夠幫助醫(yī)生來檢測(cè)和診斷新冠。但是事實(shí)證明,這些AI工具并沒有起到真正有效的作用。不過,這并不能否定AI在疾病診斷方面的潛力。
要讓AI實(shí)現(xiàn)對(duì)新冠病毒的檢測(cè),一方面需要更加準(zhǔn)確完善的數(shù)據(jù)集對(duì)它進(jìn)行訓(xùn)練,另一方面也需要AI工具的開發(fā)者與醫(yī)學(xué)領(lǐng)域的專家進(jìn)行合作,以便能夠更加有效的發(fā)現(xiàn)其中存在的漏洞。
此外應(yīng)對(duì)此類全球的健康危機(jī)還需要各國共同創(chuàng)造出一個(gè)開放的研究環(huán)境,讓各類相關(guān)的研究數(shù)據(jù)能夠更加自由的在各國的科研團(tuán)體之間流動(dòng),這樣才能讓研究成果更加有效的用于對(duì)疾病的抗?fàn)幹小?/p>
只要訓(xùn)練方式得當(dāng),AI能夠更高效、更準(zhǔn)確的對(duì)疾病做出診斷,但是很可惜一些被寄予厚望的AI工具在新冠疫情的斗爭中并沒有表現(xiàn)出應(yīng)有的能力。這次全球疫情帶來的教訓(xùn)或許能讓AI開發(fā)者和相關(guān)組織機(jī)構(gòu)認(rèn)識(shí)到其中的不足,為下次全球可能出現(xiàn)的新危機(jī)做好準(zhǔn)備。
來源:MIT Technology Review
(本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。)
原標(biāo)題:《AI在新冠檢測(cè)中失靈了?研究發(fā)現(xiàn)647款A(yù)I工具不適用于臨床》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




