下載客戶端

登錄

AI在新冠檢測(cè)中失靈了？研究發(fā)現(xiàn)647款A(yù)I工具不適用于臨床

2021-08-03 08:24

來源：澎湃新聞·澎湃號(hào)·湃客

原創(chuàng) 健恩智東西收錄于話題#人工智能465個(gè)

兩個(gè)研究團(tuán)隊(duì)分別測(cè)試了232種和415種AI工具，發(fā)現(xiàn)它們均無效。

編譯 | 健恩

編輯 | 高歌

智東西8月2日消息，自新冠疫情爆發(fā)以來，世界各地的研究團(tuán)隊(duì)開發(fā)了各種人工智能（AI）工具來幫助檢測(cè)新冠病毒或者對(duì)新冠病毒的感染情況進(jìn)行預(yù)測(cè)。但是很不幸，來自荷蘭馬斯特里赫特大學(xué)和英國劍橋大學(xué)的兩個(gè)研究團(tuán)隊(duì)分別獨(dú)立對(duì)232種和415種AI工具進(jìn)行測(cè)試，發(fā)現(xiàn)這一共647種工具沒有一個(gè)適合臨床使用，有些甚至還會(huì)有害。

產(chǎn)生這個(gè)結(jié)果主要與訓(xùn)練AI模型的數(shù)據(jù)質(zhì)量有關(guān)。開發(fā)者采用的數(shù)據(jù)集里面往往摻雜了一些無效信息或錯(cuò)誤信息，導(dǎo)致AI工具學(xué)會(huì)了錯(cuò)誤的判斷方法。而開發(fā)者往往不具備醫(yī)學(xué)的專業(yè)知識(shí)，這使他們很難發(fā)現(xiàn)其中的錯(cuò)誤。

有專家認(rèn)為，只有通過開發(fā)者與臨床醫(yī)生的通力合作才能盡可能的避免這種錯(cuò)誤產(chǎn)生。另外，還有專家呼吁對(duì)于此類全球突發(fā)的衛(wèi)生健康事件應(yīng)該做好“數(shù)據(jù)共享”，以便各國能夠充分應(yīng)對(duì)。

01.

共647種AI工具被測(cè)試

均不適合臨床使用

2020年3月，COVID-19開始襲擊歐洲，但那時(shí)的人們?nèi)藗儗?duì)此知之甚少，這讓歐洲的醫(yī)院陷入了一場(chǎng)危機(jī)。荷蘭馬斯特里赫特大學(xué)流行病學(xué)家Laure Wynants一直在研究流行病的預(yù)測(cè)工具，她說：“醫(yī)生真的不知道如何管理這些患者?！?/p>

世界各地的研究團(tuán)隊(duì)加緊進(jìn)行研究，尤其是AI社區(qū)緊急開了發(fā)各種軟件。許多人認(rèn)為這些軟件可以讓醫(yī)院更快地診斷或分診患者，為抗擊疫情的前線提供支持。但是，數(shù)百種檢測(cè)工具被開發(fā)出來，卻沒有一個(gè)真正的產(chǎn)生作用。

今年6月，英國國家數(shù)據(jù)科學(xué)和人工智能中心圖靈研究所發(fā)布了一份報(bào)告，總結(jié)了其在2020年底舉辦的一系列研討會(huì)上討論的內(nèi)容，這些研討會(huì)中達(dá)成的一項(xiàng)明確共識(shí)是：AI工具在抗擊新冠疫情的戰(zhàn)斗中幾乎沒有產(chǎn)生任何實(shí)質(zhì)性的影響。兩個(gè)研究團(tuán)隊(duì)圍繞著這些AI工具分別進(jìn)行的兩項(xiàng)研究得到的結(jié)果支持了這個(gè)結(jié)論。

Laure Wynants和她的同事研究了232種用來預(yù)測(cè)或診斷新冠肺炎患者的算法，結(jié)果發(fā)現(xiàn)都不適合臨床使用，只有兩個(gè)算法可能在未來會(huì)對(duì)臨床上的檢測(cè)有所幫助。這項(xiàng)研究結(jié)果以一篇評(píng)論文章的形式發(fā)表在英國醫(yī)學(xué)雜志（British Medical Journal）上，到現(xiàn)在這篇文章仍在隨著新工具的發(fā)布和研究者對(duì)現(xiàn)有工具的測(cè)試而進(jìn)行更新。

對(duì)于這樣的結(jié)果Laure Wynants說道：“這十分令人震驚。我?guī)е@樣的擔(dān)憂開始了這項(xiàng)工作，但是這個(gè)結(jié)果超出了我的預(yù)想，讓我非?？謶帧！?/p>

▲荷蘭馬斯特里赫特大學(xué)流行病學(xué)家Laure Wynants

劍橋大學(xué)機(jī)器學(xué)習(xí)研究員Derek Driggs及其同事進(jìn)行的另一項(xiàng)研究結(jié)果也得出了相同的結(jié)論。該團(tuán)隊(duì)利用深度學(xué)習(xí)模型診斷新冠肺炎，并讓AI通過胸部X射線和CT掃描來預(yù)測(cè)患者的患病風(fēng)險(xiǎn)。他們研究了415種已經(jīng)公開的AI工具，但是結(jié)果和Laure Wynants的發(fā)現(xiàn)一致，沒有一個(gè)工具適合臨床使用。

這項(xiàng)研究結(jié)果被發(fā)表在Nature Machine Intelligence上，論文題目為《使用機(jī)器學(xué)習(xí)通過胸片和 CT 掃描檢測(cè)和預(yù)測(cè) COVID-19 的常見缺陷和建議（Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans）》。

論文鏈接：

https://www.nature.com/articles/s42256-021-00307-0

Derek Driggs正在研究一種機(jī)器學(xué)習(xí)工具，希望能夠在新冠疫情流行期間幫助醫(yī)生，他說：“這次的疫情是一次對(duì)AI和醫(yī)學(xué)的重大考驗(yàn)，不過我認(rèn)為我們沒有通過這個(gè)考驗(yàn)?！?/p>

盡管結(jié)果如此，Laure Wynants和Derek Driggs仍相信AI有潛力為醫(yī)生提供幫助，同時(shí)他們也擔(dān)心以錯(cuò)誤的方式構(gòu)建的AI工具不僅不會(huì)產(chǎn)生幫助甚至還會(huì)有害，因?yàn)檫@樣可能會(huì)使醫(yī)生做出錯(cuò)誤的診斷或低估患者的病情。

Derek Driggs稱，關(guān)于機(jī)器學(xué)習(xí)模型以及它的作用有很多炒作，人們對(duì)它們不切實(shí)際的期望促使這些工具被提前投入使用。Laure Wynants和Derek Driggs研究的數(shù)百種AI工具中的一部分已經(jīng)被一些醫(yī)院所使用，而有些正在被私人開發(fā)商四處兜售?！拔覔?dān)心他們可能傷害了病人?！盠aure Wynants說。

新冠疫情讓很多研究人員清楚的看到他們需要改變AI工具的構(gòu)建方式。Laure Wynants談道：“新冠疫情的流行讓這個(gè)問題成為了人們關(guān)注的焦點(diǎn)。”

02.

訓(xùn)練AI的數(shù)據(jù)錯(cuò)誤太多

讓AI學(xué)習(xí)結(jié)果出偏差

研究人員發(fā)現(xiàn)，這些AI工具出現(xiàn)的問題很多都與開發(fā)者用來開發(fā)工具的數(shù)據(jù)質(zhì)量有關(guān)。在新冠疫情蔓延期間，通常是治療新冠肺炎的醫(yī)生收集和共享關(guān)于這一疾病的信息，包括醫(yī)學(xué)掃描圖像。而這些信息和數(shù)據(jù)是工具開發(fā)者唯一可用的公共數(shù)據(jù)集，這意味著很多是使用錯(cuò)誤標(biāo)記的數(shù)據(jù)或未知來源的數(shù)據(jù)構(gòu)建的。

Derek Driggs強(qiáng)調(diào)了這個(gè)他稱作“Frankenstei”數(shù)據(jù)集的問題，這些數(shù)據(jù)集是從多個(gè)來源拼接在一起的，可能包含重復(fù)項(xiàng)。這意味著某些工具最終進(jìn)行測(cè)試的數(shù)據(jù)可能與它們訓(xùn)練時(shí)使用的數(shù)據(jù)相同，讓它們看起來比實(shí)際上更加準(zhǔn)確。

開發(fā)者還有可能混淆了某些數(shù)據(jù)集的來源，這可能會(huì)錯(cuò)過一些影響模型訓(xùn)練結(jié)果的重要特征。比如有些人在不知不覺中使用了一個(gè)數(shù)據(jù)集，其中包含沒有感染過新冠病毒的兒童的胸部掃描圖，并將這些作為非新冠病毒感染病例的示例。結(jié)果AI學(xué)會(huì)的是如何識(shí)別兒童，而不是識(shí)別新冠病毒。

Derek Driggs的小組嘗試使用一個(gè)數(shù)據(jù)集來訓(xùn)練自己的模型，該數(shù)據(jù)集中包含患者躺下和站起來時(shí)的混合掃描。由于躺下進(jìn)行掃描的患者更有可能患有重病，因此AI錯(cuò)誤地學(xué)會(huì)了從一個(gè)人的站立或躺下來預(yù)測(cè)患病嚴(yán)重程度。

還有一種情況，研究者發(fā)現(xiàn)一些AI會(huì)對(duì)某些醫(yī)院用來標(biāo)記掃描結(jié)果的文本字體產(chǎn)生反應(yīng)，結(jié)果來自接收重癥患者醫(yī)院的字體成為了預(yù)測(cè)新冠肺炎患病風(fēng)險(xiǎn)的指標(biāo)。

事后看來，這些錯(cuò)誤似乎很容易被發(fā)現(xiàn)，如果開發(fā)者知道它們，也可以通過調(diào)整模型來進(jìn)行修復(fù)。但是，許多工具要么是由缺乏醫(yī)學(xué)專業(yè)知識(shí)的AI研究員開發(fā)的，他們很難從中發(fā)現(xiàn)數(shù)據(jù)缺陷；要么是由缺乏數(shù)學(xué)技能的醫(yī)學(xué)研究人員開發(fā)的，他們很難用專業(yè)知識(shí)來彌補(bǔ)這些數(shù)據(jù)缺陷。

Derek Driggs還提到了一個(gè)更微妙的錯(cuò)誤，那就是合并偏差（incorporation bias），或者說是數(shù)據(jù)集被標(biāo)注時(shí)引入的偏差。例如，許多醫(yī)學(xué)掃描是根據(jù)放射科醫(yī)生對(duì)于它們是否顯示出新冠病毒的判斷來標(biāo)記的，但是這會(huì)將一些醫(yī)生的偏見嵌入或合并到數(shù)據(jù)集中。Derek Driggs說，用PCR測(cè)試的結(jié)果來標(biāo)記醫(yī)學(xué)掃描會(huì)比僅聽醫(yī)生的意見要好得多，但是在醫(yī)院里往往沒那么多時(shí)間去統(tǒng)計(jì)這些細(xì)節(jié)。

Laure Wynants稱這些已知的錯(cuò)誤并沒有阻止其中一些工具被匆忙投入臨床實(shí)踐，目前尚不清楚哪些正在被使用，也不知道它們被如何使用。醫(yī)院有時(shí)會(huì)說他們僅將工具用于研究目的，這讓研究者很難評(píng)估醫(yī)生對(duì)這些AI工具的依賴程度。

Laure Wynants曾要求一家銷售深度學(xué)習(xí)算法的公司分享有關(guān)其方法的信息，但是并沒有得到回應(yīng)。后來她從與這家公司有關(guān)的研究人員那里得到了幾個(gè)已經(jīng)發(fā)表了的模型，不出任何意外，這些模型都有著很高的偏見風(fēng)險(xiǎn)。

“我們實(shí)際上并不知道這家公司都做了哪些工作。甚至一些醫(yī)院還與醫(yī)療AI的供應(yīng)商簽了保密協(xié)議?！盠aure Wynants說。當(dāng)她問醫(yī)生使用的什么算法或軟件時(shí)，會(huì)被告知醫(yī)院不允許醫(yī)生將這些說出去。

03.

AI開發(fā)者要與臨床醫(yī)生合作

專家呼吁“數(shù)據(jù)共享”

更加完善的數(shù)據(jù)可能會(huì)對(duì)解決這個(gè)問題有所幫助，但是在危機(jī)時(shí)期，這個(gè)要求很難做到。Derek Driggs稱，更重要的是要充分利用已經(jīng)擁有的數(shù)據(jù)集，應(yīng)該讓AI開發(fā)團(tuán)隊(duì)與臨床醫(yī)生進(jìn)行更多合作。開發(fā)者要分享他們的模型，并公開他們是如何訓(xùn)練這些模型的，以便其他人可以測(cè)試它們并以此為基礎(chǔ)來正確的使用。

“這是我們現(xiàn)在能夠做到的幾件事，它們可能會(huì)解決我們發(fā)現(xiàn)的50%的問題?！盌erek Driggs說。

總部位于倫敦的全球健康研究慈善機(jī)構(gòu)Wellcome Trust的臨床技術(shù)團(tuán)隊(duì)負(fù)責(zé)人Bilal Mateen說，如果格式標(biāo)準(zhǔn)化，獲取數(shù)據(jù)也更加容易。

Laure Wynants、Derek Driggs和Bilal Mateen都發(fā)現(xiàn)的一個(gè)問題是，大多數(shù)開發(fā)者都急于開發(fā)自己的模型，而不是和他人合作或改進(jìn)現(xiàn)有模型。這樣造成的結(jié)果是全世界的開發(fā)者集體努力創(chuàng)造出了數(shù)百種無用的工具，而不是共同創(chuàng)造出幾種經(jīng)過訓(xùn)練和測(cè)試的工具。

Laure Wynants說：“這些模型非常相似，它們都使用了幾乎相同的技術(shù)，只是進(jìn)行了稍微的調(diào)整，輸入幾乎相同的數(shù)據(jù)，并且犯了幾乎同樣的錯(cuò)誤。”

“從某種意義上說這是研究領(lǐng)域的老毛病了。學(xué)術(shù)研究人員幾乎沒有任何動(dòng)機(jī)去分享工作經(jīng)驗(yàn)或驗(yàn)證現(xiàn)有結(jié)果。將技術(shù)從實(shí)驗(yàn)室工作臺(tái)帶到病床邊的最后一英里是沒有回報(bào)的?！盉ilal Mateen說。

為了解決這個(gè)問題，世界衛(wèi)生組織正在考慮簽訂一份緊急數(shù)據(jù)共享協(xié)議，該協(xié)議將在國際健康危機(jī)期間生效。這會(huì)讓研究人員更容易地跨境共享數(shù)據(jù)。在6月份英國舉行G7峰會(huì)之前，來自參與國的領(lǐng)先科學(xué)團(tuán)體也呼吁“準(zhǔn)備好數(shù)據(jù)”，為未來的突發(fā)衛(wèi)生事件做好準(zhǔn)備。

這樣的呼吁聽起來有點(diǎn)含糊不清，并且?guī)в兄唤z一廂情愿的想法。在新冠疫情爆發(fā)之前，這類共享數(shù)據(jù)的舉措已經(jīng)停滯。

Bilal Mateen認(rèn)為，新冠疫情讓很多事情重新提上了議程。他說：“除非我們都認(rèn)同在解決共享數(shù)據(jù)這一問題之前要先克服數(shù)據(jù)不能共享背后的難題，否則我們注定要重復(fù)同樣的錯(cuò)誤。如果這樣的錯(cuò)誤再次發(fā)生，將是不可接受的，忘記這次全球疫情的教訓(xùn)是對(duì)逝者的不尊重?！?/p>

04.

結(jié)語：AI在抗疫大戰(zhàn)中暴露短板

新冠疫情是一場(chǎng)席卷全球的災(zāi)難?？箵粜鹿谝咔椴皇悄硞€(gè)人、某個(gè)團(tuán)體或某個(gè)國家的責(zé)任，而是全人類都要參與的一場(chǎng)斗爭。

這場(chǎng)斗爭中，AI被寄予了厚望，眾多研究團(tuán)隊(duì)參與其中開發(fā)各種AI工具，希望能夠幫助醫(yī)生來檢測(cè)和診斷新冠。但是事實(shí)證明，這些AI工具并沒有起到真正有效的作用。不過，這并不能否定AI在疾病診斷方面的潛力。

要讓AI實(shí)現(xiàn)對(duì)新冠病毒的檢測(cè)，一方面需要更加準(zhǔn)確完善的數(shù)據(jù)集對(duì)它進(jìn)行訓(xùn)練，另一方面也需要AI工具的開發(fā)者與醫(yī)學(xué)領(lǐng)域的專家進(jìn)行合作，以便能夠更加有效的發(fā)現(xiàn)其中存在的漏洞。

此外應(yīng)對(duì)此類全球的健康危機(jī)還需要各國共同創(chuàng)造出一個(gè)開放的研究環(huán)境，讓各類相關(guān)的研究數(shù)據(jù)能夠更加自由的在各國的科研團(tuán)體之間流動(dòng)，這樣才能讓研究成果更加有效的用于對(duì)疾病的抗?fàn)幹小?/p>

只要訓(xùn)練方式得當(dāng)，AI能夠更高效、更準(zhǔn)確的對(duì)疾病做出診斷，但是很可惜一些被寄予厚望的AI工具在新冠疫情的斗爭中并沒有表現(xiàn)出應(yīng)有的能力。這次全球疫情帶來的教訓(xùn)或許能讓AI開發(fā)者和相關(guān)組織機(jī)構(gòu)認(rèn)識(shí)到其中的不足，為下次全球可能出現(xiàn)的新危機(jī)做好準(zhǔn)備。

來源：MIT Technology Review

（本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【智東西】原創(chuàng)內(nèi)容，未經(jīng)賬號(hào)授權(quán)，禁止隨意轉(zhuǎn)載。）

原標(biāo)題：《AI在新冠檢測(cè)中失靈了？研究發(fā)現(xiàn)647款A(yù)I工具不適用于臨床》

閱讀原文

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

我要舉報(bào)

#新冠檢測(cè)#AI工具