中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

剖析用于人口健康管理的算法中的種族偏見

2020-12-28 18:06
來源:澎湃新聞·澎湃號·湃客
字號

原創(chuàng) 政光景 定量群學(xué)

引言

人們越來越擔心,算法可能會通過算法建構(gòu)者通過訓(xùn)練算法的數(shù)據(jù)來重現(xiàn)種族和性別差異。實證研究越來越支持這些擔憂。例如,高薪職位的求職廣告不太可能呈現(xiàn)給女性,搜索獨特的黑人名字更有可能觸發(fā)逮捕記錄的廣告,而首席執(zhí)行官等職業(yè)的形象搜索產(chǎn)生的女性形象更少。

但通常對算法偏差進行實證研究是困難的,因為大規(guī)模部署的算法通常是(政府或企業(yè)等機構(gòu)) 專有的,這使得研究人員很難直接了解算法,并對它們進行分析。研究人員必須“從外部”工作,通常需要他們有很大的獨創(chuàng)性,并求助于審計研究等聰明的變通辦法。因此,人們對算法機制的理解通常依賴于理論或是研究者自創(chuàng)算法的訓(xùn)練與試驗。

在這項研究中,研究人員利用了一個豐富的數(shù)據(jù)集,該數(shù)據(jù)集部署在全美國范圍內(nèi),每年應(yīng)用于大約2億美國人,大型衛(wèi)生系統(tǒng)依靠這種算法將患者篩選為“高風險護理管理”(high-risk care management)項目的補助對象。大多數(shù)衛(wèi)生系統(tǒng)將這些項目作為人口健康管理工作的基石,它們被廣泛認為能夠有效提高健康管理結(jié)果和滿意度,同時降低成本。

衛(wèi)生系統(tǒng)做出了一個關(guān)鍵的假設(shè):那些有最大護理需求的人將從該計劃中受益最多。在這種假設(shè)下,篩選項目支持對象問題變成了一個純預(yù)測策略問題。然后,開發(fā)人員根據(jù)過去的數(shù)據(jù)構(gòu)建算法,以預(yù)測未來的醫(yī)療保健需求。

數(shù)據(jù)和分析策略

通過與一家大型學(xué)術(shù)醫(yī)院的合作,研究者確定了2013年至2015年間登記的所有初級保健患者。研究主要興趣是分析白人和黑人病人之間的差異。研究者通過使用基于患者自我報告的醫(yī)院記錄來形成種族分類。在本研究中,任何被確定為黑人的患者都被認為是黑人。在其余的患者中,那些自我認定為非白種人(如西班牙裔)的患者也被考慮在內(nèi)。其他剩余的人群則被認為是白人。

該研究的主要樣本包括 6079名自認為是黑人的患者和43539名自認為是沒有其他種族或民族的白人患者,并分別觀察了他們11929和88080個患者年(1個患者年代表一個日歷年中為單個患者收集的數(shù)據(jù))。樣本中71.2%的人參加了商業(yè)保險,28.8%的人參加了醫(yī)療保險,平均年齡為50.9歲,其中63%為女性(見表1)。

表1 樣本的描述性統(tǒng)計(分種族)

注:BP表示 blood pressure;LDL表示 low-density lipoprotein。

對于這些患者,研究者獲得了每個患者年生成的算法風險評分。超過第97百分位的患者將被自動識別為項目的登記對象。那些風險評分超過55%的人會被推薦給他們的初級保健醫(yī)生,醫(yī)生會根據(jù)病人的背景數(shù)據(jù),考慮患者是否參選該計劃。該研究重點關(guān)注算法在現(xiàn)實世界中最相關(guān)的指標上,這些指標與算法偏差校準緊密相關(guān)(形式上,比較黑人B和白人W,E[Y|R,W]=E[Y|R,B]表示不存在偏差)。該研究將患者i在第t年的算法風險評分(Ri,t)(根據(jù)前一年的保險索賠數(shù)據(jù)Xi,t-1計算得出)與患者的實際健康數(shù)據(jù)(Hi,t)進行比較,評估算法風險評分在健康結(jié)果評估中的校準情況。該研究還探討了算法在成本Ci,t方面的校準情況。健康的測量是采用電子健康記錄數(shù)據(jù)中的診斷數(shù)據(jù)、實驗室生物測量數(shù)據(jù)和反映慢性病嚴重程度的生理指標。成本的測量采用的保險索賠數(shù)據(jù),包括門診和急診、住院和醫(yī)療保健成本。

基于風險得分的健康差異

研究首先分種族計算出衡量健康狀況的一個總體標準,即活躍慢性疾病的數(shù)量(或“共病評分”,這是一種在醫(yī)學(xué)研究中廣泛使用的指標),并以算法得出的風險評分為基準進行分析。圖1A顯示,在相同的算法預(yù)測風險水平下,黑人的疾病負擔明顯高于白人。

預(yù)測差異對患者意味著什么呢?算法分數(shù)是決定患者未來是否參加護理項目的關(guān)鍵因素。因此,正如研究者所料,健康程度較低的黑人與健康程度較高的白人的風險得分相近,這就是項目篩查中存在重大偏差的證據(jù)。

該研究進一步通過模擬一個基于風險的的但健康沒有差距的反事實世界來量化地展示這一點。具體來說,在某個風險閾值下,識別出Ri > a的邊緣上白人患者(i),并將該患者的健康狀況與Rj < a的邊緣下黑人患者(j)的健康狀況進行比較。如果Hi > Hj(即根據(jù)慢性疾病的數(shù)量測量的健康狀況),將(更健康但在邊緣上的)白人患者替換為(病情更嚴重但在邊緣下的)黑人患者。該模擬一直重復(fù)這個過程,直到Hi = Hj,以模擬一個黑人和白人之間沒有預(yù)測偏差的算法。圖1B顯示了模擬的結(jié)果:在所有高于第50百分位的風險閾值下,該程序?qū)@著增加黑人患者的比例。

圖1 按種族劃分的慢性病數(shù)量與算法預(yù)測風險的對比

然后,該研究通過更多維的生物標志物來衡量患者的健康狀況,這些生物標志物用來衡量最常見的慢性病的嚴重程度(如表1所示)。在所有這些重要的健康指標中——代表糖尿病、高血壓、腎衰竭、膽固醇和貧血的嚴重程度——研究發(fā)現(xiàn),在任何算法預(yù)測水平上,黑人都比白人更不健康(如圖2所示),黑人患有更嚴重的高血壓、糖尿病、腎衰竭、貧血和高膽固醇。

圖2 分種族的健康生物標志物與算法預(yù)測風險(A至E)

算法偏差的產(chǎn)生機制

該研究使用的數(shù)據(jù)集的一個獨特點是,研究者可以知道算法的輸入和輸出以及它的目標函數(shù),這為研究偏差產(chǎn)生的機制提供了機會。該算法采用了一大組t-1年的原始保險索賠數(shù)據(jù)Xi,t-1:基礎(chǔ)人口變量(例如:年齡,性別),保險類型,診斷和程序代碼,藥物和詳細的成本。值得注意的是,該算法特別排除了種族。該算法使用以上這些數(shù)據(jù)來預(yù)測Yi,t。在這種情況下,該算法將t年的醫(yī)療總支出(為簡單起見,研究用“成本”Ct表示)作為標簽。因此,算法對健康需求的預(yù)測實際上是對健康成本的預(yù)測。

作為對這一潛在機制的第一次檢驗,研究計算了已實現(xiàn)成本C相對于預(yù)測風險得分R的分布。在這種情況下,可以稱該算法是無偏的。圖3A顯示,在算法預(yù)測風險的每一個級別,黑人和白人在接下來的一年中(大致)有相同的醫(yī)療成本??傊芯堪l(fā)現(xiàn)在相同的預(yù)測風險得分的情況下,黑人和白人的醫(yī)療成本相似,但健康水平差距明顯。一方面,這是令人驚訝的一個結(jié)果,因為一般情況下,醫(yī)療保健費用和健康需求是高度相關(guān)的,因為正常情況而言,病情越嚴重的患者需要和接受的護理越多。但另一方面,在需要醫(yī)療保健(即健康水平)和接受醫(yī)療保?。▽嶋H醫(yī)療成本)之間,白人和黑人的差距是顯而易見的(如圖3B所示)。在同樣的健康水平下(同樣以慢性病的數(shù)量來衡量),黑人產(chǎn)生的成本比白人更低——平均每年少1801美元。這個結(jié)果表明,算法偏見背后的驅(qū)動力是,即使我們考慮到具體的共病,在同樣的健康狀況下,黑人患者產(chǎn)生的醫(yī)療費用更少。因此,對成本的準確預(yù)測必然意味著對健康的種族偏見。

圖3 分種族——醫(yī)療成本vs算法預(yù)測風險、醫(yī)療成本vs健康程度

標簽選擇實驗

上述的研究發(fā)現(xiàn)強調(diào)了選擇算法所基于的標簽的重要性。一方面,算法制造商預(yù)測未來成本的選擇是合理的:該計劃的目標,至少部分是為了降低成本,并且有理由認為未來醫(yī)療成本最大的患者可以從該計劃中獲得最大的利益。另一方面,未來成本絕不是唯一合理的選擇。例如,護理管理項目的證據(jù)表明,它們并不是為了在全球范圍內(nèi)降低成本。相反,這些項目主要致力于防止導(dǎo)致災(zāi)難性衛(wèi)生保健利用的急性健康代償失調(diào)(事實上,它們實際上致力于增加其他類別的成本,如初級保健和家庭衛(wèi)生援助)。因此,可避免的未來費用,即與急診和住院相關(guān)的費用,可能是一個有用的預(yù)測標簽?;蛘?,與其預(yù)測成本,也可以簡單地預(yù)測一個健康指標,如活躍的慢性健康狀況的數(shù)量。因為該項目最終旨在改善這些疾病的管理,與他們接觸最多的患者也可能是一個有希望部署預(yù)防性干預(yù)措施的群體。

通過對數(shù)據(jù)集的一系列實驗,就可以了解標簽選擇如何影響預(yù)測性能和種族偏見。研究開發(fā)了三種新的預(yù)測算法,它們都以相同的方式進行訓(xùn)練,以預(yù)測以下結(jié)果:t年的總成本(這是根據(jù)研究者自己的數(shù)據(jù)集而不是國家訓(xùn)練集進行的成本預(yù)測)、t年的可避免成本(由于急診和住院產(chǎn)生的費用)和t年的健康狀況(通過當年突發(fā)的慢性疾病數(shù)量來衡量)。研究在一個隨機的?訓(xùn)練集中訓(xùn)練所有的模型,并且只顯示來自?測試集的所有結(jié)果。此外,與原始算法一樣,研究者將種族變量從特征集中排除。

表2顯示了這些實驗的結(jié)果。第一個發(fā)現(xiàn)是,所有的算法都表現(xiàn)得相當好,不僅在訓(xùn)練集上表現(xiàn)得好,在其他結(jié)果預(yù)測上也表現(xiàn)良好:所有算法的結(jié)果在97百分位或以上是非常相似的。各種算法表現(xiàn)的最大差異體現(xiàn)在成本預(yù)測上:從預(yù)測的總成本來看,成本預(yù)測器在第97個百分點或以上產(chǎn)生的成本比例為16.5%,而慢性疾病預(yù)測器為12.1%。

然后實驗測試了標簽選擇偏差,其定義類似于上面的校準偏差:對于兩種被訓(xùn)練來預(yù)測Y和Y'的算法,并使用t來作為高風險組的閾值,實驗將測試p[B|R>τ]=p[B|R'>τ](這里p表示概率,B表示黑人患者)。實驗發(fā)現(xiàn),最高風險群體的種族構(gòu)成在不同算法之間的差異比成本差異要大得多:處于或高于這些風險水平的黑人患者比例從基于成本預(yù)測值的14.1%到基于慢性疾病預(yù)測值的26.7%不等。

表2 用替代標簽上訓(xùn)練的預(yù)測器的性能

算法與人類判斷的關(guān)系

如上所述,該算法不能單獨用于做計劃的注冊決策。相反,它被用作一種篩查工具,部分是為了提醒初級保健醫(yī)生注意高?;颊?。具體來說,對于處于或高于某個預(yù)測風險水平(第55百分位)的患者,醫(yī)生會收到來自患者電子健康記錄和保險索賠的背景信息,并被提示考慮是否將他們納入該計劃。因此,已實現(xiàn)的注冊決策在很大程度上反映了醫(yī)生對算法預(yù)測的反應(yīng),以及與資格相關(guān)的其他因素。

表3顯示了參加該計劃的人員的統(tǒng)計數(shù)據(jù),占觀察樣本的1.3%:參加計劃的人員中有19.2%是黑人(而整個樣本中有11.9%是黑人),占所有費用的2.9%,占整個樣本中所有活動慢性病的3.3%。然后研究進行了四次反事實模擬,這些模擬僅使用可觀察的因素,而不是許多未觀察到的也影響注冊的行政和人為的因素。首先,實驗在原始算法預(yù)測的風險區(qū)間的每個百分位數(shù)內(nèi)計算實際的項目注冊率,并在每個風險區(qū)間中隨機抽取患者進行注冊。該模擬模擬了以算法分數(shù)為條件的“種族盲”注冊,會產(chǎn)生18.3%的黑人注冊人口(而觀察到的比例為19.2%;P = 0.8348)。第二種方法不是進行隨機抽樣,而是在一個風險區(qū)間內(nèi)對那些活動期慢性疾病預(yù)測數(shù)最高的患者進行抽樣(使用上述的實驗算法),這將產(chǎn)生26.9%的黑人人口。最后,實驗將以上兩種方案與簡單地將預(yù)測成本最高或活動慢性疾病數(shù)量最高的患者分配到該計劃(也使用上述算法)進行比較,這將分別產(chǎn)生17.2%和29.2%的黑人患者。因此,盡管醫(yī)生確實糾正了算法的一小部分偏差,但他們貢獻的程度遠遠少于因為使用不同標簽訓(xùn)練算法而造成的偏差。

表3 醫(yī)生的決策VS算法預(yù)測

討論

無論是在衛(wèi)生部門還是在其他地方,歸因于標簽選擇的偏差是一個理解算法中偏差的有用的框架,這是因為標簽通常反映了結(jié)構(gòu)不平等。這種偏差產(chǎn)生機制尤其有害,因為它可能來自合理的選擇:在考慮整體預(yù)測質(zhì)量的傳統(tǒng)指標中,成本似乎是健康的有效代理指標,但仍然產(chǎn)生很大的偏差。

完成上述分析后,研究者聯(lián)系了算法制造商,對研究的結(jié)果進行了初步討論。作為回應(yīng),制造商獨立復(fù)制了研究人員對其3695943名商業(yè)保險患者的數(shù)據(jù)集的分析。這項工作進一步證實了研究的結(jié)果——通過在他們的數(shù)據(jù)集中計算的預(yù)測偏差的一項測量,在同樣的風險評分條件下,黑人患者比白人患者多患有48772種活躍的慢性疾病——這說明了偏差是如何在無意中產(chǎn)生的。

為了解決這個問題,研究者和算法制造商開始一起試驗解決方案。第一步,研究人員建議使用現(xiàn)有的模型基礎(chǔ)設(shè)施(樣本、預(yù)測器、訓(xùn)練過程等),但改變標簽:新創(chuàng)建一個將健康預(yù)測與成本預(yù)測相結(jié)合的指數(shù)變量,而不單是未來成本。根據(jù)風險評分,這種方法將黑人過度活躍的慢性疾病的數(shù)量減少到7758例,偏差減少了84%。在這些結(jié)果的基礎(chǔ)上,研究人員與算法制造商正在建立一個持續(xù)的合作關(guān)系,將表3的結(jié)果轉(zhuǎn)化為一個更好的基于多維度健康指標的預(yù)測器,目標是在未來一輪算法開發(fā)中應(yīng)用這些改進。這些結(jié)果表明標簽偏差是可以修復(fù)的,而不需要改變擬合算法的程序。相反,人們必須改變?yōu)樗惴ㄌ峁┑臄?shù)據(jù)——特別是給它的標簽。生成新的標簽需要對相關(guān)領(lǐng)域的深入理解,識別和提取相關(guān)數(shù)據(jù)元素的能力,以及迭代和實驗的能力。

推薦文獻

Obermeyer, Z., Powers, B., Vogeli, C., & Mullainathan, S. (2019). Dissecting racial bias in an algorithm used to manage the health of populations. 366(6464), 447-453. doi:10.1126/science.aax2342 %J Science

推薦人

政光景,中山大學(xué)社會學(xué)專業(yè)在讀博士。研究方向:計算社會學(xué)(文本分析方向)、死亡社會學(xué)、道德社會學(xué)。

原標題:《剖析用于人口健康管理的算法中的種族偏見》

閱讀原文

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋