中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

使用B細(xì)胞和T細(xì)胞受體序列的機器學(xué)習(xí)進行疾病診斷

2025-04-17 11:56
來源:澎湃新聞·澎湃號·湃客
字號

設(shè)計了實驗方案和數(shù)據(jù)分析框架,用于識別與感染性疾病、免疫性疾病或疫苗接種等干預(yù)措施相關(guān)的人類BCR重鏈和TCRβ鏈特征。該方法名為“免疫診斷機器學(xué)習(xí)”(Mal-ID),結(jié)合了傳統(tǒng)免疫學(xué)分析(如檢測同一疾病個體間共享序列)與人工智能(AI)蛋白質(zhì)序列模型(稱為蛋白質(zhì)語言模型)衍生的復(fù)雜特征。盡管AI系統(tǒng)的決策過程可能難以解釋,但該團隊開發(fā)了理解模型診斷預(yù)測原理的方法。

技術(shù)實現(xiàn)路徑如下圖所示:

從血液樣本到疾病分類的免疫受體測序流程:對593個體進行B/T細(xì)胞受體測序后,通過(1)受體群體/“庫”組成分析;(2)決定抗原特異性的CDR3序列區(qū)域聚類;(3)蛋白質(zhì)語言建模,最終基于BCR/TCR信息實現(xiàn)高精度疾病分類(交叉驗證中取得優(yōu)異的多分類AUROC評分)。

一、Mal-ID技術(shù)框架

圖1. Mal-ID技術(shù)框架

首先從不同疾病狀態(tài)患者的血液樣本中獲取BCR重鏈和TCRβ鏈的基因庫數(shù)據(jù)(A部分);隨后采用三類特征模型進行分析——包括基因片段使用頻率與突變率(模型1)、CDR3序列聚類(模型2)和基于蛋白質(zhì)語言模型的CDR3結(jié)構(gòu)預(yù)測(模型3)(B部分);通過集成6個基礎(chǔ)模型(3個BCR+3個TCR)構(gòu)建邏輯回歸分類器,實現(xiàn)對保留測試集的疾病概率預(yù)測(C部分);該框架支持驗證V基因的疾病特異性信號(D部分),并可根據(jù)臨床需求靈活調(diào)整為多病篩查或單病診斷模式(E部分)。整個流程通過整合免疫受體庫的多維度特征,實現(xiàn)了高精度(AUROC 0.986)的免疫狀態(tài)分類。

二、聯(lián)合分析BCR和TCR數(shù)據(jù)

圖2. Mal-ID通過IgH和TRB序列進行疾病分類

通過整合B細(xì)胞受體(IgH)和T細(xì)胞受體(TRB)序列數(shù)據(jù)進行疾病分類的綜合性能:集成模型在550個獨立測試樣本中實現(xiàn)高精度分類(A),多模型比較顯示結(jié)合BCR和TCR數(shù)據(jù)的集成方法(AUROC0.98)顯著優(yōu)于單一模型或單數(shù)據(jù)類型(B);各疾病類別分類效能均衡(C),且模型對正確預(yù)測結(jié)果具有更高置信度(D)。特別地,成人狼瘡患者的誤分類與較低臨床活動指數(shù)(SLEDAI)相關(guān)(E),表明模型可能捕捉到治療緩解期的免疫特征變化。此外,從多疾病分類器衍生的狼瘡專用診斷模型可靈活調(diào)整閾值實現(xiàn)93%靈敏度/90%特異性的平衡性能(F)。該結(jié)果驗證了聯(lián)合分析BCR和TCR數(shù)據(jù)對提升免疫疾病診斷可靠性的關(guān)鍵作用。

三、語言模型重現(xiàn)免疫學(xué)知識

圖3. 模型3通過蛋白質(zhì)語言嵌入識別的疾病相關(guān)IGHV基因與同種型

模型3通過蛋白質(zhì)語言嵌入技術(shù)識別的疾病特異性IGHV基因和同種型特征:基于SHAP值分析顯示,COVID-19預(yù)測主要依賴IGHV1-24/IGHV2-70基因與IgG同種型(A),HIV與突變型IgM/D和IGHV1-2/IGHV4-34基因顯著相關(guān)(B),流感疫苗接種響應(yīng)集中于IGHV3-23基因及IgG/突變型IgM/D(C),而狼瘡和1型糖尿?。═1D)則分別與IGHV4-34/IGHV4-59基因及IgA(D)、多種同種型特征(E)具有強關(guān)聯(lián)。這些發(fā)現(xiàn)不僅與已知的病原體特異性抗體反應(yīng)(如SARS-CoV-2的IgG優(yōu)勢)和自身免疫病機制(如狼瘡的IgA自身抗體)相吻合,更通過量化不同免疫球蛋白類型的貢獻,揭示了疾病特異性的B細(xì)胞應(yīng)答模式。

圖4. 模型2與模型3從COVID-19患者數(shù)據(jù)中

學(xué)習(xí)SARS-CoV-2抗原特異性序列模式

Mal-ID的模型2(CDR3聚類)和模型3(蛋白質(zhì)語言模型)能夠從COVID-19患者數(shù)據(jù)中自主識別SARS-CoV-2抗原特異性抗體序列特征:模型2通過保守的公共克隆識別(IGHV/IGHJ基因和CDR3長度匹配)可精確檢測部分已知結(jié)合序列(A-D,如IGHV1-24基因中達100%精確度但召回率低),而模型3則展現(xiàn)出更全面的識別能力——在未接觸訓(xùn)練數(shù)據(jù)的情況下,對CoV-AbDab數(shù)據(jù)庫中已驗證的SARS-CoV-2結(jié)合序列的預(yù)測概率顯著高于健康供體序列(E,置換檢驗P=0),跨IGHV基因的AUROC最高達0.78(G),且對模型2未覆蓋的序列仍保持有效區(qū)分(H,AUROC≦0.75)。兩種模型互補性強:模型3在相同精確度下比模型2召回率更高(I),但需權(quán)衡更多假陽性,這一發(fā)現(xiàn)揭示了機器學(xué)習(xí)可從復(fù)雜免疫受體庫中提取抗原特異性信號,為病原體特異性抗體發(fā)現(xiàn)提供了新范式。

最后,作者強調(diào)使用來自大量患者的經(jīng)驗數(shù)據(jù),這些患者持續(xù)收集了IgH和TRB免疫受體測序數(shù)據(jù),這些數(shù)據(jù)伴隨著對批次效應(yīng)和混雜因素的潛在擔(dān)憂,并試圖解決這些問題。對所有樣本使用了標(biāo)準(zhǔn)化的受體測序方案和生物信息學(xué)分析,并確定基于人口統(tǒng)計學(xué)協(xié)變量的模型無法像IgH和TRB特征那樣準(zhǔn)確地對患者免疫狀態(tài)進行分類。從主要分析中保留了患者隊列,并確認(rèn)他們在驗證步驟中被正確分類。來自其他實驗室的完全獨立隊列的性能進一步表明,Mal-ID 泛化于獨立數(shù)據(jù),不適合潛在的、未知的隱藏變量。Mal-ID 框架似乎捕獲了免疫反應(yīng)的基本原理并推廣到單獨的臨床隊列。區(qū)分Covid-19、HIV感染、狼瘡、T1D和健康的任務(wù)被用來證明該方法的潛力。需要額外的測試,以便在臨床研究中確定對具有不同和可變患病率的特定疾病的敏感性和特異性的適當(dāng)臨界值,并進一步評估最佳樣本量和測序深度。該方法的任何結(jié)果都需要根據(jù)患者的其他臨床評估和實驗室測試進行解釋。其他需要解決的重要主題是同一患者可能存在多種疾病或合并癥,針對特定疾病的不同嚴(yán)重程度或亞型的模型開發(fā),使用其他種類含有淋巴細(xì)胞的標(biāo)本(如組織活檢)的價值,以及確定先前模型中未包含的疾病證據(jù)的可能性, 例如在未來大流行中可能發(fā)生的事件。

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋