- +1
深勢科技推出蛋白質(zhì)結(jié)構(gòu)預(yù)測工具:完全開源,精度和國外相當(dāng)
蛋白質(zhì)是生命的物質(zhì)基礎(chǔ),每個蛋白質(zhì)的氨基酸鏈扭曲、折疊、纏繞成復(fù)雜的結(jié)構(gòu),想要破解這種結(jié)構(gòu)通常需要花很長的時間,甚至難以完成。截至目前,約有10萬個蛋白質(zhì)的結(jié)構(gòu)已經(jīng)用實驗方法得到了解析,但這在已經(jīng)測序的數(shù)10億計的蛋白質(zhì)中只占了很小一部分。
在蛋白質(zhì)結(jié)構(gòu)解析的幾十年歷史中,X射線晶體學(xué)、核磁共振波譜學(xué)(NMR)、冷凍電鏡(Cryo-SEM)技術(shù)紛紛發(fā)揮了巨大的貢獻。同時,通過蛋白質(zhì)的氨基酸序列來預(yù)測其結(jié)構(gòu)這一設(shè)想也在50多年前就已提出。2020年底,谷歌旗下人工智能公司DeepMind的新模型AlphaFold2帶來了巨大突破,在蛋白質(zhì)結(jié)構(gòu)預(yù)測準(zhǔn)確性方面達到接近人類實驗結(jié)果,讓整個結(jié)構(gòu)生物學(xué)界震驚。
實際上,國內(nèi)的學(xué)術(shù)界和產(chǎn)業(yè)界也在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域緊追國際步伐。澎湃新聞(m.dbgt.com.cn)記者獲悉,12月8日,北京深勢科技有限公司(下稱“深勢科技”)宣布推出蛋白質(zhì)結(jié)構(gòu)預(yù)測工具 Uni-Fold,這是蛋白質(zhì)結(jié)構(gòu)研究領(lǐng)域首款完全開源并成功復(fù)現(xiàn)大規(guī)模訓(xùn)練的工具。
據(jù)介紹,在相同的測試條件下,Uni-Fold 的預(yù)測精度超越了華盛頓大學(xué)蛋白設(shè)計研究所David Baker教授課題組研發(fā)的RoseTTAFold,與DeepMind官方發(fā)布的AlphaFold2模型接近。深勢科技團隊使用Uni-Fold對CASP14蛋白預(yù)測任務(wù)中的序列數(shù)據(jù)集進行了直接測試,平均 Cα-lDDT 達到82.6。此外,Uni-Fold 的推理代碼更加輕量、高效,在相同硬件環(huán)境下,能夠獲得與公布的AlphaFold2代碼相比2-3倍的效率提升。

Uni-Fold預(yù)測的蛋白結(jié)構(gòu)。灰色為實驗結(jié)果;藍(lán)色為預(yù)測結(jié)果。
深勢科技方面提到,在過去一年里,團隊克服了算法生態(tài)不佳、計算資源有限等難題,成功突破技術(shù)壁壘,復(fù)現(xiàn)了AlphaFold2的訓(xùn)練過程,并決定將訓(xùn)練代碼全部開源,讓這項高精度的蛋白質(zhì)結(jié)構(gòu)計算預(yù)測軟件真正惠及結(jié)構(gòu)生物學(xué)領(lǐng)域研究者。
澎湃新聞記者此前報道,北京時間7月15日,DeepMind團隊在頂級學(xué)術(shù)期刊《自然》(Nature)以“加快評審文章”(Accelerated Article Preview)形式在線發(fā)表了一篇題為“Highly accurate protein structure prediction with AlphaFold”的論文,全面詳述了2020年年底造成轟動的這一模型,并首次對外分享開源代碼。
DeepMind團隊當(dāng)時向澎湃新聞(m.dbgt.com.cn)記者提供了一份聲明,公司創(chuàng)始人兼首席執(zhí)行官Demis Hassabis在聲明中表示,去年在CASP14大會上我們揭曉了一個可以將蛋白質(zhì)3D結(jié)構(gòu)預(yù)測精確到原子水平的全新AlphaFold系統(tǒng),此后我們承諾會分享我們的方法,并為科學(xué)共同體提供廣泛、免費的獲取途徑。
“今天我們邁出了承諾的第一步,在《自然》期刊上分享AlphaFold的開源代碼,并發(fā)表了系統(tǒng)的完整方法論,詳盡細(xì)致說明AlphaFold是如何做到精確預(yù)測蛋白質(zhì)3D結(jié)構(gòu)的。作為一家致力于推動科學(xué)進步的公司,我們期待看到我們的方法將為科學(xué)界啟發(fā)出什么其他新的研究方法,也期待很快能和大家分享更多我們的新進展?!盚assabis表示。
也就在同一天,另一頂級期刊《科學(xué)》(Science)也在線發(fā)表了另一預(yù)測蛋白質(zhì)結(jié)構(gòu)的研究文章,題為“Accurate prediction of protein structures and interactions using a three-track neural network”。來自華盛頓大學(xué)、哈佛大學(xué)、德克薩斯大學(xué)西南醫(yī)學(xué)中心等團隊的研究人員開發(fā)了新的深度學(xué)習(xí)工具RoseTTAFold,其擁有媲美AlphaFold2的蛋白質(zhì)結(jié)構(gòu)預(yù)測超高準(zhǔn)確度,而且更快、所需計算機處理能力更低。同樣,研究團隊也對外分享了開源代碼。
清華大學(xué)生命科學(xué)學(xué)院院長、高精尖中心執(zhí)行主任王宏偉在接受澎湃新聞(m.dbgt.com.cn)記者采訪時曾表示,“高質(zhì)量結(jié)構(gòu)預(yù)測的源代碼開放對整個科學(xué)界尤其是結(jié)構(gòu)生物學(xué)領(lǐng)域的促進作用必然是巨大的?!彼u價道,對于DeepMind這樣一家商業(yè)公司來說,“團隊愿意向公眾分享代碼,是一個新型科研范式的突破,將整體上有利于人類更好地探索未知?!?/p>
不過,深勢科技此次也提到一點,盡管DeepMind在半年后開源了AlphaFold2模型的推理代碼,但其訓(xùn)練代碼并未被公布,且模型不可商用。研究者難以通過訓(xùn)練或調(diào)整模型進一步提升 AlphaFold2 的表現(xiàn),或遷移至更多應(yīng)用場景,如蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測、蛋白質(zhì)與小分子相互作用、與電鏡實驗結(jié)合等。此外,該代碼基于Google自研的可微分計算框架JAX及TPU硬件平臺開發(fā),高度依賴Google生態(tài)系統(tǒng),造成了一定的使用限制。
深勢科技的Uni-Fold則克服了AlphaFold2未開源訓(xùn)練代碼、硬件支持單一、模型不可商用等局限性,在訓(xùn)練與推理環(huán)節(jié)進行了 NVIDIA GPU上的適配、性能優(yōu)化及功能完善等工作,為更多人參與推動領(lǐng)域進一步發(fā)展提供了基礎(chǔ)。
中科院院士、北京大學(xué)教授、深勢科技首席科學(xué)顧問鄂維南表示,“盡管DeepMind開源了推理代碼,但模型的訓(xùn)練技術(shù)才是核心競爭力。在資源比較匱乏的情況下,深勢科技團隊在較短時間內(nèi)實現(xiàn)模型訓(xùn)練、開源訓(xùn)練代碼,這是很不容易的。深勢科技在物理模型方面具備豐富的經(jīng)驗,Uni-Fold進一步彌補了團隊在數(shù)據(jù)驅(qū)動方面的短板。下一步,物理模型和數(shù)據(jù)驅(qū)動結(jié)合的解決方案將為蛋白結(jié)構(gòu)和藥物設(shè)計行業(yè)提供更好的基礎(chǔ)?!?/p>
對于開源,深勢科技聯(lián)合創(chuàng)始人兼首席科學(xué)家張林峰博士在接受澎湃新聞(m.dbgt.com.cn)記者專訪時曾表示,開源實際上是一個協(xié)同的研發(fā),讓各行各業(yè)的人用,其實也是接受各行各業(yè)的評審?!敖鉀Q方案都是一個不斷融合的過程,融合的過程中一定會有很多頻繁地從實踐中抽象問題、解決問題,再反作用于實踐的這樣的一個迭代的過程,我們也是希望通過開源社區(qū)能夠快速地把事情做好?!?/p>
據(jù)悉,過去三年,深勢科技致力于推動Deep Potential系列開源解決方案的普及與DeepModeling開源社區(qū)的發(fā)展。目前,社區(qū)中的開源軟件已得到國內(nèi)外一千余個研究組的近萬名科學(xué)家使用,涉及物理、化學(xué)、材料、生物、地質(zhì)等多個領(lǐng)域,形成了良好的“飛輪效應(yīng)”。

Uni-Fold在深勢科技Hermite藥物設(shè)計平臺上的使用。
目前,Uni-Fold相應(yīng)解決方案已集成至深勢科技自主研發(fā)的藥物設(shè)計平臺 Hermite。深勢科技方面稱,作為藥物設(shè)計的第一環(huán)節(jié),Uni-Fold 將與深勢科技AI輔助計算模擬的算法有機銜接,并與電鏡實驗技術(shù)相結(jié)合,為藥物設(shè)計領(lǐng)域打造一套模擬-AI-實驗三者驅(qū)動的解決方案。
深勢科技成立于2018年,致力于以新一代分子模擬技術(shù)解決微觀尺度工業(yè)設(shè)計難題,以打造切實服務(wù)于藥企、材料商和科研機構(gòu)的模擬研發(fā)平臺為主要業(yè)務(wù)方向。該公司核心團隊由中國科學(xué)院院士鄂維南等人領(lǐng)銜,主要來自世界一流高校、科研機構(gòu)和企業(yè),科研隊伍由物理建模、數(shù)值算法、機器學(xué)習(xí)、高性能計算及藥物和材料計算等多個領(lǐng)域的數(shù)十名優(yōu)秀青年科學(xué)家構(gòu)成。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




