中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

特稿|AI小樣本訓(xùn)練,16秒精準(zhǔn)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu):自起爐灶有深意

澎湃新聞高級(jí)記者 張靜
2021-12-13 18:25
來源:澎湃新聞
? 科學(xué)湃 >
字號(hào)

2016年,DeepMind人工智能機(jī)器人AlphaGo以4:1的總比分取勝圍棋世界冠軍韓國棋手李世石。這一年,一家剛剛成立的上海AI企業(yè)開始參考AlphaGo開發(fā)一套AI圍棋程序,隨后擊敗世界圍棋冠軍樸廷桓。2020年,DeepMind人工智能程序AlphaFold2快速精準(zhǔn)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),準(zhǔn)確度媲美冷凍電鏡等實(shí)驗(yàn)技術(shù)。一年后,這家本土AI企業(yè)再次推出國產(chǎn)自研蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)平臺(tái)TRFold。

近日,上海天壤智能科技有限公司XLab發(fā)布蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)平臺(tái)TRFold,其最新版本的預(yù)測(cè)精度接近AlphaFold2,并突破AlphaFold2需要超大算力的瓶頸,采取權(quán)重共享的方式節(jié)約算力,預(yù)測(cè)大多數(shù)蛋白質(zhì)鏈所需時(shí)間不超過16秒。

在AlphaFold2已開源的情況下為何還要做人工智能蛋白質(zhì)結(jié)構(gòu)測(cè)序?再做一遍的挑戰(zhàn)在哪?數(shù)據(jù)、算力不足情況下如何訓(xùn)練出一個(gè)好模型?接下來又會(huì)用TRFold做什么?

天壤創(chuàng)始人薛貴榮在接受澎湃新聞(m.dbgt.com.cn)專訪時(shí)表示,AlphaFold2為結(jié)構(gòu)生物學(xué)研究打開了大門,它就像“萊特兄弟的飛機(jī)”,其中的核心技術(shù)一定要自己掌握。如果不參與其中的技術(shù)演變,只能停留在最初的“飛機(jī)”結(jié)構(gòu)。

研發(fā)TRFold也讓薛貴榮意識(shí)到,AlphaFold2另一個(gè)貢獻(xiàn)是其訓(xùn)練方法可以回饋AI,去做更好的AI。

薛貴榮表示,如果每個(gè)模型都需要標(biāo)注10000個(gè)數(shù)據(jù)才能訓(xùn)練,對(duì)AI是一場(chǎng)災(zāi)難。實(shí)際上,數(shù)據(jù)是永遠(yuǎn)不夠的,算力也是永遠(yuǎn)不夠的,這種情況下算法的創(chuàng)新就顯得更加重要了,比如能否用10張圖片跑出一個(gè)好模型。他認(rèn)為,小樣本下的機(jī)器學(xué)習(xí)對(duì)AI來說是個(gè)大挑戰(zhàn),而AI的工業(yè)化生產(chǎn)并不需要那么多數(shù)據(jù),這才是正道。

未來,團(tuán)隊(duì)也將繼續(xù)深入模擬蛋白質(zhì)與蛋白質(zhì)之間的相互作用,基于相互作用可構(gòu)建大規(guī)模相互作用網(wǎng)絡(luò)圖、靶點(diǎn)發(fā)現(xiàn)、突變蛋白質(zhì)結(jié)構(gòu)模擬、抗體模擬等。

TRFold 基于 CASP14 蛋白質(zhì)測(cè)試集的評(píng)估數(shù)據(jù)。綠色:真實(shí)結(jié)構(gòu),藍(lán)色:預(yù)測(cè)結(jié)構(gòu)。

單張GPU下16秒精準(zhǔn)預(yù)測(cè)

蛋白質(zhì)是生命的物質(zhì)基礎(chǔ),其三維結(jié)構(gòu)直接決定了它的功能,一旦三維結(jié)構(gòu)被破壞,蛋白質(zhì)功能隨之喪失或改變,許多疾病就是由體內(nèi)重要的蛋白質(zhì)結(jié)構(gòu)異常所致。

每個(gè)蛋白質(zhì)的氨基酸鏈扭曲、折疊、纏繞成復(fù)雜的結(jié)構(gòu),想要破解這種結(jié)構(gòu)通常需要花很長(zhǎng)時(shí)間,甚至難以完成。截至目前,約有18萬個(gè)蛋白質(zhì)的結(jié)構(gòu)已經(jīng)用實(shí)驗(yàn)方法得到了解析,但這在已經(jīng)測(cè)序的數(shù)十億計(jì)的蛋白質(zhì)中只占了很小一部分。

在蛋白質(zhì)結(jié)構(gòu)解析的幾十年歷史中,X射線晶體學(xué)、核磁共振波譜學(xué)(NMR)、冷凍電鏡(Cryo-SEM)技術(shù)紛紛發(fā)揮了巨大貢獻(xiàn)。但這些傳統(tǒng)方法往往依賴大量試錯(cuò)和昂貴設(shè)備,每種結(jié)構(gòu)的研究都要花數(shù)年時(shí)間。

直到AI的加入,讓單個(gè)蛋白質(zhì)折疊預(yù)測(cè)問題得到基本解決,加速結(jié)構(gòu)生物學(xué)的發(fā)展。2020年,DeepMind人工智能程序AlphaFold2在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽CASP14中首次利用人工智能技術(shù)快速精準(zhǔn)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),準(zhǔn)確度達(dá)到原子級(jí)別,可與冷凍電鏡等實(shí)驗(yàn)技術(shù)相媲美。

而國內(nèi)的學(xué)術(shù)界和產(chǎn)業(yè)界也在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域緊追國際步伐。除了中科院的Falcon、騰訊的TFold、深勢(shì)科技的Uni-Fold,天壤自研蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)平臺(tái)TRFold基于CASP14的蛋白質(zhì)測(cè)試集進(jìn)行企業(yè)內(nèi)測(cè),取得82.7分(TM-Score,評(píng)估蛋白質(zhì)結(jié)構(gòu)拓?fù)湎嗨菩缘闹笜?biāo)),超過華盛頓大學(xué)生物學(xué)家David Baker團(tuán)隊(duì)81.3分的成績(jī),僅次于AlphaFold2的91.1分。

TRFold采取權(quán)重共享的方式節(jié)約算力,算力消耗約AlphaFold2的1/32。在訓(xùn)練時(shí),AlphaFold2使用了128個(gè)TPUv3核心(約等于256張GPU),TRFold僅使用了8張 Nvidia RTX 3090 GPU,以極小算力取得接近AlphaFold2的成績(jī)。

TRFold采用5000萬參數(shù)循環(huán)多軌注意力網(wǎng)絡(luò),同時(shí)支持氨基酸殘基間的距離預(yù)測(cè)和蛋白質(zhì)全鏈結(jié)構(gòu)預(yù)測(cè),400個(gè)氨基酸的蛋白鏈?zhǔn)褂脝螐圢vidia RTX 3090 GPU的預(yù)測(cè)時(shí)間只需16秒,而AlphaFold2預(yù)測(cè)約同樣數(shù)量的氨基酸蛋白鏈則需要70多秒。

在CASP14比賽期間,CASP官方曾發(fā)起一次針對(duì)新型冠狀病毒肺炎的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),天壤基于TRFold提交的模型(nsp6-D2)預(yù)測(cè)結(jié)果還被CASP選為六個(gè)“最具可信度模型”之一。

傳統(tǒng)意義上,單個(gè)蛋白質(zhì)模型的預(yù)測(cè)分?jǐn)?shù)達(dá)到90分以上就與實(shí)驗(yàn)室的預(yù)測(cè)結(jié)果差別不大,薛貴榮表示,TRFold將繼續(xù)迭代,單蛋白的結(jié)構(gòu)模擬只是開始,未來天壤計(jì)劃模擬蛋白質(zhì)與其復(fù)合物的相互作用,包括小分子、多肽、其他蛋白質(zhì)等。

他表示,目前明確的研究方向是繼續(xù)深入模擬蛋白質(zhì)與蛋白質(zhì)之間的相互作用?;谙嗷プ饔每蓸?gòu)建大規(guī)模相互作用網(wǎng)絡(luò)圖,以及靶點(diǎn)發(fā)現(xiàn)、突變蛋白質(zhì)結(jié)構(gòu)模擬、抗體模擬等。

“蛋白質(zhì)將來會(huì)是一個(gè)相互作用網(wǎng)絡(luò),我們獲得這個(gè)作用網(wǎng)絡(luò)以后就可以進(jìn)行深入分析。”薛貴榮說,如果將來每個(gè)人的蛋白質(zhì)結(jié)構(gòu)和作用網(wǎng)絡(luò)能全部測(cè)出,就可以提前通過蛋白質(zhì)內(nèi)部結(jié)構(gòu)的突變分析,預(yù)測(cè)出未來的健康狀況和治療手段。

“這里面能做的事情實(shí)在太多了,我們今天只是海里的水取了一瓢出來看了一下而已?!倍魬?zhàn)也是不言而喻的,多蛋白的相互作用帶來的算力消耗更大,假設(shè)一個(gè)億的蛋白質(zhì)和另外一個(gè)億的蛋白質(zhì)交互,那是一個(gè)億乘一個(gè)億的計(jì)算組合?!斑@個(gè)組合是爆炸的,用什么樣的算法、策略來加速,這是一個(gè)很挑戰(zhàn)的事?!?/p>

薛貴榮

“萊特兄弟的飛機(jī)”

2016年,DeepMind人工智能機(jī)器人AlphaGo約戰(zhàn)圍棋世界冠軍韓國棋手李世石,以4:1的總比分取勝。這一年,剛剛成立的天壤開始參考AlphaGo開發(fā)一套AI圍棋程序。

2018年5月,天壤AI圍棋執(zhí)白子對(duì)戰(zhàn)世界圍棋冠軍樸廷桓,激戰(zhàn)三小時(shí)后樸廷桓認(rèn)負(fù)。而這套AI圍棋程序最后用在了城市交通信號(hào)燈的控制上,幫助緩解交通擁堵。

2019年,天壤涉足蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。薛貴榮常被問到,為何要進(jìn)入蛋白質(zhì)預(yù)測(cè)領(lǐng)域,又或是在AlphaFold2已開源的情況下為何還要做蛋白質(zhì)結(jié)構(gòu)測(cè)序。

“從我們一開始做AI圍棋程序時(shí)就慢慢認(rèn)識(shí)了AI的威力。這么多年來天壤一直希望用AI解決有挑戰(zhàn)的大問題,比如交通,然后是生物。”薛貴榮表示,相對(duì)于交通這樣從宏觀層面用算法調(diào)度,人類對(duì)微觀世界的認(rèn)識(shí)就更有限了。

“我們從2019年開始做這件事,那時(shí)候的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)和今天其實(shí)沒什么大的變化。十來萬有結(jié)構(gòu)的蛋白質(zhì)能不能用算法手段把微觀世界未知的蛋白質(zhì)三維結(jié)構(gòu)刻畫出來,這其實(shí)是一個(gè)很挑戰(zhàn)的事。那時(shí)候有沒有AlphaFold2也不知道,更別談能不能做得出來。”

但如果蛋白質(zhì)預(yù)測(cè)模型能達(dá)到實(shí)驗(yàn)儀器的精度,將是巨大進(jìn)步。幸運(yùn)的是,2020年底,AlphaFold2證明了算法的力量,讓整個(gè)結(jié)構(gòu)生物學(xué)界震驚,掀開了結(jié)構(gòu)生物學(xué)的全新一頁,“以前做一個(gè)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)可能要花一到兩年,突然一個(gè)小時(shí)就能解決。”

蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問題的解決是生命科學(xué)探索的全新起點(diǎn),薛貴榮說,這次變革為整個(gè)行業(yè)帶來很大發(fā)展機(jī)會(huì),技術(shù)突破將重構(gòu)原來生物應(yīng)用層面的許多邏輯,比如制藥流程、疾病治療、個(gè)性化醫(yī)療等。但事實(shí)上,AlphaFold2的開源代碼只是推理代碼,并沒有公開訓(xùn)練代碼。

AlphaFold2的成功是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方向的重大突破,而圍繞蛋白質(zhì)結(jié)構(gòu)功能問題且能夠達(dá)到實(shí)際落地應(yīng)用準(zhǔn)確度要求的AI算法的開發(fā)才剛剛開始,沒有訓(xùn)練模型經(jīng)驗(yàn)或沒有具備能夠訓(xùn)練出AlphaFold2結(jié)果的能力,是無法把該技術(shù)推進(jìn)到解決更深層次的問題的。

“整個(gè)核心技術(shù)還是把控在人家自己手里,今天人家給你東西可以用,至于怎么來的你不知道。”薛貴榮表示。

比如DeepMind團(tuán)隊(duì)10月份發(fā)布的預(yù)測(cè)蛋白質(zhì)復(fù)合體結(jié)構(gòu)的AlphaFold-Multimer就是在AlphaFold2基礎(chǔ)上進(jìn)行微小調(diào)整后,將蛋白質(zhì)與蛋白質(zhì)之間的關(guān)系預(yù)測(cè)出來。這種更深入的研究就必須要有自己搭建底層算法的能力,才能真正應(yīng)用在生物學(xué)領(lǐng)域。

“就像做飛機(jī)一樣,從萊特兄弟發(fā)明第一架飛機(jī)能飛起來,如果中間過程不參與,你永遠(yuǎn)還是停留在當(dāng)時(shí)那個(gè)結(jié)構(gòu)。但今天大飛機(jī)在天上飛起來,能承載那么多人,其中有非常多的研究,很多創(chuàng)新也從中不斷出現(xiàn)?!?/p>

薛貴榮說,今天DeepMind的AlphaFold2就是“萊特兄弟的飛機(jī)”,其中的核心技術(shù)一定要掌握,才能和其他團(tuán)隊(duì)在同一賽道比賽。“AlphaFold不斷往前跑,我們也在不斷追趕他們。”

AlphaFold2“反哺”AI

“我們很長(zhǎng)時(shí)間一直也是在70分左右徘徊,也徘徊了很長(zhǎng)時(shí)間,最近跳躍到80多分。”在兩年半的研發(fā)時(shí)間里,TRFold經(jīng)歷了幾十個(gè)版本的迭代,當(dāng)前的訓(xùn)練架構(gòu)是從今年初就開始設(shè)計(jì),接著處理數(shù)據(jù)、訓(xùn)練數(shù)據(jù),不停迭代,耗費(fèi)10個(gè)月時(shí)間,目前取得82.7分。

而讓團(tuán)隊(duì)頭痛的挑戰(zhàn)就是算力和內(nèi)存,這決定了模型的大小。薛貴榮介紹,“小模型的記憶力是有限的,模型越大記憶能力就越強(qiáng),但模型越大對(duì)應(yīng)的算力和內(nèi)存需求就越大?!痹谟?xùn)練資源有限的情況下,團(tuán)隊(duì)從數(shù)據(jù)和網(wǎng)絡(luò)設(shè)計(jì)上做出改進(jìn),在算力巨大差距的情況下實(shí)現(xiàn)了相對(duì)較好的結(jié)果。

“在后續(xù)構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)的過程中,涉及一個(gè)蛋白質(zhì)和另一個(gè)蛋白質(zhì)的相互作用,以及多個(gè)蛋白質(zhì)之間的相互作用,計(jì)算量呈指數(shù)級(jí)增長(zhǎng)。因此,TRFold以較小算力需求快速預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)對(duì)后續(xù)開展深入研究具有深遠(yuǎn)意義。”天壤XLab團(tuán)隊(duì)負(fù)責(zé)人苗洪江表示。

數(shù)據(jù)是機(jī)器學(xué)習(xí)的燃料,但相比以往圖像識(shí)別機(jī)器學(xué)習(xí)算法需要依靠百萬張圖片數(shù)據(jù)來訓(xùn)練模型和系統(tǒng),用實(shí)驗(yàn)方法已經(jīng)解析的蛋白質(zhì)結(jié)構(gòu)只有十幾萬個(gè)。機(jī)器學(xué)習(xí)大牛吳恩達(dá)認(rèn)為,人工智能落地的挑戰(zhàn)之一是小數(shù)據(jù)的問題,如何使機(jī)器學(xué)習(xí)即使面對(duì)小數(shù)據(jù)也能工作。

而這也是困擾薛貴榮的問題。他和苗洪江第一天見面聊就在探討,有結(jié)構(gòu)的蛋白質(zhì)數(shù)據(jù)夠不夠,能不能訓(xùn)練出一個(gè)滿足效果的模型,還是說再等冷凍電鏡10年,等50萬數(shù)據(jù)出來就夠了?!澳菚r(shí)候我們也很擔(dān)心,我們就怕這個(gè)領(lǐng)域做下去真的是10年以后的事了?!?/p>

但AlphaFold2證明,通過算法和模型設(shè)計(jì)、蒸餾數(shù)據(jù)等手段,是可以取得好結(jié)果的。相比AlphaFold2,TRFold的算法模型僅采用少量的真實(shí)數(shù)據(jù)訓(xùn)練,即從多個(gè)宏蛋白質(zhì)組序列庫中尋找出蘊(yùn)含更精準(zhǔn)共進(jìn)化信息的多序列排列,使模型在訓(xùn)練過程中能夠獲得對(duì)真實(shí)共進(jìn)化信息更好的識(shí)別能力,從而取得對(duì)氨基酸殘基距離和坐標(biāo)更準(zhǔn)確的預(yù)測(cè)結(jié)果。團(tuán)隊(duì)有望在近期加入蒸餾數(shù)據(jù)增強(qiáng)工作,進(jìn)一步提高模型的預(yù)測(cè)和泛化能力。

回過頭來看,薛貴榮認(rèn)為,除了為結(jié)構(gòu)生物學(xué)研究打開了大門,AlphaFold2另一個(gè)貢獻(xiàn)是其訓(xùn)練方法可以回饋AI,去做更好的AI。

“AI三個(gè)步驟,數(shù)據(jù)標(biāo)注準(zhǔn)備好,算法設(shè)計(jì)好,目標(biāo)要想好,有了這三件事再加上算力支持才能做AI。”但實(shí)際上,數(shù)據(jù)是永遠(yuǎn)不夠的,算力也是永遠(yuǎn)不夠的,這種情況下算法的創(chuàng)新就顯得更加重要了。

“10張圖片能不能出來一個(gè)很好的模型?別變成給你10000張圖片能不能出來一個(gè)好的模型。小樣本情況下的機(jī)器學(xué)習(xí)能不能做好,其實(shí)這對(duì)整個(gè)AI領(lǐng)域是一個(gè)很大的挑戰(zhàn),因?yàn)橹挥行颖静拍芫邆湟?guī)?;?、工業(yè)化的生產(chǎn)能力?!毖F榮表示,如果每個(gè)模型都需要標(biāo)注10000個(gè)數(shù)據(jù)才能訓(xùn)練,數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展勢(shì)頭會(huì)很好,但對(duì)AI來講是一場(chǎng)災(zāi)難。

“做什么事都要標(biāo)大量的數(shù)據(jù)怎么玩得下去?人工智能偏人工了。我們真正要做的是把智能這塊做強(qiáng),把人工這塊限制在一個(gè)框框內(nèi),這才是我們真正講的從人工智能走向機(jī)器智能?!睆腁lphaFold到AlphaFold2,薛貴榮認(rèn)為,這就是人工智能走向機(jī)器智能的巨大變化。AI的工業(yè)化生產(chǎn)并不需要那么多數(shù)據(jù),這才是正道。

    責(zé)任編輯:李躍群
    圖片編輯:施佳慧
    校對(duì):丁曉
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋