- +1
專訪許錦波:預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)二十余載,這條路如何從冷清到熱鬧
DNA儲(chǔ)存著我們的遺傳信息,然而在細(xì)胞中真正執(zhí)行功能的是蛋白質(zhì)。每個(gè)蛋白質(zhì)的氨基酸鏈扭曲、折疊、纏繞成復(fù)雜的結(jié)構(gòu),“看清”它們的結(jié)構(gòu)對(duì)理解其功能至關(guān)重要。但想要破解這種結(jié)構(gòu)通常需要花很長(zhǎng)的時(shí)間,有些甚至難以完成。
“用機(jī)器學(xué)習(xí)去研究蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),在這個(gè)領(lǐng)域?qū)儆谏贁?shù)派。一直到2016年,甚至到2018年,這個(gè)領(lǐng)域大部分人都還在試圖用能量?jī)?yōu)化,而不是機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)去研究這個(gè)問(wèn)題。”美國(guó)芝加哥豐田計(jì)算技術(shù)研究所教授、北京大學(xué)客座教授許錦波在接受澎湃新聞(m.dbgt.com.cn)記者專訪時(shí)如是表示。
許錦波被業(yè)界譽(yù)為“AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)全球第一人”。早在2016年,他開(kāi)發(fā)的RaptorX-Contact方法,首次證明了深度學(xué)習(xí)方法預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的可行性,讓始終在“門口”徘徊的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)終于邁出實(shí)質(zhì)性的一步,也自此掀起了AI蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的熱潮。

美國(guó)芝加哥豐田計(jì)算技術(shù)研究所教授、北京大學(xué)客座教授許錦波。
現(xiàn)年48歲的許錦波從小就是一名不折不扣的“學(xué)霸”。1990,16歲的許錦波在全國(guó)高中數(shù)學(xué)聯(lián)賽中獲江西賽區(qū)第一名,這也是當(dāng)時(shí)江西臨川縣首次獲得該類獎(jiǎng)項(xiàng)殊榮。1991年,因?yàn)樵跀?shù)學(xué)競(jìng)賽中的優(yōu)異成績(jī),他從臨川一中被保送至中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)系,1999年獲得中國(guó)科學(xué)院計(jì)算所碩士學(xué)位。2003年,許錦波獲加拿大滑鐵盧大學(xué)博士學(xué)位,之后任該校研究助理教授、麻省理工學(xué)院博士后研究員。
2001年,尚在攻讀博士學(xué)位的許錦波開(kāi)始接觸計(jì)算生物學(xué),彼時(shí)的導(dǎo)師提議,“有一個(gè)很難的問(wèn)題,就是研究蛋白質(zhì)折疊,想不想做?”在此后的二十余年時(shí)間里,許錦波研究的重要課題之一就是開(kāi)發(fā)和優(yōu)化軟件,去無(wú)限縮小蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)結(jié)果和真實(shí)構(gòu)型之間的差距。
近日,在未來(lái)論壇主辦的2022《理解未來(lái)》科學(xué)講座01期“AI+蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測(cè)”上,許錦波也首先談到,其實(shí)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這個(gè)問(wèn)題已經(jīng)研究了幾十年,過(guò)去這個(gè)領(lǐng)域一直比較冷清,特別是在2006年到2016年這10年間,“當(dāng)時(shí)大家都覺(jué)得這個(gè)問(wèn)題是沒(méi)辦法做出來(lái)的,所以很多人都離開(kāi)這個(gè)領(lǐng)域去做其他的問(wèn)題了?!?/p>
這樣的冷清已經(jīng)是過(guò)去式。在最近的幾年時(shí)間里,這一領(lǐng)域陸續(xù)獲得突破性的進(jìn)展。2020 年,人工智能預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)也被國(guó)際頂級(jí)學(xué)術(shù)期刊《科學(xué)》雜志評(píng)為十大科學(xué)突破之一?!艾F(xiàn)在人工智能預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)受到的關(guān)注,遠(yuǎn)遠(yuǎn)超過(guò)了過(guò)去幾十年來(lái)的關(guān)注?!痹S錦波表示。
然而,在冷清的路上走慣了的許錦波,對(duì)眼下的熱鬧并沒(méi)有表現(xiàn)出太多的興奮。談及這兩年陸續(xù)成立的人工智能應(yīng)用于生命科學(xué)領(lǐng)域的公司,他坦言,“我對(duì)產(chǎn)業(yè)的了解不是很多,也就最近幾個(gè)月開(kāi)始接觸一些產(chǎn)業(yè)界的認(rèn)識(shí)和做投資的人。”當(dāng)然,許錦波認(rèn)為,對(duì)于“AI For science”的產(chǎn)業(yè)化而言,當(dāng)下的確處于一個(gè)比較好的時(shí)候。
但許錦波強(qiáng)調(diào),就人工智能預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)而言,重復(fù)實(shí)現(xiàn)明星公司DeepMind的AlphaFold2不應(yīng)該成為其他團(tuán)隊(duì)的目標(biāo),“這種改進(jìn)只是一個(gè)漸進(jìn)式的改進(jìn),并不是一個(gè)非常大的突破,這個(gè)領(lǐng)域仍然有一系列問(wèn)題真正需要我們?nèi)ソ鉀Q。”對(duì)于人工智能在藥物研發(fā)等生命領(lǐng)域的應(yīng)用,他則表示,“希望能夠做出一些真正有用的東西出來(lái)?!?/p>
始于半個(gè)世紀(jì)前的猜測(cè)
蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),始于科學(xué)家們的一種設(shè)想,是否無(wú)需實(shí)驗(yàn)就能獲取蛋白質(zhì)的三維結(jié)構(gòu)?
在蛋白質(zhì)結(jié)構(gòu)解析的幾十年歷史中,結(jié)構(gòu)生物學(xué)家們用X射線晶體學(xué)、核磁共振波譜學(xué)(NMR)、冷凍電鏡(Cryo-SEM)技術(shù)解析了很多蛋白的結(jié)構(gòu),并以此更好地推進(jìn)疾病機(jī)理、藥物研發(fā)等工作。
然而,這些手段被視作勞心勞力又價(jià)格高昂。截至目前,約有10萬(wàn)個(gè)蛋白質(zhì)的結(jié)構(gòu)已經(jīng)用實(shí)驗(yàn)方法得到了解析,但這在已經(jīng)測(cè)序的數(shù)10億計(jì)的蛋白質(zhì)中只占了很小一部分。
作為學(xué)計(jì)算機(jī)出身的一名科學(xué)家,許錦波對(duì)他研究了近20年的蛋白質(zhì)如此理解:蛋白質(zhì)是由很多氨基酸通過(guò)化學(xué)鍵串聯(lián)在一起,如果把每個(gè)氨基酸看成一個(gè)珠子的話,那么就有20種不同顏色的珠子,這些珠子串在一起形成蛋白質(zhì)的氨基酸系列,每一個(gè)不同的顏色用一個(gè)字母表示,所以蛋白質(zhì)氨基酸序列可以看成是1個(gè)由20個(gè)字母組成的字符串。每個(gè)氨基酸又是由幾十個(gè)原子組成的,所以整個(gè)蛋白質(zhì)是由成千上萬(wàn)個(gè)原子構(gòu)成的,這些原子在細(xì)胞里面有相互作用力,最后形成一個(gè)穩(wěn)定的構(gòu)型。
“我們可以用不同的軟件去把這些結(jié)構(gòu)給顯示出來(lái),但是在利用這些軟件去顯示蛋白質(zhì)構(gòu)型的時(shí)候,我們需要知道這些原子在三維空間中的位置,需要知道它們的三維坐標(biāo),怎么樣才能知道這些三維坐標(biāo)?”許錦波提到,在過(guò)去很多年里,科學(xué)家發(fā)展了三種主要的實(shí)驗(yàn)技術(shù),去測(cè)定這些原子的三維坐標(biāo)。
除了上述提到的三種實(shí)驗(yàn)室技術(shù)之外,科學(xué)家們也在研究,計(jì)算方法的推導(dǎo)是否可行?
許錦波對(duì)澎湃新聞?dòng)浾弑硎荆绹?guó)生物化學(xué)家、1972年諾貝爾化學(xué)獎(jiǎng)得主克里斯蒂安·安芬森(Christian Boehmer Anfinsen)通過(guò)實(shí)驗(yàn)提出了他自己的猜想,“這位實(shí)驗(yàn)學(xué)家的猜測(cè)基本是對(duì)的,他自己做了一些列實(shí)驗(yàn)支持了這個(gè)理論。”
安芬森的工作大部分圍繞蛋白質(zhì)的結(jié)構(gòu)與功能之間的關(guān)聯(lián)性。1961年,他研究了核糖核酸酶可以在變性后重新進(jìn)行折疊,恢復(fù)到原來(lái)的空間結(jié)構(gòu),同時(shí)保留酵素的活性。安芬森因此認(rèn)為,所有造成最終構(gòu)象所需的蛋白質(zhì)信息都被編碼于其氨基酸序列上,即蛋白質(zhì)一級(jí)排序決定三維結(jié)構(gòu)。
上述即被稱為安芬森法則,這也是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的基石。

美國(guó)生物化學(xué)家、1972年諾貝爾化學(xué)獎(jiǎng)得主克里斯蒂安·安芬森。
然而,在隨后的50多年時(shí)間里,科學(xué)家們使用了各種各種的方法,都無(wú)法精確計(jì)算蛋白質(zhì)的三維結(jié)構(gòu)?!霸诎卜疑@個(gè)假設(shè)和理論基礎(chǔ)之下,科學(xué)家們?nèi)プ龅鞍踪|(zhì)折疊預(yù)測(cè),都是從能量?jī)?yōu)化的角度去做。”許錦波解釋,大家普遍認(rèn)為,蛋白質(zhì)是折疊到最小能量狀態(tài),這也意味著,從理論上來(lái)說(shuō),如果能更好地優(yōu)化這個(gè)能量函數(shù),就能夠找到蛋白質(zhì)的最小能量狀態(tài)。
但這一思路有著天然缺陷?!暗谝唬粋€(gè)蛋白質(zhì)是一個(gè)非常大的體系,由成千上萬(wàn)個(gè)原子組成,對(duì)應(yīng)一個(gè)非常巨大的搜索空間,構(gòu)型是千變?nèi)f化的。”許錦波繼續(xù)提出第二個(gè)困難之處,“雖然說(shuō)大家普遍接受蛋白質(zhì)折疊到最小能量狀態(tài),但能量函數(shù)到底是什么樣的?我們本身就對(duì)能量函數(shù)的理解還不是特別好。”
許錦波在博士階段最初也是使用傳統(tǒng)的優(yōu)化算法去研究這一問(wèn)題。2001年,他接下了導(dǎo)師向他拋出的這一課題,第二年即取得了不錯(cuò)的成果,在2002年全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽CAFASP(用于全自動(dòng)高通量蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的評(píng)比)中,奪得冠軍。
回憶當(dāng)時(shí)的成績(jī),許錦波略顯輕描淡寫(xiě),“雖然排名最好,但是意義并沒(méi)有那么大,并沒(méi)有改變這個(gè)問(wèn)題的現(xiàn)狀,只是結(jié)果比別人好一點(diǎn)點(diǎn)而已?!痹谶@一思路下繼續(xù)了一年多之后,他意識(shí)到,傳統(tǒng)的優(yōu)化算法可能不是一個(gè)很好的路徑。
2006年,許錦波開(kāi)始轉(zhuǎn)向機(jī)器學(xué)習(xí),彼時(shí)已組建獨(dú)立實(shí)驗(yàn)室的他認(rèn)為,應(yīng)該改變策略?!拔覀冇脵C(jī)器學(xué)習(xí)做的比傳統(tǒng)的方法好一點(diǎn),在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽中,也取得了很好的成績(jī),比別的組要好一點(diǎn),但也并沒(méi)有特別大的改變?!?/p>
這條路徑一走就又是8年,應(yīng)該也是許錦波科研道路上最冷清的8年,很多人陸續(xù)轉(zhuǎn)行,領(lǐng)域幾無(wú)關(guān)注。
人工智能為什么可以成功
2014年,許錦波開(kāi)始第二次轉(zhuǎn)換途徑。
“2012年,深度學(xué)習(xí)開(kāi)始在圖像識(shí)別中做到了很好的結(jié)果,所以我們?cè)?014年開(kāi)始嘗試用深度學(xué)習(xí)去研究這個(gè)問(wèn)題?!闭嬲龑I納入到許錦波預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的工具箱中,始于這一年。彼時(shí),同領(lǐng)域中只有極少數(shù)人關(guān)注到這一新的工具。
“新方法不是去做能量最優(yōu)化,而是預(yù)測(cè)原子之間的相互作用關(guān)系?!?nbsp;
許錦波進(jìn)一步解釋道,假設(shè)已有一個(gè)氨基酸序列,那么把和這一蛋白質(zhì)同源(同一個(gè)家族)的那些蛋白質(zhì)都找出來(lái),然后把所有這些同一個(gè)家族的蛋白質(zhì)的氨基酸序列都比對(duì)在一起。“多序列對(duì)比下,我們用矩陣去表示蛋白質(zhì)里面氨基酸之間相互作用關(guān)系,然后根據(jù)相互作用關(guān)系矩陣,就可以把蛋白質(zhì)的原子的坐標(biāo)預(yù)測(cè)出來(lái),這是這種新方法的總體思路?!?/p>
當(dāng)然,在總體思路框架下可以有不同的實(shí)現(xiàn)方法,“但新方法的關(guān)鍵點(diǎn)在于,我們能不能準(zhǔn)確地推斷出蛋白質(zhì)里面原子之間或者氨基酸之間的相互作用關(guān)系,這一步是非常關(guān)鍵的?!?/p>
許錦波談到,為了預(yù)測(cè)原子之間的相互作用關(guān)系,科學(xué)家們探索的最早方法是協(xié)同進(jìn)化全局統(tǒng)計(jì)方法(global statistical method for co-evolution analysis)。然而,這種方法只對(duì)極少比例蛋白質(zhì)有效,而往往這些蛋白質(zhì)家族里某些蛋白的三維結(jié)構(gòu)已經(jīng)被實(shí)驗(yàn)技術(shù)測(cè)出來(lái)了,這也意味著用這種方法預(yù)測(cè)的意義并不太大。
他認(rèn)為,真正對(duì)大量的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)其作用的轉(zhuǎn)折之年是2016年。在轉(zhuǎn)向深度學(xué)習(xí)2年之際,許錦波開(kāi)始用深度學(xué)習(xí)預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)。而在此前的2年時(shí)間里,其團(tuán)隊(duì)以更為簡(jiǎn)單的問(wèn)題入手,嘗試預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)構(gòu),即肽鏈主鏈骨架原子的空間位置排布,不涉及氨基酸殘基側(cè)鏈。
“對(duì)于這么一個(gè)簡(jiǎn)單的問(wèn)題能夠做得好,我們認(rèn)為對(duì)于更難的問(wèn)題,也就是預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)應(yīng)該會(huì)有效果?!痹S錦波提到一個(gè)細(xì)節(jié),在2015年其就組織學(xué)生去解決三維結(jié)構(gòu)的問(wèn)題,然而并沒(méi)有實(shí)現(xiàn),“他們不太理解我的想法,因?yàn)槟莻€(gè)時(shí)候在這個(gè)領(lǐng)域沒(méi)有人用深度卷積網(wǎng)絡(luò)去解決這個(gè)問(wèn)題?!?/p>
2016年,騰出一些時(shí)間的許錦波開(kāi)始自己寫(xiě)代碼去實(shí)現(xiàn)自己的算法,“大概在那年暑假的時(shí)候就得到了非常好的結(jié)果,發(fā)現(xiàn)一下子能做得比以前的方法好非常多,2016年秋天,我把結(jié)果寫(xiě)成一篇論文發(fā)布在了網(wǎng)上?!卑l(fā)布后的第一個(gè)月,即在領(lǐng)域內(nèi)引起了一波關(guān)注高潮。
許錦波發(fā)布的正是他開(kāi)發(fā)的第一代人工智能方法RaptorX。該方法基本的原理是,通過(guò)深度卷積殘差網(wǎng)絡(luò)(ResNet),對(duì)蛋白質(zhì)的序列進(jìn)行卷積變換,從中抽取出有效信息,同時(shí)也對(duì)蛋白質(zhì)殘基之間相互作用關(guān)系進(jìn)行卷積變換。通過(guò)這兩者不同的卷積變換,可以非常準(zhǔn)確地預(yù)測(cè)蛋白質(zhì)氨基酸之間的相互作用關(guān)系?!叭缓蠡谶@個(gè)相互作用關(guān)系,我們可以把它的三維結(jié)構(gòu)重構(gòu)出來(lái)?!?/p>
在2016年全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽(CASP12)中,這一尚未完善好的方法即嶄露頭角,“當(dāng)時(shí)已經(jīng)做得非常好,做的比其他傳統(tǒng)方法都要好。”

2017年1月,許錦波將前期成果正式發(fā)表于《PLOS Computational Biology 》,題為“Accurate De Novo Prediction of Protein Contact Map by Ultra-Deep Learning Model”。在這篇論文中,研究團(tuán)隊(duì)展示了通過(guò)使用深度殘差卷積網(wǎng)絡(luò),可以大幅度提高蛋白質(zhì)預(yù)測(cè)的精度,并且這種學(xué)習(xí)方法也很容易推廣到不同類型的蛋白質(zhì)層面,比如一些膜蛋白及蛋白復(fù)合物等的結(jié)構(gòu)。

至今這仍是許錦波最滿意的一篇論文?!拔覀冋撐某鰜?lái)之后,其實(shí)把問(wèn)題定義得很清楚了。從AI的角度來(lái)說(shuō),就是告訴大家這個(gè)問(wèn)題的輸入是什么,輸出是什么,你只要把AI算法做好就行了。至于你用什么AI算法,無(wú)非更多的是工程上和計(jì)算資源上的問(wèn)題?!?/p>
他還向澎湃新聞?dòng)浾呋貞浟艘欢涡〔迩?,研究團(tuán)隊(duì)實(shí)際上最開(kāi)始將論文投到了《自然》(Nature)的一本子刊,然而編輯并不太相信他們的結(jié)果?!耙?yàn)檫@個(gè)問(wèn)題研究很多年了,一直沒(méi)有什么進(jìn)展,他不認(rèn)為我們能做得這么好,另外一本期刊的一個(gè)評(píng)委都不認(rèn)為我們的結(jié)果是可靠的?!?nbsp;
令許錦波欣慰的是,無(wú)論是學(xué)術(shù)界還是產(chǎn)業(yè)界,都在論文發(fā)表之后對(duì)該研究給予了廣泛的關(guān)注。他感受到,總體而言,學(xué)計(jì)算機(jī)出身的人更容易接受他們的結(jié)果,而學(xué)生物化學(xué)或者生物物理的人,因?yàn)榇饲熬筒涣?xí)慣于使用類似的方法,并不太容易接受這項(xiàng)結(jié)果。
值得一提的是,在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域過(guò)去近30年的時(shí)間里,該領(lǐng)域的發(fā)展大致可以分三個(gè)階段。第一個(gè)階段,也就是長(zhǎng)達(dá)20多年的時(shí)間里,在傳統(tǒng)方法之下該領(lǐng)域進(jìn)展非常緩慢;第二個(gè)階段,也就是通過(guò)使用許錦波等人開(kāi)發(fā)的第一代人工智能方法RaptorX,難度較大的蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)精度已被大幅提升;而在第三個(gè)階段,則是目前為止全球表現(xiàn)最好的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)工具,也就是DeepMind在2020年推出的AlphaFold2。“通過(guò)使用注意力機(jī)制網(wǎng)絡(luò),又可以大幅度提高蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的精度。”
在許錦波看來(lái),DeepMind在2017年、2018年之際,實(shí)際上在重新實(shí)現(xiàn)他的算法,“當(dāng)然他們工程上做得比我們好一些。”而對(duì)于DeepMind在AlphaFold2中使用的注意力機(jī)制網(wǎng)絡(luò),其最早被應(yīng)用于自然語(yǔ)言處理中。
“計(jì)算生物學(xué)領(lǐng)域的人知道的并不是很多,最早將這一網(wǎng)絡(luò)真正用到這個(gè)領(lǐng)域的是Facebook,他們沒(méi)有用來(lái)做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),而是用來(lái)對(duì)蛋白質(zhì)序列進(jìn)行建模?!痹S錦波提到,即使后來(lái)計(jì)算生物學(xué)領(lǐng)域的人注意到了基于注意力機(jī)制的網(wǎng)絡(luò),然而該網(wǎng)絡(luò)需要太多的計(jì)算資源,“學(xué)術(shù)界沒(méi)有人有這么多資源去做這件事情。”
許錦波坦言,其團(tuán)隊(duì)在2020年曾經(jīng)考慮如何簡(jiǎn)化基于注意力機(jī)制的網(wǎng)絡(luò),“希望使它能夠在我們的計(jì)算資源上跑起來(lái),這是我當(dāng)時(shí)做的事情,因?yàn)槲覀儧](méi)有幾百塊GPU(顯卡上的芯片)。”相比之下,背靠谷歌的DeepMind完全沒(méi)有這方面的“資源窘境”,可以用很多GPU卡訓(xùn)練他們的模型。
許錦波認(rèn)為,從思想創(chuàng)新而言,AlphaFold2邁的這一步并不沒(méi)有讓人感到非常吃驚的?!罢嬲泽@的是他們能夠一下子調(diào)動(dòng)30個(gè)人去做這個(gè)事情,能夠把它實(shí)現(xiàn)得非常好,我覺(jué)得這是他們的長(zhǎng)處?!?/p>
總體而言,人工智能對(duì)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域起到了非常大的推動(dòng)作用,而過(guò)去這么多年里,為何又只有深度學(xué)習(xí)能夠做到?
許錦波分享了他個(gè)人的理解,首要的前提是,深度學(xué)習(xí)是基于現(xiàn)有的理論基礎(chǔ),特別是進(jìn)化論。“第一,雖然我們沒(méi)有它們的構(gòu)型,但是我們知道,同一個(gè)家族的蛋白質(zhì)結(jié)構(gòu)應(yīng)該是很相似的。第二,同一個(gè)蛋白里面空間中相鄰的氨基酸互相影響、共同進(jìn)化,這點(diǎn)也非常重要?!?/p>
除理論基礎(chǔ)外,許錦波認(rèn)為對(duì)于訓(xùn)練深度學(xué)習(xí)算法而言,數(shù)據(jù)當(dāng)然必不可少。“現(xiàn)在我們有了大量的蛋白質(zhì)序列數(shù)據(jù),可以依據(jù)同一個(gè)家族里面蛋白質(zhì)的進(jìn)化關(guān)系去推斷原子在空間中的距離,這是非常重要的。另外一個(gè)很重要的數(shù)據(jù)源是我們也有了一些蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù),雖然說(shuō)沒(méi)有那么多,但現(xiàn)在我們至少有一些,那么通過(guò)指導(dǎo)深度學(xué)習(xí)模型去學(xué)習(xí)氨基酸共進(jìn)化與原子間中距離的關(guān)系?!?/p>
比重復(fù)實(shí)現(xiàn)AlphaFold2更重要的事情
尤其在AlphaFold2出現(xiàn)之后,人工智能預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)這一領(lǐng)域受到了空前的關(guān)注,終于“熱鬧”了起來(lái)。
許錦波總結(jié)認(rèn)為,人工智能的確顛覆了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),而這會(huì)帶來(lái)非常大的改變,尤其對(duì)分子生物學(xué)科來(lái)說(shuō),“我想這個(gè)結(jié)果現(xiàn)在已經(jīng)改變了很多分子生物學(xué)家的研究范式,以前的分子生物學(xué)家基本都基于蛋白質(zhì)的氨基酸序列去分析蛋白質(zhì)的功能,現(xiàn)在很多人都開(kāi)始使用預(yù)測(cè)的結(jié)構(gòu)去做研究、去分析蛋白質(zhì)的功能,所以這是一個(gè)非常大的研究范式的改變?!?/p>
但現(xiàn)在還遠(yuǎn)遠(yuǎn)沒(méi)有到達(dá)終點(diǎn),將來(lái)又如何繼續(xù)推進(jìn)人工智能在結(jié)構(gòu)生物學(xué)甚至更廣泛的生物學(xué)中的應(yīng)用?
許錦波談道,有很多團(tuán)隊(duì)在致力于重復(fù)實(shí)現(xiàn)AlphaFold2,“當(dāng)然這是一條必經(jīng)之路,但這種改進(jìn)只是一種漸進(jìn)式的改進(jìn),即使我們能夠做的好一點(diǎn)點(diǎn),其實(shí)也不是一個(gè)非常大的突破。”他同時(shí)提醒,如果很多團(tuán)隊(duì)或者初創(chuàng)公司一窩蜂去做這件事情,“我覺(jué)得有點(diǎn)浪費(fèi)資源?!?nbsp;
在他看來(lái),那些當(dāng)下解決得還不夠好的問(wèn)題,需要去真正地投入更多的精力。
例如,我們能不能對(duì)一個(gè)孤兒蛋白進(jìn)行非常準(zhǔn)確預(yù)測(cè)?能不能預(yù)測(cè)蛋白質(zhì)的折疊過(guò)程,而不僅僅是最后構(gòu)型?能不能準(zhǔn)確預(yù)測(cè)蛋白質(zhì)復(fù)合物或者一個(gè)多域蛋白的結(jié)構(gòu)?能不能預(yù)測(cè)蛋白質(zhì)和多肽、DNA或者RNA的相互作用?能不能預(yù)測(cè)單點(diǎn)或多點(diǎn)突變對(duì)一個(gè)蛋白質(zhì)結(jié)構(gòu)和功能的影響?
他對(duì)澎湃新聞?dòng)浾哌M(jìn)一步表示,我們對(duì)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的要求取決于我們的目標(biāo)。如果目標(biāo)只是想知道這個(gè)蛋白質(zhì)最終的三維形狀,對(duì)于大部分蛋白質(zhì)來(lái)說(shuō)其實(shí)已經(jīng)做到了這一點(diǎn)?!叭欢F(xiàn)在我們能做的,就是可以把單個(gè)蛋白的結(jié)構(gòu)預(yù)測(cè)得很好。但是對(duì)于蛋白質(zhì)復(fù)合物等更加復(fù)雜的情況,人工智能的方法確實(shí)能做得比以前好很多,但是還沒(méi)有達(dá)到讓人非常滿意的狀態(tài),這個(gè)方向還需要花更多的時(shí)間去研究?!?/p>
許錦波同時(shí)拋出一個(gè)更值得思考的問(wèn)題,“現(xiàn)在所有的成功方法其實(shí)都有點(diǎn)cheating?!边@也是一個(gè)從原理上即存在的問(wèn)題。
不難理解,如此說(shuō)的原因在于,目前的方法需要使用大量的蛋白質(zhì)同源信息,“能夠找到越多的同源蛋白,這種預(yù)測(cè)效果越好。如果沒(méi)有這部分的信息,現(xiàn)在所有的方法都沒(méi)有效果?!痹S錦波說(shuō),在細(xì)胞里面,也就是自然界的蛋白質(zhì)在折疊的時(shí)候,“它并不知道同家族到底有哪些蛋白質(zhì),它自己能夠折疊出來(lái),它不需要知道有多少‘兄弟姐妹’?!?/p>
值得一提的是,許錦波已經(jīng)回國(guó),并決定將重心轉(zhuǎn)移到國(guó)內(nèi)?!皠?chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略是我們國(guó)家綜合國(guó)力發(fā)展的有力保障,”許錦波對(duì)澎湃新聞?dòng)浾弑硎?,“我希望做一些真正原?chuàng)且能落地的東西出來(lái),推動(dòng)科研與產(chǎn)業(yè)化的融合發(fā)展?!?/p>
談到“AI+生命科學(xué)”的產(chǎn)業(yè)應(yīng)用價(jià)值,許錦波表示,目前“AI for Science”的產(chǎn)業(yè)化環(huán)境很好,特別是“AI for BioTech”?!皣?guó)家在‘AI for BioTech’領(lǐng)域非常重視,投資機(jī)構(gòu)也非常支持硬科技領(lǐng)域的早期、長(zhǎng)期投資。”而從產(chǎn)業(yè)角度來(lái)講,他認(rèn)為,由于AI在生物制藥領(lǐng)域?yàn)楦鱾€(gè)環(huán)節(jié)賦能,幫助行業(yè)提升了效率與準(zhǔn)確度,因此AI在該領(lǐng)域的產(chǎn)業(yè)化也具有很好的前景。
值得關(guān)注的是,今年1月,許錦波在北京創(chuàng)立北京分子之心科技有限公司(下稱“分子之心”)。就在4月,該公司宣布已完成數(shù)千萬(wàn)美元天使輪融資,由紅杉中國(guó)領(lǐng)投,百度風(fēng)投、生命園創(chuàng)投基金、NeuX Capital芯航資本 、未來(lái)啟創(chuàng)基金等跟投。分子之心稱,該輪融資將用于進(jìn)一步擴(kuò)大團(tuán)隊(duì)、AI蛋白質(zhì)平臺(tái)的持續(xù)進(jìn)化,以及科研成果的產(chǎn)品化轉(zhuǎn)化。
他對(duì)澎湃新聞?dòng)浾弑硎荆灸壳皟H有一個(gè)很小的團(tuán)隊(duì)在繼續(xù)研究蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的問(wèn)題,“我們更主要的目標(biāo)在于,能不能做各種蛋白質(zhì)的優(yōu)化和設(shè)計(jì)。比如可以把一個(gè)抗體優(yōu)化得更好,使得它能夠跟抗原結(jié)合更好;或者說(shuō)能不能設(shè)計(jì)一個(gè)自然界不存在的蛋白,用它來(lái)做藥或用于其他目的;或者能不能把某一個(gè)酶優(yōu)化得更好。這是現(xiàn)在我們公司的重點(diǎn)?!?/p>
其最后談到,當(dāng)下多學(xué)科的融合比以往更加重要,而如何吸引更多的人加入到交叉學(xué)科,同時(shí)也吸引更多的學(xué)生進(jìn)入到領(lǐng)域內(nèi),這些仍面臨一些挑戰(zhàn)。
許錦波以其自身經(jīng)歷說(shuō)道,“剛進(jìn)入計(jì)算生物學(xué)這個(gè)領(lǐng)域的時(shí)候,我會(huì)發(fā)現(xiàn)我跟生物學(xué)家們的溝通其實(shí)是非常困難的。只有經(jīng)過(guò)一段時(shí)間之后,談話和合作才能繼續(xù)下去,多溝通多交流,我想這是非常重要的?!?/p>
而更為關(guān)鍵的一點(diǎn)是,他認(rèn)為評(píng)估體系應(yīng)當(dāng)做出一些改變?!皬奈业慕?jīng)歷來(lái)看,做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)或者說(shuō)做計(jì)算生物學(xué),以前其實(shí)不太受重視。之前論文都發(fā)表不到特別高影響因子的刊物上,而影響因子又跟這個(gè)領(lǐng)域多少人在做有關(guān)系。如果你用影響因子去評(píng)估一項(xiàng)計(jì)算生物學(xué)的工作的話,往往這些人是比較吃虧的,也進(jìn)而打壓了那些做計(jì)算生物學(xué)的學(xué)生?!?/p>
許錦波的觀點(diǎn)是,大家應(yīng)當(dāng)以比較開(kāi)放的心態(tài),容忍不同領(lǐng)域人的發(fā)展。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




