AlphaFold2 的紀錄,剛剛被刷新了。
最新消息,全球持續(xù)蛋白質(zhì)結(jié)構(gòu)預測競賽 CAMEO(Continous Automated Model EvaluatiOn)上,DeepMind 旗下 AlphaFold2 的紀錄被刷新。
HeliXonAI,一個此前名不見經(jīng)傳的“新面孔”,加冕第一。同時,在全球結(jié)構(gòu)預測領域主要評價指標 lDDT(Local Distance Different Test)中,HeliXonAI 跑分也高達 83.5 分,連續(xù)四周排名第一,遠超第二名的 70.2 分。
HeliXonAI 由此一鳴驚人,成為圈內(nèi)熱議焦點。但隨著幕后團隊浮出水面,如此成績又被認為情理之中。
因為打造團隊華深智藥,正是生物計算領域大牛彭健的創(chuàng)業(yè)公司,也是張亞勤旗下清華 AIR 智能產(chǎn)業(yè)研究院首個公開的孵化項目。
超越 AlphaFold2 的 HeliXonAI
CAMEO(Continous Automated Model EvaluatiOn),全球持續(xù)蛋白質(zhì)結(jié)構(gòu)預測競賽,由瑞士生物信息研究所和巴塞爾大學聯(lián)合舉辦,與 CASP 被認為是結(jié)構(gòu)預測領域最重要的兩項比賽。
但不同于 CASP 的是,CAMEO 的參賽者需要每周預測 20 個由世界范圍內(nèi)的結(jié)構(gòu)生物學家最新破解出結(jié)構(gòu)的蛋白質(zhì)的結(jié)構(gòu),比賽的得分與排名也會每周實時更新。該競賽吸引了全球生物計算領域的最頂尖選手。
諸如華盛頓大學蛋白質(zhì)設計研究所的 David Baker 教授研發(fā)的 RoseTTAFold,百度開發(fā)的 PaFold,和騰訊研發(fā)的 tFold 等模型,都在其中競逐。而華深智藥的結(jié)構(gòu)預測平臺 HeliXonAI,已經(jīng)連續(xù)四周在主要評價指標 lDDT(Local Distance Different Test)上達到 83.5 分,持續(xù)排名世界第一。
在 CAMEO 的結(jié)果中,越靠右表示預測的結(jié)構(gòu)越多,越靠上表示預測的結(jié)構(gòu)越準…… 而現(xiàn)在,牢牢地占據(jù)最右上角的就是 HeliXonAI。
更令人驚喜的是,在上一周 CAMEO 發(fā)布的 17 個目標蛋白質(zhì)上,HeliXonAI 的平均 lDDT 預測精確度,達到了 84.0—— 意味著對 AlphaFold2 的超越。
之前 DeepMind 團隊公開的 AlphaFold2 模型預測精確度,評分在 81.9。并且在另一評價指標 TM-score 上,也有一致的結(jié)果。
HeliXonAI 以 91.6 的評分,同樣超越了 AlphaFold2 的 85.6。相比 RoseTTAFold 和 PaFold 的 76 分,更是數(shù)量級上的超越。
此外,在最新一周的標注為“困難”(hard) 的 7 個蛋白結(jié)構(gòu)中,HeliXonAI 更是進一步拉開差距,在 TM-score 上比第二名 Alphafold2 高出 6 分之多??傊?,不同層面的數(shù)據(jù)結(jié)果都在說明,全球蛋白質(zhì)結(jié)構(gòu)預測的王座,易主了。
HeliXonAI 如何煉成?
眾所周知,蛋白質(zhì)在理解生命科學與藥物開發(fā)中的地位舉足輕重。為了執(zhí)行特定功能,蛋白質(zhì)必須折疊成對應的結(jié)構(gòu)。然而,理解蛋白質(zhì)的三維空間結(jié)構(gòu)一直是生物學中的重大挑戰(zhàn),已經(jīng)困擾生物學家 50 多年…
直到 2020 年由 DeepMind 團隊開發(fā)的 AlphaFold2 模型,在第十四屆國際蛋白質(zhì)結(jié)構(gòu)預測競賽(CASP14)上,幾乎達到冷凍電子顯微鏡等實驗技術(shù)的準確度。一石激起千層浪,引領計算生物領域的標志性變革。
但 AlphaFold2 實際也并非完美,例如在同源信號較弱的情況下預測的誤差較大,對于抗體可變區(qū)域的預測也精度欠佳。華深智藥團隊,也是看到了可改進之處,著手開發(fā)人工智能藥物開發(fā)平臺 ——HeliXonAI。該平臺囊括了包含蛋白質(zhì)結(jié)構(gòu)預測在內(nèi)的一整套生命建模算法體系,將被用于承接包含抗體設計,靶點發(fā)現(xiàn)等諸多挑戰(zhàn)性任務。
同時,HeliXonAI 的蛋白質(zhì)結(jié)構(gòu)預測算法在 AlphaFold2 的基礎上,提出了諸多改進。比如數(shù)據(jù)上利用數(shù)據(jù)蒸餾引入了更為龐大的無結(jié)構(gòu)氨基酸序列數(shù)據(jù)庫,并且在模型上設計了新穎的進化調(diào)整(Evolutionary Calibration)模塊實現(xiàn)了對多比對序列的信息較正。又比如對于空間坐標的優(yōu)化,HeliXonAI 引入了幾何平滑(Geometric Smoothing)模塊,利用幾何深度學習的特性,和近一千層的深度,不斷地將坐標優(yōu)化到正確位置上。
這 2 大全新的模塊的加入,能夠迭代式地修復同源序列對比中的誤差并相應地對所有原子幾何位置做出對應的調(diào)整,這樣就能更為有效地解決同源信號弱的問題,并在原子級別的細節(jié)上做出更精準的預測。最終,在 8 塊 A100 顯卡上,經(jīng)過連續(xù)接近 3 個多月的訓練,HeliXonAI 實現(xiàn)了模型預測能力指標上對 AlphaFold2 的超越。
當然,需要指出的是,如此成果并非只是 3 個月的沖刺,背后還有華深智藥團隊的多年積累。
華深智藥打造者?
彭健,伊利諾伊大學厄巴納-香檳分校(UIUC)計算機科學系及醫(yī)學院終身教授,生物計算領域的知名大牛,機器學習與蛋白質(zhì)結(jié)構(gòu)和功能預測的頂級科學家。
他在博士期間設計的著名算法 RaptorX 以及在 UIUC 任教期間設計的 DeepContact 算法,多次在 CASP 比賽中獲得領先的成績,并很早就嘗試將深度學習的技術(shù)引入這個領域。
彭健也因此在 2016 年獲得有“諾獎風向標”之稱的斯隆研究獎,并于 2020 年獲得計算生物領域最高獎奧弗頓獎(Overton Prize)。此前,奧弗頓獎獲得者包括 David Baker,Trey Ideker 以及 Aviv Regev 等計算生物學領軍人物,而彭健教授也是該獎項 20 年來的唯一華人得主。
今年 6 月,看到了領域內(nèi)正在發(fā)生的質(zhì)變,在張亞勤旗下清華大學人工智能產(chǎn)業(yè)研究院孵化之下,正式創(chuàng)辦華深智藥。很快便完成了千萬美元級天使輪融資。
創(chuàng)辦伊始,華深智藥就明確要打造新一代人工智能科學計算平臺,并結(jié)合自研高通量生物實驗技術(shù),為研發(fā)人員提供微觀世界分子計算、模擬與設計的智能系統(tǒng)。彭健明確,在新藥開發(fā)領域,特別是大分子藥物開發(fā),華深智藥希望用創(chuàng)新性地使用 AI 重構(gòu)藥物開發(fā)流程,從而極大程度上提高新藥研發(fā)速度和效率。而 HeliXonAI 平臺,就是華深智藥第一階段的成果。
并且 HeliXonAI 平臺的產(chǎn)業(yè)應用,也已經(jīng)開始展現(xiàn),因為該平臺集成了包含蛋白質(zhì)交互,蛋白質(zhì)動態(tài)建模,抗體關(guān)鍵區(qū)域建模,靶點查詢,蛋白質(zhì)設計等一整套生命建模流程體系……
于是在針對新冠病毒變異株的抗體設計和免疫逃逸位點檢測等任務中,也能發(fā)揮作用。
據(jù)說,相關(guān)成果已經(jīng)進入產(chǎn)業(yè)轉(zhuǎn)換階段了。
CAMEO 傳送門:
https://www.cameo3d.org/modeling/1-week/difficulty/all/?to_date=2021-12-04
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。