AI 在生物學(xué)領(lǐng)域再次立功了。
今天,Science 封面刊登了 AI 在預(yù)測 RNA 分子結(jié)構(gòu)上的重大進展。
來自斯坦福大學(xué)的研究團隊,使用一種叫做 ARES 的幾何深度學(xué)習(xí),在預(yù)測 RNA 三級結(jié)構(gòu)上達到了前所未有的準(zhǔn)確度。
一個月前,AlphaFold 2 預(yù)測人類 98.5% 的蛋白質(zhì),驚艷了全世界。
但是與蛋白質(zhì)相比,同樣是生物分子的 RNA,人類對它的研究主要還停留在二級結(jié)構(gòu)上,對三級結(jié)構(gòu)知之甚少。
加州大學(xué)歐文分校的藥物學(xué)家 Robert Spitale 說,我們對大部分 RNA 結(jié)構(gòu)幾乎一無所知。
一無所知到什么程度呢?
人類基因轉(zhuǎn)錄為 RNA 的數(shù)量是蛋白質(zhì)數(shù)量的 30 倍。迄今為止實驗已經(jīng)確定了數(shù)千種蛋白質(zhì)的三級結(jié)構(gòu),而人類測定三級結(jié)構(gòu)的 RNA 不到蛋白質(zhì)的 1%,大約只有幾十種。
現(xiàn)在 ARES 已經(jīng)預(yù)測了 1500 種 RNA 分子結(jié)構(gòu),從過去的將精度提高了 4? 左右(1? 等于 0.1 納米),平均誤差為 12?,當(dāng)相比之前的方法有了顯著提升。
雖然和 AlphaFold 2 預(yù)測 35 種蛋白質(zhì)相去甚遠,也達不到原子級精度(大約 1?),但這足以稱為一項開創(chuàng)性研究。
因為斯坦福大學(xué)的科學(xué)家們的訓(xùn)練集只有 18 個結(jié)構(gòu)數(shù)據(jù),少得可憐,取得如此大幅的提升實屬不易。
ARES 的出現(xiàn),讓 AI 預(yù)測 RNA 三級結(jié)構(gòu)的細節(jié)成為可能。
論文的第一作者、斯坦福大學(xué)博士 Raphael Townshend 說:“結(jié)構(gòu)生物學(xué)是對分子形狀的研究,在生物學(xué)中有一句名言,即結(jié)構(gòu)決定功能?!?/p>
因此,這項研究有助于科學(xué)家們?nèi)グl(fā)現(xiàn) RNA 的生物學(xué)功能,并為發(fā)現(xiàn)新型 RNA 靶向藥物鋪平道路。
為何要研究 RNA
為什么要研究 RNA 呢?
這與它在整個生命活動中發(fā)揮的重要作用離不開關(guān)系。
在生物體內(nèi),RNA 具有十分重要的細胞功能,包括合成蛋白質(zhì)、催化反應(yīng)、調(diào)節(jié)基因表達、調(diào)節(jié)先天免疫和感知小分子等。
一方面,RNA 是遺傳信息表達的重要一環(huán)。
只有通過 RNA 的轉(zhuǎn)錄、翻譯,DNA 中的信息才能在蛋白質(zhì)中表達。
▲ RNA 轉(zhuǎn)錄
另一方面,RNA 還能調(diào)節(jié)一些重要生命活動。
核糖 RNA 可以催化肽鏈的生成,為轉(zhuǎn)移 RNA 提供結(jié)合位點,參與核糖體大小亞單位的結(jié)合、校正閱讀等等功能。
而且,參與遺傳信息表達的 RNA 只占 RNA 總量的 20% 不到,這意味著有大部分遺傳信息都還沒有被表達出來。
還有一些病毒是以 RNA 作為遺傳信息的載體,比如引起新冠肺炎的 SARS-CoV-2,就是一種 RNA 病毒。
因此,研究 RNA 是探索生命奧秘的必經(jīng)之路。
除了研究層面,在實際應(yīng)用上 RNA 能發(fā)揮的作用也越來越多。
依據(jù)致病基因的序列信息,科學(xué)家開發(fā)出了 RNA 藥物、RNA 疫苗。
它們可以從基因?qū)用婢桶l(fā)揮作用,靶向抑制致病蛋白的表達,在醫(yī)學(xué)領(lǐng)域具有非常廣泛的應(yīng)用前景。
RNA 研究難點在哪
結(jié)構(gòu)生物學(xué)有一個信條,即結(jié)構(gòu)決定功能,RNA 也不例外。
在知道 RNA 對生命活動發(fā)揮如此大作用后,科學(xué)家首先要做的,就是探究 RNA 的結(jié)構(gòu)。
這也是 RNA 研究的一大難點。
不同于 DNA 穩(wěn)定的雙鏈結(jié)構(gòu),RNA 絕大多數(shù)情況下都以單鏈形式存在。
但是單鏈 RNA 可以通過折疊形成雙鏈結(jié)構(gòu),再折疊形成三級結(jié)構(gòu)。
而且 RNA 的糖環(huán)上有 3 個自由烴基,而 DNA 由于脫氧只有兩個,所以 RNA 的化學(xué)性質(zhì)也更加活潑,也就是更容易發(fā)生反應(yīng)。
此外,RNA 還更容易被自己的分解酶降解。
這些原因使得 RNA 在實驗過程中操作難度也更高。
事實上,到目前為止人類已知的 RNA 結(jié)構(gòu)只有幾十種。既然實驗難以測定,所以科學(xué)家開始把目光放在了 AI 預(yù)測 RNA 結(jié)構(gòu)上。
和 AlphaFold 2 的不同
近來深度學(xué)習(xí)技術(shù)的重大進展,往往都需要大量數(shù)據(jù)來進行訓(xùn)練。
但是可以給 ARES 預(yù)測的 RNA 結(jié)構(gòu)只有 18 種,這些數(shù)據(jù)顯然不足以使用傳統(tǒng)方法。
斯坦福的科學(xué)家們想到了幾何深度學(xué)習(xí),開發(fā)了 ARES(Atomic Rotationally Equivariant Scorer)。
顧名思義,這種方法并非直接針對 RNA 的特殊情況,而是細化到分子中的原子,參數(shù)只給出原子坐標(biāo)和元素類型。
ARES 被輸入一小組已知 RNA 的真實結(jié)構(gòu),以及這些 RNA 的大量替代(不正確)結(jié)構(gòu)。
在這個過程中,ARES 了解每個原子的功能、幾何排列以及這些元素相互之間彼此定位。神經(jīng)網(wǎng)絡(luò)中逐漸從原子級小尺度學(xué)習(xí)到分子大尺度的特征。
就這樣,ARES 一開始并不了解 RNA,隨著訓(xùn)練過程的進行,它學(xué)會了 RNA 的堿基配對模式、RNA 螺旋的最佳幾何形狀。
接下來還有個問題,人類已知 RNA 種類太少,如何去評估 ARES 的預(yù)測未知 RNA 能力呢?
斯坦福大學(xué)的研究人員編制了一個基準(zhǔn)數(shù)據(jù)集,包含七年來在結(jié)構(gòu)預(yù)測競賽 RNA-Puzzles 中獲勝的作品。
根據(jù) RNA-Puzzles 的規(guī)則,當(dāng)科學(xué)家通過實驗發(fā)現(xiàn)新的 RNA 結(jié)構(gòu)時,他們不會公開細節(jié),直到 RNA-Puzzles 參與者提交了他們的預(yù)測結(jié)果,然后將二者的結(jié)果進行對比。
經(jīng)過測試集的檢驗,ARES 對 4 種 RNA 結(jié)構(gòu)的預(yù)測全都達到了最高準(zhǔn)確度。
接下來,科學(xué)家使用采樣軟件生成了至少 1500 個 RNA 結(jié)構(gòu)模型。然后,他們用 ARES 和其他三種軟件對模型進行預(yù)測。
當(dāng)使用 ARES 時,有 62% 結(jié)果接近原生 RNA 模型(平均誤差 < 2?),而 Rosetta、RASP 和 3dRNAscore 分別只有 43%、33% 和 5% 的結(jié)果接近。
在 ARES 生成的 10 個最好模型中包括至少一個接近原生模型的有 81%,而 Rosetta、RASP 和 3dRNAscore 分別只有 48%、48% 和 33%。
雖然 ARES 還沒有達到能精確預(yù)測靶點、輔助藥物研發(fā)的精度,但研究人員說,他們的算法還有進步的空間。
未來,他們計劃輸入除原子坐標(biāo)和元素類型之外的更多信息,增加信息或許能進一步提高 ARES 的性能。
通過與低溫電子顯微鏡等實驗數(shù)據(jù)結(jié)合,ARES 也可能得到進一步改進。
另外,本文的第一作者 Raphael Townshend 已經(jīng)創(chuàng)立了一家生物學(xué) AI 公司 Atomic AI,使用 AI 技術(shù)設(shè)計藥物分子。
Townshend 剛剛在個人 Twitter 上發(fā)布了招聘信息,看來他是準(zhǔn)備在 AI 藥物領(lǐng)域大展拳腳了。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。