能抗衡 AlphaFold 3 的生命科學(xué)大模型終于出現(xiàn)了。初創(chuàng)公司 Evolutionary Scale AI 發(fā)布了他們最新的 98B 參數(shù)蛋白質(zhì)語言模型 ESM3。不僅支持序列、結(jié)構(gòu)、功能的 all-to-all 推理,團(tuán)隊(duì)還在實(shí)驗(yàn)中發(fā)現(xiàn),它設(shè)計(jì)的新蛋白質(zhì)相當(dāng)于模擬自然界 5 億年的進(jìn)化。
繼 AlphaFold 3 更新后,我們又看到了一個(gè)生命科學(xué)領(lǐng)域的大模型 ESM3。
模型開發(fā)團(tuán)隊(duì)來自于名為 Evolutionary Scale AI 的初創(chuàng)公司,團(tuán)隊(duì)負(fù)責(zé)人 Alex Rives 在推特上官宣了模型發(fā)布的消息。
這個(gè)令人振奮的消息也得到了 Yann LeCun 的轉(zhuǎn)發(fā),他表示,你們這個(gè)公司有點(diǎn)「悶聲發(fā)大財(cái)」的意思。
相比 AlphaFold 系列,ESM3 有什么競(jìng)爭(zhēng)優(yōu)勢(shì)?
首先就是 Meta 團(tuán)隊(duì)輕車熟路的 —— 開源。
雖然模型 API 仍處于內(nèi)測(cè)階段,需要申請(qǐng)?jiān)囉觅Y格,但模型代碼已經(jīng)放到了 GitHub 上。而且公司還會(huì)與 AWS 和英偉達(dá)云計(jì)算平臺(tái)合作,方便開發(fā)者使用和部署。
但比較遺憾的是,目前在 HuggingFace 倉(cāng)庫(kù)中還沒有公開模型權(quán)重。英偉達(dá)官方博客顯示,ESM3 將在 Nvidia BieNeMo 平臺(tái)提供一個(gè)小型開源版本的代碼和權(quán)重,但僅限于非商業(yè)用途。
此外,ESM3 與不同于模擬多種生物分子的 AlphaFold 3,只專注于蛋白質(zhì),但可以同時(shí)推理其序列、結(jié)構(gòu)和功能,這種多模態(tài)能力屬于領(lǐng)域首創(chuàng)。
更讓人耳目一新的是,ESM3 在自然界中 27.8 億個(gè)多樣化蛋白質(zhì)上進(jìn)行訓(xùn)練,逐漸學(xué)習(xí)到了進(jìn)化過程如何讓蛋白質(zhì)發(fā)生變化。
從這個(gè)角度來看,ESM 的推理過程可以被視為「進(jìn)化模擬器」,這為當(dāng)前的生命科學(xué)研究開辟了全新的視角。團(tuán)隊(duì)甚至在官網(wǎng)文章中提出了「模擬 5 億年進(jìn)化」的標(biāo)語。
或許你已經(jīng)注意到了,ESM 這個(gè)名字和 Meta 之前的蛋白質(zhì)模型 ESMFold 非常類似。
這并不是有意擦邊。事實(shí)上,Evolutionary Scale 這家初創(chuàng)公司就是 Meta-FAIR 蛋白質(zhì)小組的前成員創(chuàng)辦的,公司的首席科學(xué)家 Alex Rives 正是這個(gè)已解散團(tuán)隊(duì)的前負(fù)責(zé)人。
去年 8 月,在 Meta 的「效率年」中,扎克伯格選擇解散了只有十幾名科學(xué)家的蛋白質(zhì)小組,讓公司專注于更有盈利前景的研究。
但 Rives 并沒有被 Meta 的這種舉動(dòng)嚇倒,而是決定自立門戶,他們目前已經(jīng)籌集了 1.42 億美元的種子資金。
那么就來仔細(xì)看看,這次的 ESM3 具體有哪些新內(nèi)容?
ESM3:生物學(xué)的前沿語言模型
生命科學(xué)并不像我們想象的那般神秘莫測(cè)、不可捉摸。
蛋白質(zhì)分子雖然有難以置信的多樣性和動(dòng)態(tài)變化,但是它的合成遵循嚴(yán)密的算法與流程。如果把它看成一門技術(shù),其先進(jìn)程度遠(yuǎn)遠(yuǎn)超過任何人類創(chuàng)造的工程。
生物學(xué),就是一個(gè)厚厚的密碼本。
只不過,這個(gè)密碼本是用我們尚未理解的語言寫就的,即使是當(dāng)今最強(qiáng)超算上運(yùn)行的工具也不過觸及皮毛。
如果人類能夠閱讀,甚至是書寫「生命代碼」,就能使生物學(xué)變得可編程。試錯(cuò)法將被邏輯取代,費(fèi)力的實(shí)驗(yàn)將被模擬所取代。
ESM3 就是朝這個(gè)宏偉愿景邁出的一步,是迄今為止首個(gè)能同時(shí)對(duì)蛋白質(zhì)的序列、結(jié)構(gòu)和功能進(jìn)行推理的生成模型。
過去五年中 LLM 的突飛猛進(jìn),也讓 ESM 團(tuán)隊(duì)發(fā)現(xiàn)了 Scaling Law 的威力,他們發(fā)現(xiàn),同樣的模式也適用于生物學(xué)。
隨著訓(xùn)練數(shù)據(jù)以及參數(shù)規(guī)模的擴(kuò)大,模型會(huì)加深對(duì)生物學(xué)基本原理的理解,并能更好地預(yù)測(cè)、設(shè)計(jì)生物結(jié)構(gòu)和功能。
因此,ESM3 的開發(fā)思路也與 Scaling Law 一脈相承,其規(guī)模比上一代 ESM 大大擴(kuò)展,數(shù)據(jù)量提高了 60 倍,訓(xùn)練計(jì)算量提高了 25 倍,并且是具有原生多模態(tài)的生成模型。
ESM3 的訓(xùn)練過程囊括了地球自然環(huán)境的多樣性 —— 數(shù)十億種蛋白質(zhì),從亞馬遜雨林到海洋深處,小到土壤中的微生物,極端到深海熱泉。
HuggingFace 上的模型卡顯示,訓(xùn)練集中天然蛋白質(zhì)數(shù)量達(dá)到 27.8 億,并通過合成數(shù)據(jù)增強(qiáng)到 31.5 億個(gè)序列、2.36 個(gè)結(jié)構(gòu)以及 5.39 億個(gè)帶有功能注釋的蛋白質(zhì),token 總數(shù)達(dá)到 7710B。
模型訓(xùn)練參數(shù)總量達(dá)到 98B,使用了超過 1024 FLOPS 的算力。團(tuán)隊(duì)似乎與英偉達(dá)緊密合作,訓(xùn)練使用了 Andromeda 集群,是當(dāng)今吞吐量最高的 GPU 集群之一,部署了最先進(jìn)的 H100 GPU 和 Quantum-2 InfiniBand 網(wǎng)絡(luò)。
他們表示「相信 ESM3 的計(jì)算總量是有史以來生物模型之最」。
推理蛋白質(zhì)的序列、結(jié)構(gòu)和功能
處理文本的語言模型一般以 token 作為基本單位,但多模態(tài)的蛋白質(zhì)模型更加復(fù)雜,需要將序列、三維結(jié)構(gòu)和功能都轉(zhuǎn)換為離散的字母進(jìn)行表示。
為了更好地?cái)U(kuò)展訓(xùn)練規(guī)模、釋放模型的「涌現(xiàn)」生成潛力,ESM3 使用的詞匯在同一語言模型中能夠很好地連接序列、結(jié)構(gòu)和功能,進(jìn)行聯(lián)合推理。
不同于 GPT 等語言模型,ESM3 的訓(xùn)練目標(biāo)繼承于掩碼語言模型(masked language modeling objective)。
每個(gè)蛋白質(zhì)的序列、結(jié)構(gòu)、和功能的部分位置會(huì)被掩碼,模型在訓(xùn)練過程中需要逐漸理解三者之間的深層聯(lián)系,從而預(yù)測(cè)掩碼位置。如果遮蔽所有位置的標(biāo)記,就相當(dāng)于執(zhí)行生成任務(wù)。
由于在蛋白質(zhì)的序列、結(jié)構(gòu)和功能上聯(lián)合訓(xùn)練,對(duì)這三種模態(tài)可以任意進(jìn)行掩碼和預(yù)測(cè),因此 ESM3 實(shí)現(xiàn)了「全對(duì)全」預(yù)測(cè)或生成(all to all)。
也就是說,模型的輸入可以是部分或完全指定的三種模態(tài)的任意組合。這種強(qiáng)大的多模態(tài)推理能力有很強(qiáng)的應(yīng)用價(jià)值,科學(xué)家們能以前所未有的靈活度和控制度設(shè)計(jì)全新的蛋白質(zhì)。
比如,可以提示模型結(jié)合結(jié)構(gòu)、序列和功能,提出 PET 酶活性位點(diǎn)的潛在支架結(jié)構(gòu)。PET 是一種常用的塑料,如果 PET 酶設(shè)計(jì)成功,就能用于高效分解塑料廢物。
Evolutionary Scale 的聯(lián)合創(chuàng)始人兼兼工程副總裁 Tom Sercu 表示,在內(nèi)部測(cè)試中,ESM 在應(yīng)對(duì)各種復(fù)雜提示時(shí)表現(xiàn)出了令人印象深刻的創(chuàng)造力。
「它能夠解決一個(gè)極其困難的蛋白質(zhì)設(shè)計(jì)問題,創(chuàng)造一種新型綠色熒光蛋白。ESM3 能夠幫助科學(xué)家加速工作,開辟新的可能性 —— 我們期待看到它在未來對(duì)生命科學(xué)研究的貢獻(xiàn)?!?/p>
當(dāng)數(shù)十億個(gè)蛋白質(zhì)來自進(jìn)化時(shí)間軸上的不同位置,具有豐富的多樣性時(shí),模型還能學(xué)到模擬進(jìn)化的能力。
能力隨規(guī)模涌現(xiàn)
正如 LLM 在規(guī)模擴(kuò)展中「涌現(xiàn)」出了語言理解、推理等能力,在解決有挑戰(zhàn)性的蛋白質(zhì)設(shè)計(jì)任務(wù)時(shí),ESM3 也隨規(guī)模增加逐漸顯現(xiàn)能力,其中一個(gè)重要的能力就是原子級(jí)協(xié)調(diào)。
比如,提示中可能指定組成蛋白質(zhì)的兩個(gè)氨基酸需要在序列位置上相近,但在結(jié)構(gòu)中相距較遠(yuǎn)。這衡量了模型在結(jié)構(gòu)生成任務(wù)中達(dá)到原子級(jí)精度的能力。
這對(duì)于設(shè)計(jì)功能性蛋白質(zhì)至關(guān)重要,而 ESM3 解決這類復(fù)雜生成任務(wù)的能力可以隨著規(guī)模增加逐漸提高。
不僅如此,在訓(xùn)練完成后,ESM3 的能力還有進(jìn)一步提升的空間,其機(jī)制類似于 LLM 常用的 RLHF 方法。
但區(qū)別在于,ESM3 并不是從人類那里接受反饋,而是可以評(píng)估自身的生成質(zhì)量,進(jìn)行自我改進(jìn),也可以結(jié)合已有的實(shí)驗(yàn)數(shù)據(jù)和濕實(shí)驗(yàn)結(jié)果,讓 ESM3 的生成與生物學(xué)結(jié)果保持對(duì)齊。
模擬 5 億年的進(jìn)化
在發(fā)表的論文中,ESM3 團(tuán)隊(duì)詳細(xì)介紹了他們?cè)谀P蜕嫌^察到的「模擬進(jìn)化」功能。
綠色熒光蛋白(Green Fluorescent Protein,GFP)及其熒光蛋白家族是自然界中最美麗的蛋白質(zhì)之一,但它們只存在于「生命之樹」的幾個(gè)分支中。
但 GFP 不僅僅是美麗而已,它包含一種熒光發(fā)色團(tuán)(fluorescent chromophore)。這種分子可以吸收短波長(zhǎng)的單色光子、捕獲部分能量,再釋放出波長(zhǎng)較長(zhǎng)的另一種單色光子。比如,自然界存在的 GFP 可以吸收藍(lán)光并發(fā)出綠光。
由于這種特性,GFP 能夠作為標(biāo)記,幫助科學(xué)家在細(xì)胞內(nèi)觀察蛋白質(zhì),成為了生物學(xué)中最廣泛使用的工具之一,GFP 的發(fā)現(xiàn)也因此獲得了諾貝爾獎(jiǎng)。
GFP 的功能如此獨(dú)特且有用,結(jié)構(gòu)也是非常罕見:由十一條鏈組成的桶狀結(jié)構(gòu),中間穿過一條螺旋。折疊后進(jìn)行自發(fā)反應(yīng),在蛋白質(zhì)中心的分子會(huì)重新排列,產(chǎn)生熒光發(fā)色團(tuán)。
這種機(jī)制是獨(dú)一無二的。沒有其他已知的蛋白質(zhì)能夠自發(fā)地從其自身結(jié)構(gòu)中形成熒光發(fā)色團(tuán),這表明即使在自然界中,產(chǎn)生熒光也是相當(dāng)罕見且困難的。
為了能在實(shí)驗(yàn)室有更廣泛的應(yīng)用,科學(xué)家們嘗試添加突變或改變顏色,進(jìn)行人工合成。最新的機(jī)器學(xué)習(xí)技術(shù)能夠搜索到序列差異高達(dá) 20% 的變體,但功能性 GFP 的主要來源依舊是自然界而非蛋白質(zhì)工程。
想在自然界中找到更多的變體也并不簡(jiǎn)單,因?yàn)樾聼晒獾鞍椎倪M(jìn)化需要漫長(zhǎng)的時(shí)間 ——GFP 所屬家族的歷史相當(dāng)久遠(yuǎn),它們從祖先序列中分化出來的時(shí)間點(diǎn)能追溯到數(shù)億年前。
這個(gè)棘手的問題或許能在 ESM3 這里得到解決。
將天然 GFP 核心結(jié)構(gòu)中幾個(gè)位點(diǎn)的信息作為提示,并使用 CoT 技巧,ESM3 成功生成了新型 GFP 的候選者。
這種生成絕不可能是隨機(jī)撞大運(yùn)或者是全局搜索,因?yàn)榭赡艿男蛄泻徒Y(jié)構(gòu)的組合起來會(huì)達(dá)到天文數(shù)字 ——20229 x 4096229 ,比可見宇宙中所有的原子數(shù)加起來還要多。
在首次實(shí)驗(yàn)中,團(tuán)隊(duì)測(cè)試了 ESM3 生成的 96 個(gè)候選蛋白,其中出現(xiàn)了成功的發(fā)光樣本,而且存在一種十分獨(dú)特的結(jié)構(gòu),與自然界中任何蛋白質(zhì)都相差甚遠(yuǎn)。
在另一組 96 個(gè)候選樣本中,發(fā)現(xiàn)了幾種亮度與天然 GFP 相似的蛋白質(zhì),其中一種亮度最高的蛋白質(zhì)被命名為 esmGFP,與最接近的天然熒光蛋白相比有 96 個(gè)突變(在 229 個(gè)氨基酸組成的序列中,有 58% 的相似部分)。
與自然進(jìn)化不同,蛋白質(zhì)語言模型并不在進(jìn)化約束內(nèi)明確工作。
但為了讓 ESM3 解決其預(yù)測(cè)下一個(gè)掩碼 token 的訓(xùn)練任務(wù),模型必須學(xué)習(xí)進(jìn)化如何在潛在蛋白質(zhì)空間中演變。
從這個(gè)意義上說,ESM3 生成與天然蛋白十分相似的 esmGFP 的過程,可以被視為一種進(jìn)化模擬器。
對(duì) esmGFP 進(jìn)行傳統(tǒng)的進(jìn)化分析是自相矛盾的,因?yàn)樗窃谧匀贿^程之外創(chuàng)造的,但仍可以從進(jìn)化生物學(xué)的工具中獲得洞見,了解一個(gè)蛋白質(zhì)通過自然進(jìn)化與其最近的序列鄰居分化所需的時(shí)間。
因此,研究團(tuán)隊(duì)使用進(jìn)化生物學(xué)的方法,把 esmGFP 當(dāng)成自然界新發(fā)現(xiàn)的蛋白質(zhì)進(jìn)行分析。他們估計(jì),esmGFP 等效于進(jìn)化模擬器執(zhí)行的超過 5 億年的自然進(jìn)化。
開放模型
自成立以來,ESM 項(xiàng)目(ESM project)一直致力于通過發(fā)布代碼和模型來實(shí)現(xiàn)開放科學(xué)。目前仍能在 GitHub 和 HuggingFace 上找到團(tuán)隊(duì)在幾年前發(fā)布的代碼和模型權(quán)重。
看到 ESM 模型在研究和工業(yè)領(lǐng)域的創(chuàng)造性和有影響力的應(yīng)用,可謂是令人驚嘆:
- Hie 等人使用 ESM-1v 和 ESM-1b 來進(jìn)化抗體,改善了結(jié)合親和力、熱穩(wěn)定性和病毒中和等治療相關(guān)特性。
- BioNTech 和 InstaDeep 微調(diào)了一個(gè) ESM 語言模型,用于檢測(cè) COVID 刺突蛋白中的變異,成功地在 WHO 指定之前標(biāo)記了所有 16 種關(guān)注變異。
- Brandes 等人使用 ESM-1b 來預(yù)測(cè)突變的臨床效果,目前這仍是完成該重要任務(wù)的最強(qiáng)方法。
- Marsiglia 等人使用 ESM-1v 來設(shè)計(jì)新的抗 CRISPR 蛋白變體,這些變體在保持目標(biāo)編輯功能的同時(shí),減少了對(duì)非目標(biāo)副作用。
- Shanker 等人使用 ESM-IF1 引導(dǎo)多樣蛋白的進(jìn)化,包括實(shí)驗(yàn)室驗(yàn)證的對(duì) SARS-CoV-2 高效抗體。
- Yu 等人微調(diào)了 ESM-1b 來預(yù)測(cè)酶的功能,包括稀有和研究不足的酶,并通過實(shí)驗(yàn)驗(yàn)證了預(yù)測(cè)結(jié)果。
- Rosen 等人使用 ESM2 嵌入來構(gòu)建單細(xì)胞基礎(chǔ)模型中的基因表示。
- H?ie 等人微調(diào)了 ESM-IF1 在抗體結(jié)構(gòu)上的表現(xiàn),在 CDR 區(qū)域的序列恢復(fù)中達(dá)到了最先進(jìn)的性能,設(shè)計(jì)出了高結(jié)合親和力的抗體。
而這些,只是建立在 ESM 平臺(tái)上的驚人工作的一小部分!
如今,團(tuán)隊(duì)正式宣布,將發(fā)布一個(gè) ESM3 1.4B 參數(shù)版本的權(quán)重和代碼,以便科學(xué)家和開發(fā)人員能夠基于 ESM3 的理念和架構(gòu)進(jìn)行構(gòu)建。
參考資料:
https://blogs.nvidia.com/blog/evolutionaryscale-esm3-generative-ai-nim-bionemo-h100/
https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
https://www.evolutionaryscale.ai/blog/esm3-release
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。