AI 大模型“化學(xué)家”登 Nature!能夠自制阿司匹林、對(duì)乙酰氨基酚、布洛芬的那種。就連復(fù)雜的鈀催化交叉偶聯(lián)反應(yīng),也能完成!
要知道,2010 年諾貝爾化學(xué)獎(jiǎng)獲得者就因?yàn)閷?duì)該反應(yīng)的研究才獲獎(jiǎng)的,這類反應(yīng)可以高效地構(gòu)建碳-碳鍵,生成很多以往很難甚至無(wú)法合成的物質(zhì)。
而現(xiàn)在名為 Coscientist,基于 GPT-4 等大模型的 AI 系統(tǒng),可快速準(zhǔn)確地自主完成檢索信息、規(guī)劃及設(shè)計(jì)實(shí)驗(yàn)、編寫(xiě)程序、遠(yuǎn)程操控自動(dòng)化系統(tǒng)做實(shí)驗(yàn)、分析數(shù)據(jù)的一整套流程。
一位主頁(yè)標(biāo)注自己是化學(xué)家的網(wǎng)友表示:
栓 Q,你們創(chuàng)造了更多失業(yè)的博士生。
那么 Coscientist 究竟是如何做到的?
“化學(xué)家”Coscientist 長(zhǎng)啥樣?
Coscientist 由卡內(nèi)基梅隆大學(xué)的研究團(tuán)隊(duì)開(kāi)發(fā)。
前不久谷歌 DeepMind 造的 AI“化學(xué)家”也登上了 Nature,號(hào)稱一口氣能預(yù)測(cè) 220 萬(wàn)種新材料。而現(xiàn)在 Coscientist 則是實(shí)打?qū)嵞茏灾魍瓿珊罄m(xù)所有實(shí)驗(yàn)流程。
能夠完成如此復(fù)雜的實(shí)驗(yàn)任務(wù),關(guān)鍵在于多模塊交互的系統(tǒng)架構(gòu)。
Coscientist 內(nèi)含五大模塊:Planner、Web searcher、Code execution、Docs searcher、Automation。
其中 Planner 模塊是整個(gè)系統(tǒng)的智能中樞,它基于 GPT-4 打造,負(fù)責(zé)根據(jù)用戶的輸入,調(diào)用和協(xié)調(diào)其它模塊來(lái)規(guī)劃和推進(jìn)整個(gè)實(shí)驗(yàn)。
Planner 可以發(fā)出 GOOGLE、PYTHON、DOCUMENTATION 和 EXPERIMENT 四個(gè)指令。
GOOGLE 指令負(fù)責(zé)使用 Web searcher 模塊在互聯(lián)網(wǎng)中檢索關(guān)于實(shí)驗(yàn)的信息,Web searcher 本身也是一個(gè)大模型。
PYTHON 指令控制 Code execution 模塊,Code execution 是一個(gè)隔離的 Docker 容器,提供一個(gè)獨(dú)立的 Python 執(zhí)行環(huán)境,可以完成實(shí)驗(yàn)相關(guān)的計(jì)算工作。
DOCUMENTATION 指令控制 Docs searcher 模塊,也是用來(lái)為中樞提供信息。
但與 Web searcher 不同,Docs searcher 是用于文本檢索和文檔理解。它可以定位實(shí)驗(yàn)設(shè)備的技術(shù)文檔,比如機(jī)械手編程手冊(cè),通過(guò)文本挖掘提供給 Planner 模塊必要的實(shí)驗(yàn)參數(shù)及操作細(xì)節(jié)。
而后,Automation 模塊負(fù)責(zé)自動(dòng)化連接實(shí)際實(shí)驗(yàn)設(shè)備的 API,將 Planner 制定的實(shí)驗(yàn)方案轉(zhuǎn)換為設(shè)備控制代碼,下發(fā)執(zhí)行,完成實(shí)驗(yàn)操作。比如,在“云實(shí)驗(yàn)室”中遠(yuǎn)程操控移液機(jī)器人開(kāi)展實(shí)驗(yàn)。
如此一來(lái),假設(shè)要求 Coscientist 合成某種物質(zhì)時(shí),Coscientist 會(huì)在互聯(lián)網(wǎng)上搜索合成路線;然后設(shè)計(jì)所需反應(yīng)的實(shí)驗(yàn)方案;下一步編寫(xiě)代碼來(lái)指導(dǎo)移液機(jī)器人;最后運(yùn)行代碼,使機(jī)器人執(zhí)行其預(yù)定的任務(wù)。
值得一提是,Coscientist 還可以進(jìn)行迭代優(yōu)化,從反應(yīng)結(jié)果中學(xué)習(xí),并建議修改方案來(lái)改進(jìn)實(shí)驗(yàn)。
總的來(lái)說(shuō) Coscientist 能完成六大任務(wù):
根據(jù)公開(kāi)數(shù)據(jù)規(guī)劃已知化合物的合成;
有效搜索和瀏覽大量的硬件文檔;
使用文檔中的信息在云實(shí)驗(yàn)室執(zhí)行高級(jí)命令;
用低級(jí)指令精確控制液體處理儀器;
處理需要同時(shí)使用多個(gè)硬件模塊并整合不同數(shù)據(jù)源的復(fù)雜科學(xué)任務(wù);
通過(guò)分析之前收集的實(shí)驗(yàn)數(shù)據(jù)解決優(yōu)化問(wèn)題。
成功完成鈀催化交叉偶聯(lián)反應(yīng)
Coscientist 表現(xiàn)究竟如何?研究人員對(duì)多個(gè)模塊進(jìn)行了測(cè)試。
其中,為測(cè)試 Coscientist 設(shè)計(jì)化學(xué)反應(yīng)流程的能力,研究團(tuán)隊(duì)要求 Coscientist 通過(guò)檢索學(xué)習(xí)分別生成阿司匹林、對(duì)乙酰氨基酚和布洛芬等藥物分子,并且還設(shè)置了 GPT-3.5、GPT-4、Claude 1.3、Falcon-40B-Instruct 不同模型的比較。
基于 GPT-4 的 Web Searcher 顯著改進(jìn)了合成計(jì)劃,在對(duì)乙酰氨基酚、阿司匹林、硝基苯胺和酚酞的所有試驗(yàn)中都達(dá)到了最高分(上圖 b,數(shù)字“5”代表生成了一個(gè)非常詳細(xì)且化學(xué)上準(zhǔn)確的操作步驟)。
重點(diǎn)還要看 Coscientist 的一體化能力。為此,研究人員還設(shè)計(jì)了催化交叉偶聯(lián)實(shí)驗(yàn)。
研究人員設(shè)置了可利用的實(shí)驗(yàn)設(shè)備,包含:OpenTrons OT-2 液體處理機(jī)器人;數(shù)個(gè)微板,包括放置反應(yīng)物的源微板和放置在加熱震蕩模塊上的目標(biāo)微板。
源板上準(zhǔn)備了實(shí)驗(yàn)所需的試劑,包括己烷基碘、溴苯、氯苯、苯基乙炔、苯硼酸等原料,還有催化劑、堿和溶劑。
Coscientist 的目標(biāo)是利用這些試劑成功設(shè)計(jì)和運(yùn)行兩種常見(jiàn)鈀催化偶聯(lián)反應(yīng) Suzuki 反應(yīng)和 Sonogashira 反應(yīng)。
Coscientist 首先通過(guò) Web searcher 模塊搜索確定 Suzuki 反應(yīng)和 Sonogashira 反應(yīng)的最佳反應(yīng)條件,如溫度、當(dāng)量比等參數(shù)。
然后合理選擇了不同的試劑,例如 Suzuki 反應(yīng)時(shí)優(yōu)先選擇溴苯而不是氯苯。同時(shí) Coscientist 提供選擇的化學(xué)依據(jù),如反應(yīng)活性。
接著,Coscientist 調(diào)用 Code execution 模塊,根據(jù)各反應(yīng)物的濃度和當(dāng)量計(jì)算所需體積。生成控制機(jī)器人進(jìn)行移液操作的 Python 代碼,指定源孔板與目標(biāo)孔板之間的轉(zhuǎn)移體積。
但中間出現(xiàn)個(gè)小插曲,最初使用的加熱震蕩模塊的方法名錯(cuò)誤。
之后 Coscientist 迅速查閱了 Opentrons 設(shè)備文檔糾正了方法名,重新生成正確代碼,成功完成了 Suzuki 反應(yīng)和 Sonogashira 反應(yīng)。
最終,產(chǎn)物通過(guò) GC-MS 技術(shù)驗(yàn)證,檢測(cè)到目標(biāo)產(chǎn)物的特征質(zhì)譜信號(hào),證實(shí)目標(biāo)產(chǎn)物生成。
論文鏈接:
本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:西風(fēng)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。