AI 制藥,讓“大海撈針”變成“按圖索驥”,研發(fā)時(shí)間一度從 10 年縮短到 18 個(gè)月!
而一個(gè)好的開(kāi)源平臺(tái)也是未來(lái) AI 醫(yī)藥研發(fā)發(fā)展的關(guān)鍵之一。
現(xiàn)在,來(lái)自加拿大蒙特利爾學(xué)習(xí)算法研究所(Mila)的唐建團(tuán)隊(duì),就推出了一個(gè)專門用于 AI 藥物研發(fā)的開(kāi)源機(jī)器學(xué)習(xí)平臺(tái) ——TorchDrug。
研究人員可以在該平臺(tái)上免費(fèi)使用或貢獻(xiàn) AI 藥研相關(guān)的算法、庫(kù)、軟件等工具。
唐建表示:
希望這個(gè)平臺(tái)能夠?qū)C(jī)器學(xué)習(xí)和生物醫(yī)學(xué)界的研究人員聚集在一起,加速新藥發(fā)現(xiàn)的過(guò)程,并在未來(lái)成為該領(lǐng)域一個(gè)領(lǐng)先的開(kāi)源平臺(tái)。
基于 PyTorch 的藥物研發(fā)原型設(shè)計(jì)平臺(tái)
TorchDrug 涵蓋了從圖機(jī)器學(xué)習(xí) (圖神經(jīng)網(wǎng)絡(luò)、幾何深度學(xué)習(xí)和知識(shí)圖譜)、深度生成模型到強(qiáng)化學(xué)習(xí)的技術(shù),基于 PyTorch 平臺(tái)。
該平臺(tái)提供了一個(gè)全面而靈活的接口來(lái)支持藥物發(fā)現(xiàn)模型的快速原型設(shè)計(jì),可以用來(lái)進(jìn)行成藥屬性預(yù)測(cè)、預(yù)訓(xùn)練分子表征、分子生成、逆合成以及知識(shí)圖譜推理,官方也提供了詳細(xì)的教程。
該平臺(tái)主要有四個(gè)特點(diǎn):
最小化的領(lǐng)域知識(shí)
由于平臺(tái)主要面向?qū)τ卺t(yī)藥知識(shí)了解不全面的機(jī)器學(xué)習(xí)者,所以抽象了大量專業(yè)知識(shí),提供了一個(gè)基于張量的接口。從而允許使用者用張量代數(shù)和機(jī)器學(xué)習(xí)方法來(lái)進(jìn)行醫(yī)藥開(kāi)發(fā)。
大量數(shù)據(jù)集和構(gòu)造塊(Building Blocks)
這樣無(wú)需編寫(xiě)樣板代碼就能很容易地實(shí)現(xiàn)標(biāo)準(zhǔn)模型。此外,構(gòu)建塊也具有高可擴(kuò)展性方便使用者自由探索模型設(shè)計(jì)。
全面的基準(zhǔn)測(cè)試
為了提供對(duì)流行的深度學(xué)習(xí)框架系統(tǒng)的比較,平臺(tái)已對(duì)現(xiàn)有的一些項(xiàng)目進(jìn)行了全面的基準(zhǔn)測(cè)試。測(cè)試結(jié)果也有望跟蹤新模型的進(jìn)展,激發(fā)新的研究方向(可在官網(wǎng)查看)。
可擴(kuò)展訓(xùn)練和推理
可擴(kuò)展的設(shè)計(jì)可加速在多個(gè) CPU 或 GPU 之間的訓(xùn)練和推理。只需修改一行代碼,就能實(shí)現(xiàn)在 CPU、GPU 甚至分布式配置之間無(wú)縫切換。
后續(xù)團(tuán)隊(duì)將通過(guò)幾何深度學(xué)習(xí)為該平臺(tái)增加 3D 建模功能。
安裝接口需 Python 版本 >= 3.5,PyTorch>= 1.4.0,方法有兩種:
從 conda
從 GitHub 源
先通過(guò) conda 獲得 TorchDrug 依賴的化學(xué)信息學(xué)開(kāi)源工具包 rdkit:
研發(fā)團(tuán)隊(duì)
研發(fā)團(tuán)隊(duì)所在的實(shí)驗(yàn)室 Mila,是圖靈獎(jiǎng)得主、加拿大蒙特利爾大學(xué)教授 Yoshua Bengio 于 1993 年創(chuàng)立的 AI 研究機(jī)構(gòu)。
有 500 多名專門從事機(jī)器學(xué)習(xí)的研究人員,主要貢獻(xiàn)集中在語(yǔ)言模型、機(jī)器翻譯、對(duì)象識(shí)別和生成模型。
TorchDrug 平臺(tái)的開(kāi)發(fā)由 Mila 實(shí)驗(yàn)室的助理教授、加拿大蒙特利爾大學(xué)商學(xué)院博士生導(dǎo)師唐建領(lǐng)導(dǎo)。
唐教授 2014 年博士畢業(yè)于北京大學(xué)信息科學(xué)技術(shù)學(xué)院,2014-2016 年任職微軟亞洲研究院副研究員,2016-2017 年成為密歇根大學(xué)和卡內(nèi)基梅隆大學(xué)聯(lián)合培養(yǎng)博士后。
唐教授的主要研究方向?yàn)椋簣D表示學(xué)習(xí)、圖研究網(wǎng)絡(luò)、知識(shí)圖譜、藥物發(fā)現(xiàn)。
他曾獲得機(jī)器學(xué)習(xí)頂級(jí)會(huì)議 ICML2014 的最佳論文,發(fā)表的一系列在圖表示學(xué)習(xí)領(lǐng)域的經(jīng)典論文包括 LINE、LargeVis、RotatE 以及 Graph Markov Neural Networks (GMNN)。
團(tuán)隊(duì)成員還包括多位該實(shí)驗(yàn)室的華人博士學(xué)生以及來(lái)自清華北大上交大的交換生。
他們還得到了 Bengio 等十余位 AI、生物學(xué)領(lǐng)域?qū)W者的指導(dǎo):
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。