本周三,微軟宣布開源一個(gè)簡(jiǎn)單、多語(yǔ)言的、大規(guī)模并行的機(jī)器學(xué)習(xí)庫(kù) SynapseML(以前稱為 MMLSpark),以幫助開發(fā)人員簡(jiǎn)化機(jī)器學(xué)習(xí)開發(fā)與部署。
即使對(duì)于最有經(jīng)驗(yàn)的開發(fā)人員來(lái)說(shuō),構(gòu)建機(jī)器學(xué)習(xí)管道也會(huì)很困難。對(duì)于初學(xué)者來(lái)說(shuō),組合來(lái)自不同生態(tài)系統(tǒng)的工具需要大量代碼,而且許多框架在設(shè)計(jì)時(shí)并沒(méi)有考慮到服務(wù)器集群。數(shù)據(jù)科學(xué)團(tuán)隊(duì)在使用更多機(jī)器學(xué)習(xí)模型方面也面臨越來(lái)越大的壓力。
微軟表示,借助 SynapseML,開發(fā)人員可以構(gòu)建可擴(kuò)展的智能系統(tǒng)來(lái)解決跨領(lǐng)域的挑戰(zhàn),包括文本分析、翻譯和語(yǔ)音處理。
SynapseML 使開發(fā)人員能夠?qū)⒊^(guò) 45 種不同的最先進(jìn)機(jī)器學(xué)習(xí)服務(wù)直接嵌入到他們的系統(tǒng)和數(shù)據(jù)庫(kù)中。
其最新版本增加了對(duì)分布式表單識(shí)別、對(duì)話轉(zhuǎn)錄和翻譯的支持,這些即用型算法可以解析各種文檔、實(shí)時(shí)轉(zhuǎn)錄多個(gè)對(duì)話者的聲音和翻譯 100 多種不同的語(yǔ)言。
▲ 開源機(jī)器學(xué)習(xí)庫(kù) SynapseML 界面
開源鏈接為:https://github.com/microsoft/SynapseML
一、五年沉淀,SynapseML 直擊 AI 落地痛點(diǎn)
SynapseML 的構(gòu)建基于微軟強(qiáng)大的 Spark(計(jì)算引擎)生態(tài)系統(tǒng),包括工業(yè)大數(shù)據(jù)處理領(lǐng)域的“網(wǎng)紅”計(jì)算引擎 Apache Spark、SparkML 等。
SynapseML 為 Spark 生態(tài)系統(tǒng)添加了許多深度學(xué)習(xí)和數(shù)據(jù)科學(xué)工具,包括 Spark 機(jī)器學(xué)習(xí)構(gòu)建流程以及其他深度學(xué)習(xí)工具的無(wú)縫集成。這些工具可為各種數(shù)據(jù)源提供強(qiáng)大且高度可擴(kuò)展的預(yù)測(cè)和分析模型。
SynapseML 庫(kù)可用于 Azure Synapse Analytics 工具上,該工具能夠按照算法運(yùn)行需求或根據(jù)開發(fā)人員提前配置的資源,為 AI 模型收集、處理數(shù)據(jù)。
“在過(guò)去的五年中,我們一直致力于改進(jìn)和穩(wěn)定用于生產(chǎn)工作負(fù)載的 SynapseML 庫(kù)。使用 Azure Synapse Analytics 的開發(fā)人員將很高興得知 SynapseML 現(xiàn)在在這項(xiàng)服務(wù)上普遍可用,并提供企業(yè)服務(wù)?!蔽④涇浖こ處?Mark Hamilton 在一篇博客文章中寫道。
AI 技術(shù)的使用和分析能力逐漸增強(qiáng),但大約 87% 的數(shù)據(jù)科學(xué)項(xiàng)目仍未產(chǎn)業(yè)化落地。根據(jù)美國(guó) AI 算法交易服務(wù)平臺(tái) Algorithmia 最近的調(diào)查,22% 的公司需要一到三個(gè)月的時(shí)間來(lái)部署模型以實(shí)現(xiàn)業(yè)務(wù)價(jià)值,而 18% 的公司需要三個(gè)月以上的時(shí)間。
SynapseML 將現(xiàn)有的機(jī)器學(xué)習(xí)框架和微軟開發(fā)的算法打包,統(tǒng)一放到一個(gè) API 中,以此來(lái)解決數(shù)據(jù)項(xiàng)目無(wú)法落地的挑戰(zhàn),該 API 可用在 Python、R、Scala 和 Java 中。SynapseML 使開發(fā)人員能夠幫助需要多個(gè)框架的使用案例實(shí)現(xiàn)組合,例如創(chuàng)建搜索引擎,同時(shí)在可調(diào)整大小的計(jì)算機(jī)集群上訓(xùn)練和評(píng)估模型。
二、無(wú)監(jiān)督學(xué)習(xí)功能,可填補(bǔ)研究空白
正如微軟在該項(xiàng)目的網(wǎng)站上所解釋的那樣:“SynapseML 中的工具允許用戶制作跨越多個(gè)機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)的強(qiáng)大且高度可擴(kuò)展的模型。SynapseML 還為 Spark 生態(tài)系統(tǒng)帶來(lái)了新的網(wǎng)絡(luò)功能。通過(guò) HTTP on Spark 項(xiàng)目,用戶可以將任何 Web 服務(wù)嵌入到他們的 SparkML 模型中,并使用他們的 Spark 集群進(jìn)行大規(guī)模的工作。”
▲ 引擎庫(kù) SynapseML 架構(gòu)
SynapseML 還集成了開放神經(jīng)網(wǎng)絡(luò)交換 (ONNX),這是一個(gè)由微軟和 Meta(原 Facebook)共同開發(fā)的框架,可以在運(yùn)行時(shí)使用來(lái)自不同機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)的模型。通過(guò)集成,開發(fā)人員只需幾行代碼即可執(zhí)行各種經(jīng)典機(jī)器學(xué)習(xí)模型。
該 API 具有“無(wú)監(jiān)督學(xué)習(xí) AI”的功能,包括用于理解數(shù)據(jù)集不平衡的功能,例如種族或性別等敏感數(shù)據(jù)集特征是否被過(guò)度解讀或無(wú)法識(shí)別,而無(wú)需標(biāo)記訓(xùn)練數(shù)據(jù)和模型的可解釋性,也就是說(shuō)明為什么模型會(huì)做出某些預(yù)測(cè)以及如何改進(jìn)訓(xùn)練數(shù)據(jù)集。
SynapseML 引入可以用于個(gè)性化推薦的 Vowpal Wabbit 框架,以及強(qiáng)化學(xué)習(xí)的新算法模型 contextual bandit,幫助開發(fā)人員訓(xùn)練 AI 模型。
在不需要標(biāo)記數(shù)據(jù)集的情況下,無(wú)監(jiān)督學(xué)習(xí)可以幫助填補(bǔ)某些領(lǐng)域知識(shí)的空白。例如,F(xiàn)acebook 最近發(fā)布的無(wú)監(jiān)督模型 SEER,可以在 10 億張圖像上進(jìn)行訓(xùn)練,并能在一系列計(jì)算機(jī)視覺(jué)基準(zhǔn)測(cè)試中取得較優(yōu)秀的結(jié)果。
然而,無(wú)監(jiān)督學(xué)習(xí)并不能消除系統(tǒng)預(yù)測(cè)中存在偏差或缺陷的可能性。一些專家認(rèn)為,消除這些偏差可能需要對(duì)無(wú)監(jiān)督模型進(jìn)行專門培訓(xùn),并使用額外的、較小的數(shù)據(jù)集來(lái)消除偏差。
“我們的目標(biāo)是讓開發(fā)人員免于擔(dān)心分布式實(shí)現(xiàn)細(xì)節(jié)的麻煩,并能夠?qū)⑺鼈儾渴鸬礁鞣N數(shù)據(jù)庫(kù)、集群和編程語(yǔ)言中,而無(wú)需更改開發(fā)人員的代碼?!盚amilton 補(bǔ)充道。
結(jié)語(yǔ):開源引擎庫(kù),促進(jìn)算法落地
伴隨著科技發(fā)展突飛猛進(jìn),AI 所引發(fā)的技術(shù)革命也在飛速發(fā)展,包括機(jī)器學(xué)習(xí)等領(lǐng)域的 AI 研究在性能、效率上不斷升級(jí)的同時(shí),其算法落地仍面臨困境,無(wú)法大規(guī)模投入使用。
微軟此次開源 SynapseML 庫(kù),不斷改進(jìn)機(jī)器學(xué)習(xí)算法,將現(xiàn)有的機(jī)器學(xué)習(xí)框架和微軟開發(fā)的算法統(tǒng)一,提高 AI 的數(shù)據(jù)處理和分析能力,進(jìn)一步促進(jìn) AI 技術(shù)發(fā)展。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。