IT之家11月24日消息 11月21日,微軟小冰團隊在北京微軟大廈舉辦了Research Workshop活動,科學家團隊帶來了小冰2019年度最新科研進展及其應用,及對業(yè)內技術研發(fā)趨勢的展望。IT之家被邀請參加,在這個微軟大廈中的會議廳中,筆者再一次感受到了小冰產品背后的技術原理和對人工智能獨特理解的高追求目標。
IT之家報道,微軟小冰在核心對話引擎方面,經(jīng)過了經(jīng)過檢索模型、生成模型、共感模型的歷次技術迭代,2017年就推出了全雙工語音交互感官的上線和產品落地,目前正在發(fā)展的面向未來的多模態(tài)交互感官,融合了全雙工語音交互、實時視覺與核心對話引擎的全新交互感官。小冰也能實現(xiàn)用戶與人工智能同時邊聽邊說邊看的交互體驗。
點對了科技樹,微軟小冰變得越來越像一個人了。
微軟小冰首席科學家宋睿華介紹稱,第七代微軟小冰已成為全球最大的跨領域人工智能系統(tǒng)之一,產品形態(tài)涵蓋了社交對話機器人、智能語音助理、人工智能內容創(chuàng)作和生產平臺等。在全球多個國家,微軟小冰單一品牌已覆蓋6.6億在線用戶、4.5億臺第三方智能設備和9億內容觀眾,在交互場景拓寬的情況下,微軟小冰與用戶的單次平均對話輪數(shù)(CPS)達到了23輪。
實際上,微軟小冰2019年度研究進展活動更像是小冰的科學家們對外公布的一場學術報告會,向IT之家等介紹了小冰背后的研發(fā)情況,包括NLP自然語言處理、聽覺語音學研究、計算機視覺和圖形學,還有多模態(tài)生成技術等等。
▲微軟小冰首席NLP科學家 武威(左)、微軟小冰首席語音科學家 欒劍(中)、微軟小冰首席科學家 宋睿華(右)
微軟小冰在創(chuàng)新方面獲得了一定成績,IT之家了解到,小冰團隊已經(jīng)在AAAI、IJCAI、ACL、KDD、ACM MM、WSDM、EMNLP、WSDM等上發(fā)表了48篇論文;申請了72項專利,包括全雙工、Avatar Framework和多模態(tài)方面的領先強大專利;2019年亮點包括發(fā)布3篇ACL,1篇IJCAI,4篇EMNLP,1篇InterSpeech,1篇ACM MM長論文,贏得了CLSW 2019杰出論文獎《“Love is as Complex as Math”: Metaphor Generation System for Social Chatbot》,意思是“愛就像數(shù)學一樣復雜”:社交聊天機器人的隱喻生成系統(tǒng)。
微軟小冰的對話研究
微軟小冰的基礎就是對話,在自然語言處理方面,微軟小冰首席NLP科學家武威帶來了《Towards a Self-Complete Chatbot》(朝向自我完備的對話機器人)的演講,其認為一個能夠自我完備的對話機器人應該擁有以下能力。也就是說小冰在對話語句上要能夠補充所缺乏信息的能力。
能力一,學習——能夠從人類的對話中學習怎樣去說話。機器人之間可以互相學習,就像人類之間一樣。
在檢索模型方面,從最簡單的LSTM模型到最近的預訓練的模型,質量得到非常大的飛躍。而背后代表這個模型從單輪做到多輪,從淺層次表示、匹配到深層次、寬度表示和匹配的發(fā)展進程。
在基礎架構方面,可以把用戶的輸入和回復候選都表示成向量,通過計算向量的相似度來度量這個侯選是不是一個合適的回復。將輸入和回復侯選在每一個詞上都進行交互,然后得到一個充分的交互矩陣,然后再把交互的信息從這個矩陣中通過神經(jīng)網(wǎng)絡抽取出來,變成一個匹配的程度。
多輪對話交互從單輪對話延伸出來,把一句話表示變成多句話表示,額外把多句的表示糅合成上下文的表示,然后再進行匹配。還可以做細膩度的交互,比如讓上下文中的對話與回復候選進行交互,然后再把這些交互信息通過一個神經(jīng)網(wǎng)絡整合起來,變成最后的上下文和回復侯選的匹配程度。
在生成模型方面,逐步做到引入外部知識,從單一模態(tài)的回復到可以兼容各種各樣的,包括聲音、視覺、語言這種模態(tài)的生成。通過小冰提出的外部無監(jiān)督訓練話題模型,產生一些話題語料,然后在生成模型中通過話題注意力機制,去遴選話題語料,最后再在解碼的過程中單獨做出一個話題的生成概率,讓話題能夠更容易出現(xiàn)在回復中。多輪對話中可通過一種無監(jiān)督方式,對對話上下文進行補全,然后進行回復。
模型之間也可以互相學習,兩個檢索模型在訓練過程中互為師生,互相交流。在每一次迭代的時候,一個模型都把它從數(shù)據(jù)中學到的知識傳達給另外一個模型,同時又從另外一個模型中接觸到它的知識,然后這兩個模型互相學習,最終希望能夠得到共同的進步。
能力二,自主管理——對話單輪表達。把控整個的對話流程。
在自主管理中,微軟小冰對IT之家表示,一個有趣的應用是第六代小冰發(fā)布的共感模型,包含了回復生成模型、策略決定模型。
共感模型把微軟小冰從原來基于上下文直接產生回復的模式,變成了從上下文到?jīng)Q策,然后再根據(jù)這個決策來決定我說什么的模式。
其中的策略就是表達意圖,可以是話題,也可以是情感等等,當然也可以是意圖、話題、情感組合,通過策略組合,可以產生非常多樣的、復雜的對話流程。微軟通過引入meta-word的概念,代表了屬性組合。然后通過變換屬性值就可以生成各種各樣的回復。
能力三,連結——對話機器人連結散落在世界上的多模態(tài)知識。
連結牽扯到多模態(tài)交互,輸入可以是對話、語音、文本知識、多媒體,輸出也可以是對話、語音、多媒體,這其中很重要的問題是機器人如何能夠把多模態(tài)的知識連結在一起,進行消化、吸收,最終把它有機的組合起來,變成自己的一個輸出。
以上是對話機器人這些年來,甚至可能是未來一段時間整個的研究與發(fā)展。而微軟小冰再加上橫線發(fā)展,包括從檢索模型(重用人類已有話語),到生成模型(合成回復),再到共感模式(自主把握對話流程)??v線和橫線交錯發(fā)展成對話機器人發(fā)展的絢爛畫卷。
IT之家獲知,與其他模型不同的是,微軟小冰的共感模型會根據(jù)上下文把控對話的流程,不僅要知道上下文是什么,還要根據(jù)重要性進行對話的組合,怎樣引導對話,來達到有組織有目標的交流,這一般是有很高情商的人類才能做到的。
微軟小冰唱歌的研究
IT之家網(wǎng)友可能也好奇,小冰為什么要做唱歌呢?微軟小冰首席語音科學家欒劍 做出了相關解答。
從前小冰在2015年提出語音聊天功能,聲音非常生動活潑,符合小冰個性,后來逐步增加了兒化音、中英文混雜朗讀、講兒童故事、各種情感表現(xiàn),發(fā)現(xiàn)在語音合成領域的一些大方面內容已解決。微軟小冰希望尋找更有挑戰(zhàn)的課題來做,唱歌就選做了目標,主要有三個目標:
第一,唱歌的門檻比說話高。
第二,情感表達上更加豐富激烈一些。
第三,它是一個很重要的娛樂形式。
但唱歌和說話有什么不同呢?唱歌的很多技術是從語音合成沿襲過來的,據(jù)分析它有三大要素:
第一,發(fā)音,唱歌吐字發(fā)音一定要清晰,和說話一樣。
第二,節(jié)拍,是通過一種節(jié)奏的變化來表現(xiàn)藝術的形式,像我們普通的說唱,比如“一人我飲酒醉”說唱的形式,可能沒有其它的旋律,主要就是靠節(jié)拍的組合來表達。
第三,旋律,每個字的音高會不太一樣,如果音高唱錯、跑調,這首歌肯定就沒法聽了。
所以,這三大要素構成了唱歌最基本的元素,當然還可以疊加很多的技巧,比如顫音、氣音之類的。
而機器學習唱歌有兩種方式:一種是通過模仿人聲去學習,第二種就是通過曲譜方式,通過簡譜或者五線譜,配上歌詞。簡譜涵蓋了三大要素,既有歌詞,歌詞會有發(fā)音元素,也會有節(jié)拍和音高。前者是簡單且廣泛的形式,但機器在判斷讀音時會有誤差,后一種反而是便捷且干凈的輸入。
接下來就是唱歌的合成演繹了。可以通過單元拼接的方式,基本思想是建立一個單元庫,包括聲母和韻母等,通過錄制不同字母的發(fā)音(不同長度、不同音高)采集,最終加上信號處理方法修改,完美匹配效果,將這些單元串接起來,拼接得到最后的音頻。這個方法雖然簡單,也可保留采集最佳音質,但單獨發(fā)音和連續(xù)發(fā)音區(qū)別還是很大,生成歌曲不太自然。
IT之家獲知,在語音行業(yè)里大家熟悉使用的是隱馬爾可夫模型,把所有錄音數(shù)據(jù)提取出聲學參數(shù),里面可能包括能量譜、時長、音高,然后去建一個模型,要合成的時候,就根據(jù)想要的發(fā)音到模型里面預測,預測出聲學參數(shù),然后通過聲學參數(shù)、聲碼器把音頻的波形重構出來,方法靈活。不過其中最大的關鍵點是聲碼器,參數(shù)還原聲音過程中,就會有音質的損失。
但微軟小冰基于發(fā)展需求,一開始就選擇了第二種方法,使用模型從樂譜里面采集出三大要素,分別對聲譜參數(shù)、節(jié)奏序列、音高軌跡用三個模型分別建模,采用DNN神經(jīng)網(wǎng)絡,將預測參數(shù)通過聲碼器生成波形。在最新模型里,復雜結構已經(jīng)用到了卷積神經(jīng)網(wǎng)絡、attentions、其他的殘差連接之類技術,使用多個模塊,使得三個參數(shù)同時建模變成可能,這樣生成的波形在自然度和流暢度會得到明顯的提升。
在唱歌清唱方面,是嚴重缺乏數(shù)據(jù),絕大部分的數(shù)據(jù)是混雜的、伴奏的音軌。微軟小冰團隊在進一步研究如何在伴奏音頻中把人聲的音高提取更好的模型,從而豐富小冰演唱的風格。
微軟小冰學會“比喻”
小冰已經(jīng)學會了寫詩、畫畫、唱歌等操作,那么小冰是否可以創(chuàng)造比喻呢?對于人類而言,比喻是一種生動表達,用于解釋抽象的、難以理解的概念。微軟小冰首席科學家宋睿華對IT之家表示,比喻重要的是能不能找到一種適合小冰的通用規(guī)則。
輸入是本體,而喻體的輸出是解釋。本體一般是抽象的,比如說愛情,而喻體是具體的。而這兩個概念之間的聯(lián)系通過用Word Embedding來表達它,將其變成一個向量,經(jīng)過降維之后,投影在這個二維的空間上。通過自然語言形態(tài)的連接詞將其結合起來,組成一個比喻。連接詞可以在Bing搜索找到句子,并經(jīng)過NLP分析之后確定關聯(lián)的相關性。
微軟通過三個方面技術了評價:
第一,評判比喻句是否通順。
第二,評判比喻是否恰當。
第三,評判比喻是否新穎。
最終小冰可以生成類似“孤獨像是空無一人的車站,幸福像是可愛的毛毛蟲”這樣的比喻句,看起來符合常理和認知。
研究發(fā)現(xiàn),小冰的比喻句比陳述句更能吸引人。如果你把它拆成兩輪的方式,先賣一個關子,然后再去解釋,人們會更喜歡一些。
微軟小冰像人類一樣想象
微軟小冰未來能否像人類一樣思考和想象呢?IT之家在現(xiàn)場了解到,微軟小冰的團隊已經(jīng)開始了相關研究。微軟小冰首席科學家宋睿華通過舉了一個例子引入了跨模態(tài)理解的部分。就是當機器識別到文字和圖片后,還能夠像人類一樣可以啟用情緒等感官,讓人工智能的反應和回饋更像是人類。
“北極熊愛吃海豹肉,而且愛吃新鮮的”。當人類看到這句話的時候,一開始你會識別出來一些詞匯,比如北極熊、海豹,可能你腦海中也會閃現(xiàn)出類似于北極熊的圖片或者是可愛的海豹。這些機器也能做到,但是他不能理解北極熊吃海豹可能會流口水。
另外人類在解讀這段文字的時候,會自然進行思考理解,“北極熊悄然接近獵物,有時候會用爪子接近自己的鼻子,”因為鼻子是黑色的,這樣一來它就會變得更不易察覺,很明顯北極熊是在掩蓋自己的鼻子。這些文字之外的信息對機器理解來說是非常困難的。
微軟團隊表示,他們一直想讓小冰更像人類,更好的理解對話、更好的理解語言,讓小冰能否在語言背后找到一些常識性的內容,即暗含的意思。
在微軟小冰團隊的研究中,將這個問題定義成一個故事,它可能由N句話組成,看能不能生成M個圖片來對應這N句話,就好像你的腦海中聽到了這個故事之后產生的場景一樣。然后根據(jù)受模擬體驗假說,讓小冰生成和調用以往的記憶,當新的圖像和文字出現(xiàn)后,進行一些模擬場景的匹配或者替換,是的場景更加一致。
如果一句話的信息很多,通過one to many算法檢索和插入更多的圖片,通過模型和算法逐步完善,去表達出一個更接近人類的故事。
“我們其實想讓小冰更像人,你會發(fā)現(xiàn)除了工作,聽音樂是你很大的一個享受。我覺得人跟動物的不同在于有一定的自主性,人工智能創(chuàng)造體現(xiàn)了一種自主性,包括作曲、寫詩、畫畫,我們做算法的人也不知道最后會產生什么樣的結果,你在那一瞬間就會有一個錯覺,覺得她有意識,這是非常好的一個點?!彼晤HA表示。
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。