要問智能手機上最雞肋的功能,小編第一個想到的是人工智能語音助手:幾乎不使用,扔掉又可惜。
為什么幾乎不用呢?且不說別的,首先就因為語音助手們不會像人一樣說話。
每和它說一句話,都要先說“嘿,Siri”,或者“你好小藝”,或者“小愛同學”,或者……說久了小編覺得自己都快成智障了……
這第一步就讓人望而卻步,所以,打入冷宮唄。
不過,在11月19日舉行的小米開發(fā)者大會上,小米小愛同學3.0的發(fā)布引起了小編的注意,因為她有一個重要的更新:更自然的連續(xù)對話。
小愛同學也成了首個在手機上實現(xiàn)自然語言連續(xù)對話的AI助理。
最近,IT之家小編汐元更新了小愛同學3.0,體驗了一下這個連續(xù)對話究竟是怎樣的。
一、小愛同學3.0連續(xù)對話的體驗
汐元使用的是小米9 Pro 5G版,更新時只需要對小愛同學說“現(xiàn)在升級”,她就能夠自動升級到3.0版本了。
升級之后,連續(xù)對話功能不是默認開啟的,你需要在小愛同學的設置選項中手動開啟。
開啟后,汐元嘗試和小愛同學進行了一段對話:
在這之前,汐元還和舊版的小愛同學進行了一段類似的對話:
對比上面兩個測試的視頻,很明顯,支持連續(xù)自然語言對話的小愛同學3.0比以前好用多了,體現(xiàn)在:
說一次喚醒詞,就可以一直對話下去,不用反復喊“小愛同學”了;
在小愛同學話說一半的時候,你可以打斷她,讓她執(zhí)行下一個指令;
當然,目前在連續(xù)對話下,你和小愛同學閑聊,她仍然會回答一些不合邏輯的話:
但至少,現(xiàn)在和小愛同學說話,在方式上很像和人交流了。
汐元覺得,這才是AI助手擺脫“智障”標簽的第一步。
別小看這第一步?!叭藱C語音交互”的終極目標,不就是要像“人人語言交互”一樣嗎?
這么,這一小步背后,又是哪些技術在制程呢?連續(xù)對話功能,究竟是怎么實現(xiàn)的?
二、全雙工多輪交互技術到底是什么?
根據(jù)小米的介紹,他們采用的是全雙工多輪交互技術。這是個什么技術呢?
首先,全雙工的意思就是,在同一時間里,信號可以雙向傳輸,即A可以發(fā)消息給B,同時B也可以發(fā)消息給A。
也就是A和B都可以同時發(fā)送信息和接收信息。
同理,半雙工的意思就是在同一時間,信號只能單向傳輸,即要么A發(fā)消息給B,要么B發(fā)小給A。
這個差別就像是現(xiàn)實中雙行道和單行道的差別。
全雙工本身不是什么尖端的、困難的技術,相反,很早就有了。它就是在芯片層面和外部之間采用發(fā)送線和接受線各自獨立的方法。
例如,電話就是典型的全雙工技術,而電話已經(jīng)誕生100多年了。
只是,要在AI語音交互中加入全雙工技術,這就有點困難了,畢竟,你要對話的不是真實的人啊。
三、插曲:常規(guī)情況下,語音助手是怎么識別人聲的
這里汐元要插一段,簡單給大家說一下通常AI進行語音識別是怎么實現(xiàn)的。
例如,我在對語音助手說“打開IT之家”的時候,手機通過麥克風接受到汐元的聲波模擬信號,然后將模擬信號轉(zhuǎn)化為數(shù)字信號。
接著,系統(tǒng)會對數(shù)字信號進行特征提取,提取時會將這段語音信息分成很多小塊,然后根據(jù)每個小塊的特征組成音素——“da kai ai ti zhi jia”,再將這些音素根據(jù)聲學特征進行分類。
然后,系統(tǒng)會將這些因素和自己的語言庫進行比對,根據(jù)語言的規(guī)律,找出對應的文字。
接著,系統(tǒng)還要根據(jù)文字進行自然語言理解,去理解文本的含義,然后找到答案,最后去進行自然語言的生成,輸出回答語音。這個過程中,需要強大的對話引擎參與。
目前對話引擎主要分為檢索模型和生成模型。
檢索模型,意思就是從知識庫中檢索最相近的問題,然后找出對應的答案。
▲圖片來源:微軟小冰技術講解PPT
生成模型,這個有些抽象,通俗說就是根據(jù)神經(jīng)網(wǎng)絡訓練的結(jié)果來給出答案。這個答案是AI自創(chuàng)的,不是檢索數(shù)據(jù)庫得到的。
所以,在算法不成熟的時候,AI的回答可能會有些不合邏輯。但這個更符合連續(xù)對話場景的需要。
小愛同學大部分時候采用的就是生成模型。
這相當于AI助手完成一個語音識別并回答的過程,也可以理解為完成一個半雙工的過程。
四、全雙工交互的難點和解決方法
那么全雙工下有什么不同呢?
首先我們知道,對于AI助手而言,全雙工就是輸入、輸出可以同時進行,這本身不是什么難點,畢竟電話都能做到了。
難在哪里呢?難在你和AI交互的時候,一旦全雙工,會帶來整個系統(tǒng)性的問題需要解決。
包括:
第一:怎么全面地降低功耗?
第二,連續(xù)對話是一個長時間的過程,怎么消除噪聲干擾?這個噪聲包括雜音,還有你不是對AI說地那些話。
第三,AI怎么理解、記住上下文語義,讓對話能夠繼續(xù)下去?
第四,AI在說話時,你也說話了。AI怎么判斷你是不是要打斷他,也就是怎么避免被誤打斷。
還有一個比較遠,就是AI和你持續(xù)對話時,能不能判斷什么時候沉默,什么時候打破沉默,要不要引出新話題?就是讓你覺得你說話的對象不是死板、機械的。
能夠解決這些問題,全雙工也就能普及了。
上面這些問題,其實目前都沒有十全十美的解決方案,但已經(jīng)有可用的了。
具體看小愛同學,怎么解決呢,
1、連續(xù)對話免喚醒
這個技術需要解決一系列問題。
連續(xù)對話免喚醒,也就是只喚醒一次,就可以多輪對話?,F(xiàn)在你每說完一個指令,AI不會歇著,而是隨時待命。那么問題來了,首先怎么降低功耗呢?
有一個辦法是分級處理。比如說,我向小愛同學下達了一個指令,她響應后,不會像以前那樣休息,而是繼續(xù)待命,等待再有人聲被檢測到。
等待的過程中,她不會做復雜地監(jiān)聽,而是第一級先簡單處理噪音,再做二級高精度處理。等有人聲出現(xiàn),才會進行聲紋識別等操作。也就是說,她是逐步提升計算性能的。
還有一點,也有利于降低功耗,就是語義拒識的算法,這個不僅是去除噪聲,也可以檢測到環(huán)境中,包括人說話中一些沒有語義意義的音頻片段(例如音樂聲、尖叫聲,說話中的嗯啊口語等),然后將他們?nèi)コ?,這樣也可以節(jié)省后端處理的計算資源。
當然,降低功耗也離不開硬件層面的進步,這是軟硬結(jié)合才能實現(xiàn)的效果。
然后就是,過去你在喚醒詞后面就是要對AI說的,現(xiàn)在連續(xù)對話了,AI怎么知道你是對它說話呢?
這里有一個過程叫語義選擇。通俗理解,就是當AI收到人聲,進入語義分析的環(huán)節(jié)時,它會先看看這句話的意思是否跟我這個設備覆蓋的語義規(guī)模、意圖相吻合,從而判斷當前人是不是跟設備說話。
汐元也模擬了一段包含噪聲、不同說話聲的測試場景:
小愛同學很穩(wěn)地過濾掉了背景的音樂噪聲,完全沒有受到干擾。
周圍的其他聲音中,汐元本人的說話聲,小愛同學基本都能準確識別出來。而另一臺手機播放的聲音,有時候會對交流造成打斷,有時候也能識別完整的語義,有時候則只能識別只言片語,然后給出錯誤的回答。
這說明,小愛同學已經(jīng)具備在復雜環(huán)境中識別指令的技術,但是,判斷的準確性還不太完美。
目前還有一種多模態(tài)交互的技術,就是除了語音之外,終端還會配合其他的傳感器,特別是視覺方面,這樣,AI就能更加精確地判斷用戶說話地意圖了。
2、讓對話穩(wěn)定持續(xù)下去
在連續(xù)對話中,怎樣讓對話持續(xù)下去呢?
首先要讓對話顯得自然,不出錯。我們在和語音助手交流地時候,經(jīng)常會發(fā)現(xiàn),你說話地時候,稍微停頓長一些,AI的識別就停止了(以為你說完了),然后給出一個錯誤的回答。
這種情況,小愛同學的解決辦法是,在云端根據(jù)用戶說話節(jié)奏和內(nèi)容,進行動態(tài)斷句,這可能需要一定時間的學習。
在回復時,則可以適時的回復“嗯”等人類常用的接話話術,這樣,系統(tǒng)就打破了對說話規(guī)則的要求,用戶也可以按照自身的說話習慣來進行交流。
怎樣理解上下文呢?說實話,這目前還是AI語音助手的一個難點。
這一點上,小愛同學的思路是,引入交互認知智能的概念,簡單說就是她在分析語義的時候會思考,會解讀當前所處的語境環(huán)境,并結(jié)合歷史任務,判斷用戶的意圖到底是什么。
這其中,涉及一些專業(yè)的技術,例如跨技能的上下文處理、多引擎(信息檢索、任務)的融合、指代消解、知識推理等。
指代消解是這里一個很重要的技術,大意就是能夠理解上下文代詞的意義。跨技能的上下文指代消解,就是在不同場景下也能判斷代詞。
例如汐元對小愛同學說:“今天上海天氣怎么樣?”然后又說“導航去那里”,查天氣和導航是兩個不同的技能,小愛同學就能夠理解其中的代詞。
然后還有一點,是防止誤打斷。這一點,小愛同學也有對應的技術,可以在對話的過程中,實時判斷是否需要打斷,不容易出現(xiàn)誤打斷,同時,對沒有語義的輸入,則不會打斷語音合成播放。
3、讓對話更有靈性
最后還有主動交互的技術,它可以智能判斷,甚至主動打斷用戶的啰嗦的表述,當對話陷入冷場時,也可以主動打破沉默僵局,實現(xiàn)流暢自然的用戶口語交流習慣。
這個技術暫時還沒有完全成熟的應用,不過在不久的將來,相信我們會看到更有靈性的AI助手。
總結(jié)
小愛同學3.0第一次將全雙工多輪對話的技術帶到了手機AI語音助手上,從而實現(xiàn)了連續(xù)對話的能力,正如汐元所說的,這是手機AI助手真正可用的第一步。
不過,汐元也了解到,這個技術此前在一些品牌的智能音箱產(chǎn)品上已經(jīng)使用了,這說明,全雙工的語音識別,是一個趨勢。
當然,全雙工的語音識別技術還沒那么成熟,也需要更長時間的技術優(yōu)化,但好歹,它已經(jīng)讓我們看到了AI助手在未來的無限可能性。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。