首頁 > 智能時代>人工智能

告別智障第一步：小米靠這個讓小愛同學更聰明

科技深水區(qū) 2019/11/30 21:02:17 責編：汐元

評論：

要問智能手機上最雞肋的功能，小編第一個想到的是人工智能語音助手：幾乎不使用，扔掉又可惜。

為什么幾乎不用呢？且不說別的，首先就因為語音助手們不會像人一樣說話。

每和它說一句話，都要先說“嘿，Siri”，或者“你好小藝”，或者“小愛同學”，或者……說久了小編覺得自己都快成智障了……

這第一步就讓人望而卻步，所以，打入冷宮唄。

不過，在11月19日舉行的小米開發(fā)者大會上，小米小愛同學3.0的發(fā)布引起了小編的注意，因為她有一個重要的更新：更自然的連續(xù)對話。

小愛同學也成了首個在手機上實現(xiàn)自然語言連續(xù)對話的AI助理。

最近，IT之家小編汐元更新了小愛同學3.0，體驗了一下這個連續(xù)對話究竟是怎樣的。

一、小愛同學3.0連續(xù)對話的體驗

汐元使用的是小米9 Pro 5G版，更新時只需要對小愛同學說“現(xiàn)在升級”，她就能夠自動升級到3.0版本了。

升級之后，連續(xù)對話功能不是默認開啟的，你需要在小愛同學的設置選項中手動開啟。

開啟后，汐元嘗試和小愛同學進行了一段對話：

在這之前，汐元還和舊版的小愛同學進行了一段類似的對話：

對比上面兩個測試的視頻，很明顯，支持連續(xù)自然語言對話的小愛同學3.0比以前好用多了，體現(xiàn)在：

說一次喚醒詞，就可以一直對話下去，不用反復喊“小愛同學”了；
在小愛同學話說一半的時候，你可以打斷她，讓她執(zhí)行下一個指令；

當然，目前在連續(xù)對話下，你和小愛同學閑聊，她仍然會回答一些不合邏輯的話：

但至少，現(xiàn)在和小愛同學說話，在方式上很像和人交流了。

汐元覺得，這才是AI助手擺脫“智障”標簽的第一步。

別小看這第一步?！叭藱C語音交互”的終極目標，不就是要像“人人語言交互”一樣嗎？

這么，這一小步背后，又是哪些技術在制程呢？連續(xù)對話功能，究竟是怎么實現(xiàn)的？

二、全雙工多輪交互技術到底是什么？

根據(jù)小米的介紹，他們采用的是全雙工多輪交互技術。這是個什么技術呢？

首先，全雙工的意思就是，在同一時間里，信號可以雙向傳輸，即A可以發(fā)消息給B，同時B也可以發(fā)消息給A。

也就是A和B都可以同時發(fā)送信息和接收信息。

同理，半雙工的意思就是在同一時間，信號只能單向傳輸，即要么A發(fā)消息給B，要么B發(fā)小給A。

這個差別就像是現(xiàn)實中雙行道和單行道的差別。

全雙工本身不是什么尖端的、困難的技術，相反，很早就有了。它就是在芯片層面和外部之間采用發(fā)送線和接受線各自獨立的方法。

例如，電話就是典型的全雙工技術，而電話已經(jīng)誕生100多年了。

只是，要在AI語音交互中加入全雙工技術，這就有點困難了，畢竟，你要對話的不是真實的人啊。

三、插曲：常規(guī)情況下，語音助手是怎么識別人聲的

這里汐元要插一段，簡單給大家說一下通常AI進行語音識別是怎么實現(xiàn)的。

例如，我在對語音助手說“打開IT之家”的時候，手機通過麥克風接受到汐元的聲波模擬信號，然后將模擬信號轉(zhuǎn)化為數(shù)字信號。

接著，系統(tǒng)會對數(shù)字信號進行特征提取，提取時會將這段語音信息分成很多小塊，然后根據(jù)每個小塊的特征組成音素——“da kai ai ti zhi jia”，再將這些音素根據(jù)聲學特征進行分類。

然后，系統(tǒng)會將這些因素和自己的語言庫進行比對，根據(jù)語言的規(guī)律，找出對應的文字。

接著，系統(tǒng)還要根據(jù)文字進行自然語言理解，去理解文本的含義，然后找到答案，最后去進行自然語言的生成，輸出回答語音。這個過程中，需要強大的對話引擎參與。

目前對話引擎主要分為檢索模型和生成模型。

檢索模型，意思就是從知識庫中檢索最相近的問題，然后找出對應的答案。

▲圖片來源：微軟小冰技術講解PPT

生成模型，這個有些抽象，通俗說就是根據(jù)神經(jīng)網(wǎng)絡訓練的結(jié)果來給出答案。這個答案是AI自創(chuàng)的，不是檢索數(shù)據(jù)庫得到的。

所以，在算法不成熟的時候，AI的回答可能會有些不合邏輯。但這個更符合連續(xù)對話場景的需要。

小愛同學大部分時候采用的就是生成模型。

這相當于AI助手完成一個語音識別并回答的過程，也可以理解為完成一個半雙工的過程。

四、全雙工交互的難點和解決方法

那么全雙工下有什么不同呢？

首先我們知道，對于AI助手而言，全雙工就是輸入、輸出可以同時進行，這本身不是什么難點，畢竟電話都能做到了。

難在哪里呢？難在你和AI交互的時候，一旦全雙工，會帶來整個系統(tǒng)性的問題需要解決。

包括：

第一：怎么全面地降低功耗？

第二，連續(xù)對話是一個長時間的過程，怎么消除噪聲干擾？這個噪聲包括雜音，還有你不是對AI說地那些話。

第三，AI怎么理解、記住上下文語義，讓對話能夠繼續(xù)下去？

第四，AI在說話時，你也說話了。AI怎么判斷你是不是要打斷他，也就是怎么避免被誤打斷。

還有一個比較遠，就是AI和你持續(xù)對話時，能不能判斷什么時候沉默，什么時候打破沉默，要不要引出新話題？就是讓你覺得你說話的對象不是死板、機械的。

能夠解決這些問題，全雙工也就能普及了。

上面這些問題，其實目前都沒有十全十美的解決方案，但已經(jīng)有可用的了。

具體看小愛同學，怎么解決呢，

1、連續(xù)對話免喚醒

這個技術需要解決一系列問題。

連續(xù)對話免喚醒，也就是只喚醒一次，就可以多輪對話?，F(xiàn)在你每說完一個指令，AI不會歇著，而是隨時待命。那么問題來了，首先怎么降低功耗呢？

有一個辦法是分級處理。比如說，我向小愛同學下達了一個指令，她響應后，不會像以前那樣休息，而是繼續(xù)待命，等待再有人聲被檢測到。

等待的過程中，她不會做復雜地監(jiān)聽，而是第一級先簡單處理噪音，再做二級高精度處理。等有人聲出現(xiàn)，才會進行聲紋識別等操作。也就是說，她是逐步提升計算性能的。

還有一點，也有利于降低功耗，就是語義拒識的算法，這個不僅是去除噪聲，也可以檢測到環(huán)境中，包括人說話中一些沒有語義意義的音頻片段（例如音樂聲、尖叫聲，說話中的嗯啊口語等），然后將他們?nèi)コ?，這樣也可以節(jié)省后端處理的計算資源。

當然，降低功耗也離不開硬件層面的進步，這是軟硬結(jié)合才能實現(xiàn)的效果。

然后就是，過去你在喚醒詞后面就是要對AI說的，現(xiàn)在連續(xù)對話了，AI怎么知道你是對它說話呢？

這里有一個過程叫語義選擇。通俗理解，就是當AI收到人聲，進入語義分析的環(huán)節(jié)時，它會先看看這句話的意思是否跟我這個設備覆蓋的語義規(guī)模、意圖相吻合，從而判斷當前人是不是跟設備說話。

汐元也模擬了一段包含噪聲、不同說話聲的測試場景：

小愛同學很穩(wěn)地過濾掉了背景的音樂噪聲，完全沒有受到干擾。

周圍的其他聲音中，汐元本人的說話聲，小愛同學基本都能準確識別出來。而另一臺手機播放的聲音，有時候會對交流造成打斷，有時候也能識別完整的語義，有時候則只能識別只言片語，然后給出錯誤的回答。

這說明，小愛同學已經(jīng)具備在復雜環(huán)境中識別指令的技術，但是，判斷的準確性還不太完美。

目前還有一種多模態(tài)交互的技術，就是除了語音之外，終端還會配合其他的傳感器，特別是視覺方面，這樣，AI就能更加精確地判斷用戶說話地意圖了。

2、讓對話穩(wěn)定持續(xù)下去

在連續(xù)對話中，怎樣讓對話持續(xù)下去呢？

首先要讓對話顯得自然，不出錯。我們在和語音助手交流地時候，經(jīng)常會發(fā)現(xiàn)，你說話地時候，稍微停頓長一些，AI的識別就停止了（以為你說完了），然后給出一個錯誤的回答。

這種情況，小愛同學的解決辦法是，在云端根據(jù)用戶說話節(jié)奏和內(nèi)容，進行動態(tài)斷句，這可能需要一定時間的學習。

在回復時，則可以適時的回復“嗯”等人類常用的接話話術，這樣，系統(tǒng)就打破了對說話規(guī)則的要求，用戶也可以按照自身的說話習慣來進行交流。

怎樣理解上下文呢？說實話，這目前還是AI語音助手的一個難點。

這一點上，小愛同學的思路是，引入交互認知智能的概念，簡單說就是她在分析語義的時候會思考，會解讀當前所處的語境環(huán)境，并結(jié)合歷史任務，判斷用戶的意圖到底是什么。

這其中，涉及一些專業(yè)的技術，例如跨技能的上下文處理、多引擎（信息檢索、任務）的融合、指代消解、知識推理等。

指代消解是這里一個很重要的技術，大意就是能夠理解上下文代詞的意義。跨技能的上下文指代消解，就是在不同場景下也能判斷代詞。

例如汐元對小愛同學說：“今天上海天氣怎么樣？”然后又說“導航去那里”，查天氣和導航是兩個不同的技能，小愛同學就能夠理解其中的代詞。

然后還有一點，是防止誤打斷。這一點，小愛同學也有對應的技術，可以在對話的過程中，實時判斷是否需要打斷，不容易出現(xiàn)誤打斷，同時，對沒有語義的輸入，則不會打斷語音合成播放。

3、讓對話更有靈性

最后還有主動交互的技術，它可以智能判斷，甚至主動打斷用戶的啰嗦的表述，當對話陷入冷場時，也可以主動打破沉默僵局，實現(xiàn)流暢自然的用戶口語交流習慣。

這個技術暫時還沒有完全成熟的應用，不過在不久的將來，相信我們會看到更有靈性的AI助手。

總結(jié)

小愛同學3.0第一次將全雙工多輪對話的技術帶到了手機AI語音助手上，從而實現(xiàn)了連續(xù)對話的能力，正如汐元所說的，這是手機AI助手真正可用的第一步。

不過，汐元也了解到，這個技術此前在一些品牌的智能音箱產(chǎn)品上已經(jīng)使用了，這說明，全雙工的語音識別，是一個趨勢。

當然，全雙工的語音識別技術還沒那么成熟，也需要更長時間的技術優(yōu)化，但好歹，它已經(jīng)讓我們看到了AI助手在未來的無限可能性。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：小愛同學，AI，小米，人工智能

告別智障第一步：小米靠這個讓小愛同學更聰明

相關文章