國際殘疾人日：微軟正式捐贈首批人工智能有聲內(nèi)容，包括魯迅、老舍、蕭紅、朱自清等作家的經(jīng)典作品

2020/12/4 20:00:40 來源：IT之家作者：騎士責(zé)編：騎士

評論：

IT之家12月4日消息 12 月 2 日，微軟與周迅 AI 語音紅丹丹公益項目發(fā)起人——鹿音苑文化傳播公司、以及來自微軟及各界的 150 余名志愿者，將創(chuàng)作的首批人工智能有聲內(nèi)容，包括魯迅、老舍、蕭紅、朱自清等作家的一系列經(jīng)典作品、紅丹丹文化期刊，正式捐贈給北京市紅丹丹視障文化服務(wù)中心（下文簡稱 “紅丹丹”）“心目圖書館”。

這些作品是基于微軟 Azure 云認(rèn)知服務(wù)語音合成平臺 Speech Studio 及其豐富的人工智能（AI）語音創(chuàng)作的，其中包括藝人周迅授權(quán)的定制聲音、紅丹丹視障人士播音員董麗娜授權(quán)的定制聲音，以及多個微軟智能語音合成平臺聲音（如曉曉、云野等）。

隨著人工智能時代的到來，語音服務(wù)重要性不斷凸顯，微軟在不斷探索突破智能語音極限，加快從研發(fā)到產(chǎn)品的落地，希望以科技力量賦能更多人和組織。

語音技術(shù)最新進展視頻：

媲美專業(yè)發(fā)音人的智能語音系統(tǒng)

微軟在智能語音領(lǐng)域已深耕長達二十余年。智能語音作為人工智能的核心技術(shù)之一，早已融入于微軟全球產(chǎn)品，這其中包括 Windows 朗讀、Skype、Office 等產(chǎn)品，并隨著微軟云認(rèn)知服務(wù)（CognitiveServices）的推出，形成面向開發(fā)者和合作伙伴的開放平臺體系，提供強大而靈活的語音服務(wù)。

近年來，結(jié)合深度神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷創(chuàng)新，微軟智能語音合成（Text-To-Speech，TTS）技術(shù)取得了諸多突破性進展。2018 年 12 月，微軟率先在全球范圍內(nèi)推出端到端的深度神經(jīng)網(wǎng)絡(luò)語音合成服務(wù)，使計算機和智能設(shè)備擁有了媲美真人的人工智能聲音。

IT之家獲悉，在探索提升語音自然度的同時，微軟語音合成技術(shù)也不斷挖掘語音的表現(xiàn)力、豐富度和智能度。通過多情感、多角色和情感強度可調(diào)節(jié)等技術(shù)升級，微軟智能語音極大程度地豐富了合成語音的風(fēng)格。更進一步，為了大大降低有聲內(nèi)容的創(chuàng)作成本，微軟針對復(fù)雜長文本，提供了智能情感和角色的預(yù)測功能，讓 AI 語音具有更強的理解力，讓有聲內(nèi)容創(chuàng)作變得輕松又便捷。

具體而言，智能語音多情感技術(shù)創(chuàng)造性地從人類語音中挖掘出情感語音特征，賦予了合成語音擬人的表現(xiàn)力，讓合成語音不僅可以根據(jù)不同場景進行變化，也有了 “自己的喜怒哀樂”。聲音因此更富有表現(xiàn)力，不僅得以更貼切地表達文字內(nèi)容，也讓語音更容易理解、更生動。

譬如，中文曉曉的聲音已達到 14 種情感風(fēng)格，可以用 “抒情”、“新聞”、“聊天”等不同風(fēng)格來演繹不同使用場景下的作品，也可以用 “開心”、“悲傷”、“生氣”、“恐懼”等多樣情感在對話中表達不同的情緒和態(tài)度。

人的情緒就好比是色譜，色譜的顏色從深到淺，人的情緒也一樣，有從強到弱的變化。微軟智能語音情感強度可調(diào)節(jié)技術(shù)，可以加強或者減弱情感強度，讓情緒的表達更加細膩，從而大大擴展了情感矩陣，豐富了多情感語音的表達；在實際的人與人對話中，情感的變化是微妙的，通過情感程度可控技術(shù)，可以讓人工智能對話或聊天機器人變得更流暢、真實，人設(shè)也更加統(tǒng)一。

微軟智能語音提供眾多聲音角色供用戶選擇，覆蓋不同的年齡、性別和個性特征，其中一些聲音還可以扮演不同角色，比如男聲演繹女聲、年輕聲音扮演年老聲音等。通過微軟高質(zhì)量的聲音家族，用戶可以挑選更符合實際場景的不同音色，滿足自然的對話需求，也可以創(chuàng)作更有趣的多播劇。大大擴展了有聲內(nèi)容的創(chuàng)作空間。

微軟智能語音也在探索更加智能、更具理解力的語音系統(tǒng)，在創(chuàng)造出豐富、自然、具有表現(xiàn)力的有聲內(nèi)容的同時，進一步降低人工的操作成本。根據(jù)上下文信息，微軟語音能夠識別出來旁白和對話，人物角色，以及語氣和情緒，并自動推薦一個最合適的聲音。

為了讓每個人都可以輕松創(chuàng)作有聲內(nèi)容，微軟提供了一套智能有聲內(nèi)容創(chuàng)作工具平臺。輸入文本后，工具可以先針對角色和情緒進行預(yù)測，然后選擇合適的聲音進行演繹。創(chuàng)作者可以對聲音、情感、韻律、發(fā)音等進行調(diào)優(yōu)，創(chuàng)造出不一樣的有聲內(nèi)容。

作為情感的延伸，唱歌是人類表達情感的重要方式。微軟語音也在基于神經(jīng)網(wǎng)絡(luò)的唱歌技能上取得了突破。微軟人工智能語音曉曉和朱婧汐一起合唱高難度的《人類零件》歌曲，展示了中英雙語演唱以及說唱能力，合成效果逼真自然。

微軟云擁有全球覆蓋最多的數(shù)據(jù)中心，其認(rèn)知服務(wù)智能語音技術(shù)面向全球市場，覆蓋語言數(shù)量世界領(lǐng)先。目前，微軟的語音合成支持 54 個國家和地區(qū)的語言，提供超過 150 個聲音供選擇。

微軟語音支持深度品牌定制

在人工智能時代，AI 聲音已經(jīng)不僅僅是一項基本能力，更被賦予了很多品牌屬性。在諸多行業(yè)的實際應(yīng)用中，客戶往往需要一個具有高識別度的個性化的聲音，而 “深度定制”恰是微軟智能語音平臺的一大強項。

基于客戶提供的聲音數(shù)據(jù)，微軟可以實現(xiàn) “細粒度”的定制，包括語音合成的音色、說話的風(fēng)格、特殊的發(fā)音需求甚至演唱等特色功能等。在使用方面，微軟語音也相當(dāng)靈活，不僅服務(wù)于云平臺，也支持本地化和離線部署等多種場景。

微軟云計算與人工智能事業(yè)部資深產(chǎn)品總監(jiān)丁秉公認(rèn)為，個性化時代，聲音即品牌。微軟的語音合成技術(shù)可以為企業(yè)定制豐富的音色，實現(xiàn)品牌價值的最大化。

2019 年 11 月，微軟推出了基于深度神經(jīng)網(wǎng)絡(luò)語音合成技術(shù)的聲音定制服務(wù)（Custom Neural Voice）平臺，將高質(zhì)量的語音合成引擎開放給第三方，使得微軟合作伙伴和客戶可以通過簡單的自助服務(wù)定制有標(biāo)識度和個性化的聲音。

微軟語音定制涵蓋了從聲音畫像的設(shè)計、到數(shù)據(jù)的收集和整理、模型的優(yōu)化和系統(tǒng)部署的方方面面。用戶更可以通過 CustomVoice 聲音定制平臺實現(xiàn)一鍵定制的自助服務(wù)。

傳統(tǒng)技術(shù)定制的語音模型，由于需要發(fā)音人錄制成千上萬句話，需要耗費幾個月的時間，成本巨大。而微軟基于深度神經(jīng)網(wǎng)絡(luò)技術(shù)的定制化語音，可以用更少的數(shù)據(jù)達到更加高擬人度和自然真實的效果。通過微軟語音涵蓋超過 50 個語言的 UNI-TTS 基礎(chǔ)模型和深度神經(jīng)網(wǎng)絡(luò)強大的遷移學(xué)習(xí)能力，微軟聲音定制還支持跨語言定制，實現(xiàn)一個音色多個語種的多語言能力。

據(jù)悉，這一技術(shù)已經(jīng)率先在多個知名企業(yè)得到應(yīng)用。這包括新媒體、通信、教育、金融等多個行業(yè)，涉及客戶服務(wù)、AI 對話和內(nèi)容生產(chǎn)的多個場景。

譬如英國廣播公司 BBC 就在微軟聲音定制和語音合成技術(shù)的幫助下，打造了一款虛擬助手 Beeb 用于多模態(tài)的客戶服務(wù)和有聲內(nèi)容創(chuàng)作。具體而言，BBC 不僅需要 Beeb 發(fā)出標(biāo)準(zhǔn)英式發(fā)音，甚至細化到英國北部某個特定地區(qū)的口音風(fēng)格，還有多風(fēng)格的要求，比如在跟真人打招呼時，聲音需要符合個人助理身份的互動風(fēng)格，而在播報政治、軍事類新聞時，就需要嚴(yán)肅的聲音風(fēng)格。

面對這一挑戰(zhàn)，微軟在 BBC 提供的不到 2 小時的錄音人數(shù)據(jù)量中，與語言專家、客戶挑選和分析其中特定口音的發(fā)音特點，匯總成模型能識別的規(guī)律，最后構(gòu)建到定制化模型里，生成高質(zhì)量、多風(fēng)格的聲音。

在教育行業(yè)，微軟語音團隊協(xié)助知名獨角獸公司多鄰國 Duolingo 打造具有多語言能力和豐富角色特征的聲音。據(jù)多鄰國藝術(shù)總監(jiān) GregHartman 介紹，“每一個角色的聲音都是和它的人物性格的一部分。微軟定制聲音平臺基于我們的角色特性，賦予了每一個人物生動的聲音風(fēng)格?！?/p>

此外，微軟智能語音團隊還幫助 AT&T 時代華納、Swisscom（瑞士電信）、Progressive 等多家知名企業(yè)創(chuàng)建了他們的個性化聲音，實現(xiàn)與用戶的自然對話和交互。

在中國，目前語音服務(wù)也落地到由世紀(jì)互聯(lián)運營的 Azure 云服務(wù)上，中國用戶可以使用和全球一樣質(zhì)量的語音合成服務(wù)。

2019 年春節(jié)前夕，央視新聞聯(lián)合微軟推出互動融媒體產(chǎn)品《你的生活 AI 為你唱作》，其中央視主播康輝和微軟 AI 智能語音中文曉曉為用戶唱作專屬歌曲，央視主播康輝的聲音即是利用微軟智能語音的聲音定制技術(shù)生成。此外，周迅為紅丹丹圖書館錄制有聲書、知名作家土摩托錄制三聯(lián)生活周刊音頻內(nèi)容時，都用到了微軟定制語音合成技術(shù)。微軟以少量真人語音為訓(xùn)練樣本，為他們合成了專屬于自己的智能 TTS 聲音。

除語音合成之外，微軟 AIspeech 還能夠提供全面的核心語音能力，例如語音識別、語音評測、語音翻譯，這些能力都支持多語種以及基于不同場景的定制。

其中，微軟的語音識別支持全球 30 個地區(qū)和國家語言，能夠提供近場和遠場識別，在線（real-time）和離線（batch）的靈活調(diào)用方式。語音識別還可以支持關(guān)鍵詞識別，說話人分離，語言識別，情緒識別等多種功能。

而微軟語音評測產(chǎn)品可支持包括英語在內(nèi)的全球 40 多個國家和地區(qū)的語言，廣泛適用于教育領(lǐng)域解決方案的合作伙伴、APP 開發(fā)者以及語言學(xué)校、培訓(xùn)中心、教育機構(gòu)、考試中心的各種語言學(xué)習(xí)、口語練習(xí)和考試等場景的開發(fā)。

隨著深度神經(jīng)網(wǎng)絡(luò)算法的突破，數(shù)據(jù)的爆發(fā)，基礎(chǔ)設(shè)施的完善，AI 語音技術(shù)正在走向大規(guī)模應(yīng)用增長的發(fā)展方向。微軟以及其他平臺公司將不斷通過 AI 技術(shù)賦能更多場景，可以提供無限可能。

體驗有聲內(nèi)容創(chuàng)作工具平臺：https://speech.microsoft.com/audiocontentcreation

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

國際殘疾人日：微軟正式捐贈首批人工智能有聲內(nèi)容，包括魯迅、老舍、蕭紅、朱自清等作家的經(jīng)典作品

相關(guān)文章

國際殘疾人日：微軟正式捐贈首批人工智能有聲內(nèi)容，包括魯迅、老舍、蕭紅、朱自清等作家的經(jīng)典作品