設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

國際殘疾人日:微軟正式捐贈首批人工智能有聲內(nèi)容,包括魯迅、老舍、蕭紅、朱自清等作家的經(jīng)典作品

2020/12/4 20:00:40 來源:IT之家 作者:騎士 責(zé)編:騎士

IT之家12月4日消息 12 月 2 日,微軟與周迅 AI 語音紅丹丹公益項目發(fā)起人——鹿音苑文化傳播公司、以及來自微軟及各界的 150 余名志愿者,將創(chuàng)作的首批人工智能有聲內(nèi)容,包括魯迅、老舍、蕭紅、朱自清等作家的一系列經(jīng)典作品、紅丹丹文化期刊,正式捐贈給北京市紅丹丹視障文化服務(wù)中心(下文簡稱 “紅丹丹”)“心目圖書館”。

這些作品是基于微軟 Azure 云認(rèn)知服務(wù)語音合成平臺 Speech Studio 及其豐富的人工智能(AI)語音創(chuàng)作的,其中包括藝人周迅授權(quán)的定制聲音、紅丹丹視障人士播音員董麗娜授權(quán)的定制聲音,以及多個微軟智能語音合成平臺聲音(如曉曉、云野等)。

隨著人工智能時代的到來,語音服務(wù)重要性不斷凸顯,微軟在不斷探索突破智能語音極限,加快從研發(fā)到產(chǎn)品的落地,希望以科技力量賦能更多人和組織。

語音技術(shù)最新進展視頻:

媲美專業(yè)發(fā)音人的智能語音系統(tǒng)

微軟在智能語音領(lǐng)域已深耕長達二十余年。智能語音作為人工智能的核心技術(shù)之一,早已融入于微軟全球產(chǎn)品,這其中包括 Windows 朗讀、Skype、Office 等產(chǎn)品,并隨著微軟云認(rèn)知服務(wù)(CognitiveServices)的推出,形成面向開發(fā)者和合作伙伴的開放平臺體系,提供強大而靈活的語音服務(wù)。

近年來,結(jié)合深度神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷創(chuàng)新,微軟智能語音合成(Text-To-Speech,TTS)技術(shù)取得了諸多突破性進展。2018 年 12 月,微軟率先在全球范圍內(nèi)推出端到端的深度神經(jīng)網(wǎng)絡(luò)語音合成服務(wù),使計算機和智能設(shè)備擁有了媲美真人的人工智能聲音。

IT之家獲悉,在探索提升語音自然度的同時,微軟語音合成技術(shù)也不斷挖掘語音的表現(xiàn)力、豐富度和智能度。通過多情感、多角色和情感強度可調(diào)節(jié)等技術(shù)升級,微軟智能語音極大程度地豐富了合成語音的風(fēng)格。更進一步,為了大大降低有聲內(nèi)容的創(chuàng)作成本,微軟針對復(fù)雜長文本,提供了智能情感和角色的預(yù)測功能,讓 AI 語音具有更強的理解力,讓有聲內(nèi)容創(chuàng)作變得輕松又便捷。

具體而言,智能語音多情感技術(shù)創(chuàng)造性地從人類語音中挖掘出情感語音特征,賦予了合成語音擬人的表現(xiàn)力,讓合成語音不僅可以根據(jù)不同場景進行變化,也有了 “自己的喜怒哀樂”。聲音因此更富有表現(xiàn)力,不僅得以更貼切地表達文字內(nèi)容,也讓語音更容易理解、更生動。

譬如,中文曉曉的聲音已達到 14 種情感風(fēng)格,可以用 “抒情”、“新聞”、“聊天”等不同風(fēng)格來演繹不同使用場景下的作品,也可以用 “開心”、“悲傷”、“生氣”、“恐懼”等多樣情感在對話中表達不同的情緒和態(tài)度。

人的情緒就好比是色譜,色譜的顏色從深到淺,人的情緒也一樣,有從強到弱的變化。微軟智能語音情感強度可調(diào)節(jié)技術(shù),可以加強或者減弱情感強度,讓情緒的表達更加細膩,從而大大擴展了情感矩陣,豐富了多情感語音的表達;在實際的人與人對話中,情感的變化是微妙的,通過情感程度可控技術(shù),可以讓人工智能對話或聊天機器人變得更流暢、真實,人設(shè)也更加統(tǒng)一。

微軟智能語音提供眾多聲音角色供用戶選擇,覆蓋不同的年齡、性別和個性特征,其中一些聲音還可以扮演不同角色,比如男聲演繹女聲、年輕聲音扮演年老聲音等。通過微軟高質(zhì)量的聲音家族,用戶可以挑選更符合實際場景的不同音色,滿足自然的對話需求,也可以創(chuàng)作更有趣的多播劇。大大擴展了有聲內(nèi)容的創(chuàng)作空間。

微軟智能語音也在探索更加智能、更具理解力的語音系統(tǒng),在創(chuàng)造出豐富、自然、具有表現(xiàn)力的有聲內(nèi)容的同時,進一步降低人工的操作成本。根據(jù)上下文信息,微軟語音能夠識別出來旁白和對話,人物角色,以及語氣和情緒,并自動推薦一個最合適的聲音。

為了讓每個人都可以輕松創(chuàng)作有聲內(nèi)容,微軟提供了一套智能有聲內(nèi)容創(chuàng)作工具平臺。輸入文本后,工具可以先針對角色和情緒進行預(yù)測,然后選擇合適的聲音進行演繹。創(chuàng)作者可以對聲音、情感、韻律、發(fā)音等進行調(diào)優(yōu),創(chuàng)造出不一樣的有聲內(nèi)容。

作為情感的延伸,唱歌是人類表達情感的重要方式。微軟語音也在基于神經(jīng)網(wǎng)絡(luò)的唱歌技能上取得了突破。微軟人工智能語音曉曉和朱婧汐一起合唱高難度的《人類零件》歌曲,展示了中英雙語演唱以及說唱能力,合成效果逼真自然。

微軟云擁有全球覆蓋最多的數(shù)據(jù)中心,其認(rèn)知服務(wù)智能語音技術(shù)面向全球市場,覆蓋語言數(shù)量世界領(lǐng)先。目前,微軟的語音合成支持 54 個國家和地區(qū)的語言,提供超過 150 個聲音供選擇。

微軟語音支持深度品牌定制

在人工智能時代,AI 聲音已經(jīng)不僅僅是一項基本能力,更被賦予了很多品牌屬性。在諸多行業(yè)的實際應(yīng)用中,客戶往往需要一個具有高識別度的個性化的聲音,而 “深度定制”恰是微軟智能語音平臺的一大強項。

基于客戶提供的聲音數(shù)據(jù),微軟可以實現(xiàn) “細粒度”的定制,包括語音合成的音色、說話的風(fēng)格、特殊的發(fā)音需求甚至演唱等特色功能等。在使用方面,微軟語音也相當(dāng)靈活,不僅服務(wù)于云平臺,也支持本地化和離線部署等多種場景。

微軟云計算與人工智能事業(yè)部資深產(chǎn)品總監(jiān)丁秉公認(rèn)為,個性化時代,聲音即品牌。微軟的語音合成技術(shù)可以為企業(yè)定制豐富的音色,實現(xiàn)品牌價值的最大化。

2019 年 11 月,微軟推出了基于深度神經(jīng)網(wǎng)絡(luò)語音合成技術(shù)的聲音定制服務(wù)(Custom Neural Voice)平臺,將高質(zhì)量的語音合成引擎開放給第三方,使得微軟合作伙伴和客戶可以通過簡單的自助服務(wù)定制有標(biāo)識度和個性化的聲音。

微軟語音定制涵蓋了從聲音畫像的設(shè)計、到數(shù)據(jù)的收集和整理、模型的優(yōu)化和系統(tǒng)部署的方方面面。用戶更可以通過 CustomVoice 聲音定制平臺實現(xiàn)一鍵定制的自助服務(wù)。

傳統(tǒng)技術(shù)定制的語音模型,由于需要發(fā)音人錄制成千上萬句話,需要耗費幾個月的時間,成本巨大。而微軟基于深度神經(jīng)網(wǎng)絡(luò)技術(shù)的定制化語音,可以用更少的數(shù)據(jù)達到更加高擬人度和自然真實的效果。通過微軟語音涵蓋超過 50 個語言的 UNI-TTS 基礎(chǔ)模型和深度神經(jīng)網(wǎng)絡(luò)強大的遷移學(xué)習(xí)能力,微軟聲音定制還支持跨語言定制,實現(xiàn)一個音色多個語種的多語言能力。

據(jù)悉,這一技術(shù)已經(jīng)率先在多個知名企業(yè)得到應(yīng)用。這包括新媒體、通信、教育、金融等多個行業(yè),涉及客戶服務(wù)、AI 對話和內(nèi)容生產(chǎn)的多個場景。

譬如英國廣播公司 BBC 就在微軟聲音定制和語音合成技術(shù)的幫助下,打造了一款虛擬助手 Beeb 用于多模態(tài)的客戶服務(wù)和有聲內(nèi)容創(chuàng)作。具體而言,BBC 不僅需要 Beeb 發(fā)出標(biāo)準(zhǔn)英式發(fā)音,甚至細化到英國北部某個特定地區(qū)的口音風(fēng)格,還有多風(fēng)格的要求,比如在跟真人打招呼時,聲音需要符合個人助理身份的互動風(fēng)格,而在播報政治、軍事類新聞時,就需要嚴(yán)肅的聲音風(fēng)格。

面對這一挑戰(zhàn),微軟在 BBC 提供的不到 2 小時的錄音人數(shù)據(jù)量中,與語言專家、客戶挑選和分析其中特定口音的發(fā)音特點,匯總成模型能識別的規(guī)律,最后構(gòu)建到定制化模型里,生成高質(zhì)量、多風(fēng)格的聲音。

在教育行業(yè),微軟語音團隊協(xié)助知名獨角獸公司多鄰國 Duolingo 打造具有多語言能力和豐富角色特征的聲音。據(jù)多鄰國藝術(shù)總監(jiān) GregHartman 介紹,“每一個角色的聲音都是和它的人物性格的一部分。微軟定制聲音平臺基于我們的角色特性,賦予了每一個人物生動的聲音風(fēng)格?!?/p>

此外,微軟智能語音團隊還幫助 AT&T 時代華納、Swisscom(瑞士電信)、Progressive 等多家知名企業(yè)創(chuàng)建了他們的個性化聲音,實現(xiàn)與用戶的自然對話和交互。

在中國,目前語音服務(wù)也落地到由世紀(jì)互聯(lián)運營的 Azure 云服務(wù)上,中國用戶可以使用和全球一樣質(zhì)量的語音合成服務(wù)。

2019 年春節(jié)前夕,央視新聞聯(lián)合微軟推出互動融媒體產(chǎn)品《你的生活 AI 為你唱作》,其中央視主播康輝和微軟 AI 智能語音中文曉曉為用戶唱作專屬歌曲,央視主播康輝的聲音即是利用微軟智能語音的聲音定制技術(shù)生成。此外,周迅為紅丹丹圖書館錄制有聲書、知名作家土摩托錄制三聯(lián)生活周刊音頻內(nèi)容時,都用到了微軟定制語音合成技術(shù)。微軟以少量真人語音為訓(xùn)練樣本,為他們合成了專屬于自己的智能 TTS 聲音。

除語音合成之外,微軟 AIspeech 還能夠提供全面的核心語音能力,例如語音識別、語音評測、語音翻譯,這些能力都支持多語種以及基于不同場景的定制。

其中,微軟的語音識別支持全球 30 個地區(qū)和國家語言,能夠提供近場和遠場識別,在線(real-time)和離線(batch)的靈活調(diào)用方式。語音識別還可以支持關(guān)鍵詞識別,說話人分離,語言識別,情緒識別等多種功能。

而微軟語音評測產(chǎn)品可支持包括英語在內(nèi)的全球 40 多個國家和地區(qū)的語言,廣泛適用于教育領(lǐng)域解決方案的合作伙伴、APP 開發(fā)者以及語言學(xué)校、培訓(xùn)中心、教育機構(gòu)、考試中心的各種語言學(xué)習(xí)、口語練習(xí)和考試等場景的開發(fā)。

隨著深度神經(jīng)網(wǎng)絡(luò)算法的突破,數(shù)據(jù)的爆發(fā),基礎(chǔ)設(shè)施的完善,AI 語音技術(shù)正在走向大規(guī)模應(yīng)用增長的發(fā)展方向。微軟以及其他平臺公司將不斷通過 AI 技術(shù)賦能更多場景,可以提供無限可能。

體驗有聲內(nèi)容創(chuàng)作工具平臺:https://speech.microsoft.com/audiocontentcreation

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:微軟,智能語音,人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知