IT之家 5 月 1 日消息,本周早些時候,Mozilla 宣布其 Common Voice 數(shù)據(jù)集現(xiàn)在包含超過 20000 小時的內(nèi)容,世界各地的任何人都可以使用這些內(nèi)容來改進他們的語音識別軟件,幾乎是一年前的兩倍。
IT之家了解到,最新的英語數(shù)據(jù)集有 71 GB,支持的語言也比以往任何時候都多,增加了蒂格雷語、閩南語、Meadow Mari、孟加拉語、道本語和粵語。
根據(jù) Mozilla 的說法,Common Voice 項目允許任何人為項目貢獻自己的聲音,從而讓虛擬助手能夠理解更多的口音。此外,Common Voice 項目是開源的,可確保大型科技公司無法獨占,為小型開發(fā)商和公司提供了構(gòu)建競爭產(chǎn)品和服務(wù)的機會。
Mozilla 在最新數(shù)據(jù)集版本中指出的亮點如下:
6 種新語言:蒂格雷語、閩南語、Meadow Mari、孟加拉語、道本語和粵語。
27 種語言至少有 100 小時的語音數(shù)據(jù),包括孟加拉語、泰語、巴斯克語和弗里斯蘭語。
9 種語言至少有 500 小時的語音數(shù)據(jù),包括基尼亞盧旺達語(2383 小時)、加泰羅尼亞語(2045 小時)和斯瓦希里語(719 小時)。
9 種語言有至少 45% 的性別標(biāo)簽為女性,包括馬拉地語、迪維希語和盧干達語。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。