設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色
QQ 音乐会员歌曲单日播放设备数调整    微软解释 TPM 2.0 重要性

免費(fèi)開(kāi)放,字節(jié)跳動(dòng)與北京大學(xué)合作研發(fā)的數(shù)字化平臺(tái)“識(shí)典古籍”測(cè)試版上線

2022/10/12 13:31:46 來(lái)源:IT之家 作者:瀟公子 責(zé)編:瀟公子

IT之家 10 月 12 日消息,據(jù)字節(jié)跳動(dòng)宣布,字節(jié)跳動(dòng)與北京大學(xué)合作研發(fā)的古籍?dāng)?shù)字化平臺(tái)“識(shí)典古籍”測(cè)試版上線。目前,平臺(tái)已上線 390 部經(jīng)典古籍,共計(jì) 3000 多萬(wàn)字,向公眾免費(fèi)開(kāi)放。未來(lái)三年,“識(shí)典古籍”將陸續(xù)完成一萬(wàn)種古籍的智能化整理工作,基本覆蓋儒家、道家和佛家的核心書(shū)目。

“識(shí)典古籍”測(cè)試版網(wǎng)站首頁(yè),https://www.shidianguji.com/

據(jù)不完全統(tǒng)計(jì),中國(guó)現(xiàn)存古籍約 20 萬(wàn)種,其中已經(jīng)完成數(shù)字化影像掃描的有 8 萬(wàn)種,而實(shí)現(xiàn)文本數(shù)字化的僅 3-4 萬(wàn)種。

為了方便大家在古籍“圖書(shū)館”里檢索、閱讀,“識(shí)典古籍”平臺(tái)主要采用三項(xiàng)人工智能技術(shù):

一、文字識(shí)別,也就是用 OCR(光學(xué)字符識(shí)別)技術(shù)將古籍影印版圖像識(shí)別成文字。目前行業(yè)內(nèi) OCR 的識(shí)別準(zhǔn)確率平均為 93% 至 94%,而“識(shí)典古籍”將這個(gè)數(shù)字提高到 96% 至 97%。

二、自動(dòng)標(biāo)點(diǎn),指通過(guò)算法,給原本缺少斷句的古籍自動(dòng)打上標(biāo)點(diǎn)符號(hào)。舉個(gè)例子,《論語(yǔ)》開(kāi)篇“學(xué)而時(shí)習(xí)之不亦說(shuō)乎”,自動(dòng)標(biāo)點(diǎn)后的結(jié)果是“學(xué)而時(shí)習(xí)之,不亦說(shuō)乎?”

三、命名實(shí)體識(shí)別,即識(shí)別古籍中的“專(zhuān)有名詞”,包括人名、地名、書(shū)籍、時(shí)間、官職五大類(lèi)型。

字節(jié)跳動(dòng)稱(chēng),與同類(lèi)型平臺(tái)相比,“識(shí)典古籍”訪問(wèn)比較穩(wěn)定,速度快。繁簡(jiǎn)體轉(zhuǎn)換和主題詞檢索功能,便于高效獲取內(nèi)容。平臺(tái)還提供了權(quán)威來(lái)源的影印版底本,與數(shù)字化文本內(nèi)容互相對(duì)照。另外,一年多來(lái),字節(jié)跳動(dòng)資助國(guó)家圖書(shū)館定向修復(fù)珍貴古籍 104 冊(cè)件,現(xiàn)已完成 50 余冊(cè)件,包括一批稀有的樣式雷圖檔。

IT之家獲悉,未來(lái),“識(shí)典古籍”還將實(shí)現(xiàn)全自動(dòng)整理校對(duì),并免費(fèi)開(kāi)放這項(xiàng)能力,促進(jìn)存量古籍?dāng)?shù)字化。平臺(tái)還將向全社會(huì)開(kāi)放古籍閱讀檢索研究能力,同時(shí)鼓勵(lì)擁有文獻(xiàn)的學(xué)者自行上傳文獻(xiàn),用戶還能參與再創(chuàng)作和再闡釋。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:古籍,字節(jié)跳動(dòng)
  • 日榜
  • 周榜
  • 月榜

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知