IT之家 10 月 12 日消息,據(jù)字節(jié)跳動(dòng)宣布,字節(jié)跳動(dòng)與北京大學(xué)合作研發(fā)的古籍?dāng)?shù)字化平臺(tái)“識(shí)典古籍”測(cè)試版上線。目前,平臺(tái)已上線 390 部經(jīng)典古籍,共計(jì) 3000 多萬(wàn)字,向公眾免費(fèi)開(kāi)放。未來(lái)三年,“識(shí)典古籍”將陸續(xù)完成一萬(wàn)種古籍的智能化整理工作,基本覆蓋儒家、道家和佛家的核心書(shū)目。
“識(shí)典古籍”測(cè)試版網(wǎng)站首頁(yè),https://www.shidianguji.com/
據(jù)不完全統(tǒng)計(jì),中國(guó)現(xiàn)存古籍約 20 萬(wàn)種,其中已經(jīng)完成數(shù)字化影像掃描的有 8 萬(wàn)種,而實(shí)現(xiàn)文本數(shù)字化的僅 3-4 萬(wàn)種。
為了方便大家在古籍“圖書(shū)館”里檢索、閱讀,“識(shí)典古籍”平臺(tái)主要采用三項(xiàng)人工智能技術(shù):
一、文字識(shí)別,也就是用 OCR(光學(xué)字符識(shí)別)技術(shù)將古籍影印版圖像識(shí)別成文字。目前行業(yè)內(nèi) OCR 的識(shí)別準(zhǔn)確率平均為 93% 至 94%,而“識(shí)典古籍”將這個(gè)數(shù)字提高到 96% 至 97%。
二、自動(dòng)標(biāo)點(diǎn),指通過(guò)算法,給原本缺少斷句的古籍自動(dòng)打上標(biāo)點(diǎn)符號(hào)。舉個(gè)例子,《論語(yǔ)》開(kāi)篇“學(xué)而時(shí)習(xí)之不亦說(shuō)乎”,自動(dòng)標(biāo)點(diǎn)后的結(jié)果是“學(xué)而時(shí)習(xí)之,不亦說(shuō)乎?”
三、命名實(shí)體識(shí)別,即識(shí)別古籍中的“專(zhuān)有名詞”,包括人名、地名、書(shū)籍、時(shí)間、官職五大類(lèi)型。
字節(jié)跳動(dòng)稱(chēng),與同類(lèi)型平臺(tái)相比,“識(shí)典古籍”訪問(wèn)比較穩(wěn)定,速度快。繁簡(jiǎn)體轉(zhuǎn)換和主題詞檢索功能,便于高效獲取內(nèi)容。平臺(tái)還提供了權(quán)威來(lái)源的影印版底本,與數(shù)字化文本內(nèi)容互相對(duì)照。另外,一年多來(lái),字節(jié)跳動(dòng)資助國(guó)家圖書(shū)館定向修復(fù)珍貴古籍 104 冊(cè)件,現(xiàn)已完成 50 余冊(cè)件,包括一批稀有的樣式雷圖檔。
IT之家獲悉,未來(lái),“識(shí)典古籍”還將實(shí)現(xiàn)全自動(dòng)整理校對(duì),并免費(fèi)開(kāi)放這項(xiàng)能力,促進(jìn)存量古籍?dāng)?shù)字化。平臺(tái)還將向全社會(huì)開(kāi)放古籍閱讀檢索研究能力,同時(shí)鼓勵(lì)擁有文獻(xiàn)的學(xué)者自行上傳文獻(xiàn),用戶還能參與再創(chuàng)作和再闡釋。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。