古文字編碼缺位,使最具歷史厚度的傳統(tǒng)文化資源成為網(wǎng)絡(luò)傳播盲區(qū)
目前國(guó)際標(biāo)準(zhǔn)電腦字符集中已經(jīng)編碼的漢字,或者說(shuō)通用字符集中已有的漢字,相對(duì)漢字發(fā)展史上原有的漢字,有著巨大的覆蓋盲區(qū)。處于盲區(qū)的漢字,無(wú)法在通用的電腦終端、手機(jī)上獲得處理。這種情況,在古文字文獻(xiàn)中表現(xiàn)得尤為突出。
以《新甲骨文編》(修訂本)為例,該書(shū)正編2268字,其中796字是集外字:
挨僾賹譺諳啽埯抝墺仈坺覇佰薭舨捠謗襃賲藵靤虣喺偝憊輩愂誖崩埲逬偪柀胇觱藊覍緶辪杓褾擯擯冫梹僠撥侼舶蔔捕勏乲慚蠺賶乽拆勑讒纏產(chǎn)諂讇椙腸……

而該書(shū)附錄的1224字目全屬集外字,即全部3492字目中屬集外字的有2020個(gè)。據(jù)此可以大致判斷,甲骨文中的集外字約占60%。甲骨文如此,其他類型古文字文獻(xiàn)也存在類似情況。字符的大片缺位,導(dǎo)致大批珍貴古文字文獻(xiàn)的網(wǎng)絡(luò)閱讀無(wú)法真正實(shí)現(xiàn)。目前傳世文獻(xiàn),已經(jīng)基本可以實(shí)現(xiàn)網(wǎng)絡(luò)檢索,而出土古文字文獻(xiàn)則基本處于網(wǎng)絡(luò)資源的盲區(qū),我們?nèi)粢揽烤W(wǎng)絡(luò)來(lái)閱讀、檢索甲骨卜辭,結(jié)果會(huì)令人遺憾:比如在“國(guó)學(xué)大師”網(wǎng)查《甲骨文合集》第六片,即會(huì)發(fā)現(xiàn)8個(gè)集外字開(kāi)了天窗(上圖框紅者)。
很顯然,只有解決好上述種種字符集問(wèn)題,我們的歷史文獻(xiàn)才能在數(shù)字媒體上不打折扣地講述真正的中國(guó)故事。而字符集問(wèn)題的解決,對(duì)于當(dāng)前相關(guān)專業(yè)領(lǐng)域來(lái)說(shuō),并非極其繁難之事。主要的問(wèn)題是,我們需要認(rèn)識(shí)到此事的重要性,開(kāi)始積極采取措施。在這方面,政府的頂層設(shè)計(jì)和政策引導(dǎo)會(huì)起到關(guān)鍵作用。
當(dāng)然,問(wèn)題的具體解決,還需要區(qū)別情況分別對(duì)待。首先,對(duì)“一字多碼”問(wèn)題,可以開(kāi)發(fā)針對(duì)性的輸入法,用提示多碼字的方式來(lái)幫助輸入者規(guī)避不當(dāng)文字輸入,實(shí)現(xiàn)各內(nèi)碼字同傳統(tǒng)文獻(xiàn)的精準(zhǔn)對(duì)應(yīng);在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)檢索的環(huán)節(jié),則可以通過(guò)開(kāi)發(fā)有效的同字多碼認(rèn)同程序來(lái)保證檢索數(shù)據(jù)的準(zhǔn)確性。
其次,對(duì)第二類問(wèn)題,即擴(kuò)展字符的網(wǎng)絡(luò)和數(shù)據(jù)庫(kù)使用障礙問(wèn)題,針對(duì)性的程序開(kāi)發(fā)是解決問(wèn)題的良策。
對(duì)于第三類問(wèn)題,即如何補(bǔ)充字符集缺口,問(wèn)題會(huì)復(fù)雜一些。事實(shí)上,漢字古文字在國(guó)際標(biāo)準(zhǔn)字符集中的編碼,在中國(guó)的推動(dòng)下,于本世紀(jì)初即已開(kāi)始,但因?yàn)槭窃谙嚓P(guān)國(guó)際標(biāo)準(zhǔn)化組織框架下運(yùn)作,遇到了不少問(wèn)題,至今并沒(méi)有實(shí)質(zhì)性進(jìn)展。鑒于這種情況,我們不妨先走國(guó)標(biāo)路線,即先為中國(guó)歷史文獻(xiàn)的集外字實(shí)現(xiàn)中國(guó)標(biāo)準(zhǔn)的統(tǒng)一編碼,在情況允許時(shí),再使之與國(guó)際標(biāo)準(zhǔn)對(duì)接。目前,相關(guān)研究領(lǐng)域都是采用字體技術(shù)來(lái)應(yīng)對(duì)這一難題,其要點(diǎn)就是利用通用GBK字符集中古文字文獻(xiàn)用不到的字符碼位,來(lái)填入該字符集本不包含的那些集外字,以“雀占鳩巢”的方式,來(lái)構(gòu)建一個(gè)對(duì)應(yīng)古文字文獻(xiàn)用字的新字符集。這方面,如華東師范大學(xué)中國(guó)文字研究與應(yīng)用中心開(kāi)發(fā)的新版“文字網(wǎng)”古文字文獻(xiàn)數(shù)字平臺(tái),就對(duì)集外字的編碼與檢索做了統(tǒng)一標(biāo)準(zhǔn)的有效嘗試,實(shí)現(xiàn)了已公布古文字文獻(xiàn)的全面整理與全部文獻(xiàn)用字的檢索顯示,取得了較為豐富的經(jīng)驗(yàn)。該“文字網(wǎng)”系列古文字文獻(xiàn)數(shù)據(jù)庫(kù)分別為甲骨文、金文、楚簡(jiǎn)、秦簡(jiǎn)等數(shù)據(jù)庫(kù)配備專門字體,對(duì)于全球所有電腦終端來(lái)說(shuō),只要下載這些字體,數(shù)據(jù)庫(kù)的使用就可以得到完全支持。并且,華東師大文字中心以該系列數(shù)據(jù)庫(kù)為根基的出土文獻(xiàn)智能文字識(shí)別釋讀系統(tǒng)“文鏡萬(wàn)象”系列正在開(kāi)發(fā)中,其中“商周金文智能鏡”日前已舉行發(fā)布會(huì),這一成果具有以下新功能——實(shí)現(xiàn)文字及其各種屬性的系統(tǒng)識(shí)別,實(shí)現(xiàn)成篇文字材料的整體性識(shí)別,實(shí)現(xiàn)文字載體的特征性影像的識(shí)別。“商周金文智能鏡”通過(guò)字形識(shí)別來(lái)打通商周金文各類數(shù)據(jù)關(guān)聯(lián)對(duì)接,盤活數(shù)字化營(yíng)造的商周金文大數(shù)據(jù)系統(tǒng),推動(dòng)商周金文研究邁向智能化時(shí)代。由上述研究成果可以看出,字體研發(fā)上的經(jīng)驗(yàn),對(duì)于促成標(biāo)準(zhǔn)字符集出臺(tái)及出臺(tái)后的科學(xué)使用,具有非常積極的意義。(劉凌 劉志基)

