編碼漢字的使用受限于現(xiàn)有技術(shù),使得傳統(tǒng)文獻(xiàn)的網(wǎng)絡(luò)閱讀失真
目前在通用電腦字符集中已編碼漢字的總數(shù)已達(dá)74588個(gè),但是除了核心部分GBK的20902字外,CJK擴(kuò)展集的5萬(wàn)多字在數(shù)據(jù)庫(kù)中并不能用,無(wú)法實(shí)現(xiàn)檢索、查詢、統(tǒng)計(jì)等各種處理;而GBK的20902個(gè)字和擴(kuò)展A的6582個(gè)字以外的編碼漢字無(wú)法實(shí)現(xiàn)上網(wǎng)查詢。

圖一
比如在網(wǎng)上查找“(圖1)”字(《集韻》“色入切,木茂貌”),而獲得的檢索結(jié)果卻是“穡”等一些毫不相干的字。造成這種情況的原因很簡(jiǎn)單:雖然很多漢字已經(jīng)編碼,在字符集的國(guó)際標(biāo)準(zhǔn)中有了合法地位,但是現(xiàn)在的電腦程序系統(tǒng)卻并不跟進(jìn)這種字符集標(biāo)準(zhǔn)的發(fā)展,因而造成絕大多數(shù)編碼漢字不被兼容。編碼字遭受網(wǎng)絡(luò)排斥的結(jié)果,就是檢索查找的對(duì)象被張冠李戴,傳統(tǒng)文獻(xiàn)的網(wǎng)絡(luò)閱讀失真或意義錯(cuò)失。理論上說(shuō),這個(gè)問(wèn)題應(yīng)該是可以隨著電腦技術(shù)和標(biāo)準(zhǔn)的完善得到解決的,但事實(shí)上,改變這種狀況。目前還不在我們的能力范圍內(nèi)。根本原因是,電腦技術(shù)是一種受國(guó)際標(biāo)準(zhǔn)嚴(yán)格制約的技術(shù),而主導(dǎo)這種技術(shù)的乃是微軟等少數(shù)國(guó)際技術(shù)壟斷企業(yè)。新的字符集標(biāo)準(zhǔn)雖然已經(jīng)出臺(tái),但這些企業(yè)卻能決定世界上各個(gè)電腦終端是否采用這種標(biāo)準(zhǔn)。跟進(jìn)這種新字符集標(biāo)準(zhǔn)需要的投入,相比其受眾面窄而必然導(dǎo)致的微小產(chǎn)出,決定了企業(yè)目前不會(huì)去采取行動(dòng)。這就是目前數(shù)據(jù)庫(kù)、互聯(lián)網(wǎng)不支持占編碼漢字絕大部分的擴(kuò)展字符集的根本原因。特別要引起注意的是,已經(jīng)正式在國(guó)際標(biāo)準(zhǔn)字符集中獲得合法地位的漢字,竟有70%以上還在遭受這種“不公正待遇”,這對(duì)我國(guó)傳統(tǒng)文化的數(shù)字傳播造成的負(fù)面影響是難以估量的。

