只有解決好目前中文字符集存在的種種問(wèn)題,我們的歷史文獻(xiàn)才能在數(shù)字媒體上不打折扣地講述真正的中國(guó)故事。而字符集問(wèn)題的解決,對(duì)于當(dāng)前相關(guān)專業(yè)領(lǐng)域來(lái)說(shuō),并非極其繁難之事。
中國(guó)傳統(tǒng)文化的基本載體是歷史文獻(xiàn),只有通過(guò)這些第一手文獻(xiàn)的閱讀,人們才能接觸真實(shí)的傳統(tǒng)文化。然而,受限于中文字符集建設(shè)的發(fā)展水平,我們的歷史文獻(xiàn)在當(dāng)下主流信息傳播平臺(tái)上存在話語(yǔ)障礙,主要表現(xiàn)為三方面的問(wèn)題。
“一字多碼”,使得傳統(tǒng)文化的數(shù)字傳播與利用受損
電腦字符集中的每個(gè)字符,都應(yīng)該只有一個(gè)唯一編碼,才能被進(jìn)行有效的數(shù)字處理。但是,現(xiàn)在的電腦通用字符集中有不少文字單位與碼位不唯一對(duì)應(yīng)的情況。這一問(wèn)題,主要是由于在中日韓聯(lián)合進(jìn)行字符集編碼過(guò)程中、各家都希望自己的習(xí)用字形盡可能充分進(jìn)入字符集而造成的。這些字,多為歷史文獻(xiàn)中的常用字,且往往是不容易區(qū)分彼此的構(gòu)形微別字,如“戶”、“戶”與“戸”,“宮”與“宮”。這種構(gòu)形微別字同構(gòu)形差異明顯的異體字、繁簡(jiǎn)字不同,后二者如“鋪(內(nèi)碼8216)”與“舗(內(nèi)碼8217)”,“匯(5F59)”與“彚(5F5A)”,由于構(gòu)形上存在明顯差異,在輸入時(shí)很容易被區(qū)分開(kāi)來(lái);而構(gòu)形微別字在輸入過(guò)程中,因?yàn)橛羞@種一字多碼的輸入源,很容易導(dǎo)致同字卻使用不同內(nèi)碼字的情況。由此,人們?cè)诰W(wǎng)絡(luò)或相關(guān)數(shù)據(jù)庫(kù)查找文獻(xiàn)時(shí),就會(huì)出現(xiàn)以下情況:該找到的找不到,該搜齊的搜不齊,而查找搜索者卻誤以為這就是真實(shí)檢索結(jié)果,傳統(tǒng)文化寶藏的利用無(wú)形中被打了折扣。如“文淵閣四庫(kù)全書”(“Complete Library in Four Branchesof Literature”),是一個(gè)非常注重區(qū)別異體字、反映文獻(xiàn)原貌的電子古籍檢索系統(tǒng),但也不免因同字多碼問(wèn)題而導(dǎo)致全文檢索的失誤。如“彝(5F5D)”,另有三個(gè)不同編碼而同字者:彛(5F5B)、彜(5F5C)、彞(5F5E)。如果全文檢索“彝(5F5D)”,匹配的結(jié)果是32041個(gè),但是用另外三個(gè)字形彛(5F5B)、彜(5F5C)、彞(5F5E)去全文檢索,匹配項(xiàng)卻只有22054,也就是說(shuō),文獻(xiàn)檢索范圍內(nèi)另有9987個(gè)“彝”的文例失檢。再如在“國(guó)學(xué)大師”網(wǎng)上檢索“戶”,得到93349個(gè)檢索結(jié)果,而輸入“戸”,則只有24046個(gè)檢索結(jié)果。
而尤當(dāng)引起注意的是,即使在目前最通用的GBK字符集中,類似的同字多碼者也很多,除了上舉一字四碼者外,一字三碼的情況如:
娛(5A1B)娯(5A2F)娛(5A31)
揺(63FA)搖(6416)搖(6447)
吳(5433)吳(5434)呉(5449)
奨(5968)奬(596C)獎(jiǎng)(734E)
戶(6236)戶(6237)戸(6238)
挿(633F)插(63D2)揷(63F7)
一字二碼的數(shù)量更加可觀:
捏(634F)揑(63D1);
尙(5C19)尚(5C1A);
尓(5C13)爾(5C14);
尪(5C2A)尫(5C2B);
捜(635C)搜(641C);
尶(5C36)尷(5C37);
寜(5BDC)寧(5BE7);
?。?E2F)帶(5E36);
掲(63B2)揭(63ED);
宮(5BAB)宮(5BAE);
孳(5B73)孶(5B76);
悳(60B3)惪(60EA);
悞(609E)悮(60AE);
愼(613C)慎(614E);
悅(6085)悅(60A6);
恵(6075)惠(60E0);
徴(5FB4)徵(5FB5);
徳(5FB3)德(5FB7)……
僅以上并不完整的整理,所得多碼字共計(jì)432個(gè),這已經(jīng)占了字符集的相當(dāng)比例??上攵ㄟ^(guò)這樣一個(gè)字符集進(jìn)行傳統(tǒng)文獻(xiàn)的數(shù)字傳播和閱讀,不注意一字多碼問(wèn)題的把控,是很難充分利用文獻(xiàn)且保證文獻(xiàn)不被誤讀漏檢的。

