甲骨文是迄今為止中國發(fā)現(xiàn)的年代最早的成熟文字系統(tǒng), 但是甲骨文的研究卻有不小的難度。近期,廈大研究團隊使用AI大模型技術探索甲骨文考釋新途徑。目前,這一項目已入選由國家文物局指導的“探元計劃2024”前十榜單。

甲骨文距今已有三千多年歷史,是世界四大古文字之一,也是現(xiàn)代漢字的根脈。傳統(tǒng)的破譯工作,需要研究者在卜辭原文和古書之間反復比對驗證,甲骨文又往往一字多義,可參考的史料極少。目前已知的近5000個甲骨字,得到破譯的不到三分之一。為此, 廈門大學信息學院史曉東教授團隊著手嘗試“古文字+人工智能”的跨界研究,耗時七年多,研發(fā)出了甲骨文輸入法。

廈門大學信息學院教授 史曉東:從來的“從”,兩個“人” ,這個就變成北了,兩個人相背,這樣背靠背就是“北”。
只需要輸入一個甲骨文的偏旁部首,系統(tǒng)就會自動搜索到包含這一偏旁部首的所有甲骨字及其字形結(jié)構、意義、用法等。不僅如此,該系統(tǒng)還可以查詢卜辭原文、推算近似字,就像一本便攜、多功能的甲骨文“線上字典”,可以減少研究者查閱文獻的時間,提高研究效率。

在此基礎上,最近,史曉東教授團隊又有了新的研究計劃——“基于甲骨文多模態(tài)大模型的多元信息甲骨文輔助考釋模型”。該模型將此前使用的專用模型,替換為擁有更強語義理解能力和表達能力的多模態(tài)大模型。未來,他們將給AI“投喂”更多甲骨文卜辭、金文、大篆、小篆等漢字數(shù)據(jù),訓練多模態(tài)大模型進行深度學習,得到更多的漢字推演結(jié)果。
廈門大學信息學院教授 史曉東:原來都是孤立字的破解,其實一個字,應用在很多上下文,它們都是語境相關的,所以我們也想利用這方面的信息,來建立更好的模型,來加快甲骨文的破解。
記者了解到,項目將綜合甲骨文的字形結(jié)構、語義關聯(lián)、同音通假和聚類分析,開發(fā)出一套更加輕量的考釋系統(tǒng),未來,使用這套系統(tǒng),不單可以手動輸入查詢,甚至還可以上傳圖片“一鍵識圖 ” ,AI將給出卜辭原文和漢字候選結(jié)果,方便學者對照研究。
來源:廈門廣電網(wǎng)
