漢字的構形單位是部件,而異體字的形成,是在部件及部件功能等構形屬性上有所不同。有鑑於電腦對於漢字部件及異體字等漢字知識過於貧乏,中研院資訊所文獻處理實驗室自1993年起,著手建立漢字的知識庫,這十幾年來,主要的成果為建立了「漢字構形資料庫」。漢字構形資料庫的特色如下:

漢字構形資料庫收錄的字形,除了楷書之外,同時收錄甲骨文、金文、楚系簡帛文字及小篆等古漢字。現代漢字與古漢字相比,由於形體變化太大,漢字的形義關係已很不明顯,甚至完全隱沒。所以想要瞭解某個字的構形寓義,必須找到它的古文字形體。銜接古今文字,不僅可透過現代漢字來認識古漢字,更可藉由古漢字而加深對現代漢字的理解。

漢字構形資料庫收錄參考字書的異體字表,目前已涵蓋《漢語大字典》的11900組異體字,《說文解字》的1163個重文;而《金文編》的19357個重文,以及《楚系簡帛文字編》的17022個重文也即將完成收錄。長久以來,異體字造成文件檢索的困擾,希望藉著異體字表的建置,能有效解決此問題。

漢字構形資料庫記錄了不同歷史時期的漢字結構,字形結構中的各級部件都可用來檢索字形。部件檢字遠較部首檢字來得便利,因為一個字在字典只能歸於一個部首下,必須確認部首,才能檢索字形;但是一個字可以有好幾個部件,這些部件可同時用來檢索字形。

缺字問題一直無法解決,是因為現行漢字交換碼,將漢字視同西方語言的拼音字母,完全忽略了漢字是表意文字,是由有限的基礎部件所組成的。西方語言的拼音字母是個有限集合,而漢字卻是個開放字集;字形難以收錄完全,缺字問題自然層出不窮。既然交換碼主要是用來區別字形,而字形的差異在於結構上的不同,因此我們的作法是直接採用字形的結構表達式來編碼,這樣才能徹底解決漢字的編碼問題。