「中文字形資料庫」版本
諸位法師、諸位大德:
九月二十六日「佛學文獻造字」會議決議要再召開一個講習會,講解「中文字形資料庫」
的使用方式,以便凝聚眾人之力,早日制定佛典共用造字集。
本實驗室於八十四年六月底推出「中文字形資料庫」版本1.0。這個版本以林樹教授的中
文電腦基本用字研究字集為實驗對象,輸入字形8558個,還有571個字形(未造字)尚未輸
入。字形資料庫的輸入過程中,除了字根與部件的整理之外,造字(包括字根與部件)也
下了不少功夫。隨著輸入工作進入尾聲,字根集與部件集也即將整理完畢。
為了配合佛典共用造字集的加入,此系統將作下列的調整:
一、造字(包括字根與部件)重新編碼。資料庫可允許有不同的字集,不同的造字檔,但
是要有相同的字根與部件,所以各個造字檔都要預留相同的內碼空間來存放字根與
部件。待「佛典共用造字集的規畫」一文定稿後,字根與部件即可重新編碼,造字
檔及資料庫自應跟著轉碼方可使用。
二、增加跨字集字形資料的存取。輸入佛典造字集時,很多部件可能在林樹字集中已經
輸入,這時就可取出該部件的結構,而不須重複輸入。例如輸入「木∞鹽」時,「
鹽」在林樹字集中已輸入,此時就可直接取出「鹽」的結構而不須重覆輸入。
上述工作一旦完成,字形的拆解就會變得更容易,到時佛典造字集輸入的瓶頸應該就在
「造字」上。為了兼顧倚天及中文視窗的使用,一個字事實上要有五種字形,包括倚天
明體16x15、24x24,中文視窗細明體16x16、20x20、24x24字形。這些字形間或可互相
轉換,然而人工的修飾卻不可避免。除了造字檔以外,最好也能附加筆畫、注音、經典
出處等屬性資料,以利工作之進行。目前工作可暫規畫如下:
一、發現缺字時,各單位可先行造字並記錄該字的屬性資料,再用郵寄或電子網路將這
些資料轉到臺大佛研中心。
二、臺大佛研中心將資料彙整後,用電子網路轉到中研院資訊所文獻處理實驗室。
三、文獻處理實驗室則進行下列工作;
1 確定這些造字是否已經輸入。
2 根據筆畫重新編碼。
3 合併造字檔及加入倉頡、注音等輸入法。
4 拆解字形並更新字形資料庫。
5 將新版的造字檔(倚天16x15、24x24,中文視窗16x16、20x20、24x24 共五個)、輸入
法檔案(倚天及中文視窗注音、倉頡共四個)、字形資料庫檔案(資料檔及索引檔共兩個
)用電子網路轉到臺大佛研中心。
四、臺大佛研中心再將這些檔案分送到各單位。
目前的造字仍以點陣字為主,以下則提供一些造字的經驗供大家參考:
一、倚天和中文視窗的造字雖然都是明體,但是粗細不一,部分字根的字樣也不太相同,
若考慮字形的一致性,應該各自造字,字形不要互用。
二、倚天16x15字形雖然可由24x24字形轉換而得,然而並不美觀,還得作人工修飾。
16x15字形,事實上只是16x14,最後一列通常為空白。
三、中文視窗16x16、20x20、24x24字形造字時,雖然也可互相轉換,但是人工修飾仍然
無法避免。這三種字形上面及左邊第一列通常為空白,所以字形大小實際上為15x15
、19x19、23x23。
四、字形資料庫也可用來輔助造字。例如要造「者∞見」字時,可用字形資料庫的部件
索引方式找出偏旁為「者」的有「都」、「堵」、「渚」、「緒」……等,偏旁為
「見」的有「峴」、「現」、「規」、「視」……等,此時可挑取「都」、「峴」兩
字或其他兩字來組合「者∞見」。
至於屬性資料的填寫可參考附件。附件中的佛典造字表格細分成字、內碼、新碼、筆畫
、注音一、注音二、倉頡碼、出處、經、咒、異體字等欄位,在此以「彳∞扁」字為例
說明各欄位的意義;
一、欄位「字」:填「彳∞扁」。
二、欄位「內碼」:造字檔中「彳∞扁」字的內碼,如FA40。
三、欄位「新碼」:免填。
四、欄位「筆畫」:「彳∞扁」字的筆畫數12。
五、欄位「注音一」、「注音二」:「彳∞扁」字的注音,注音一填「ㄅㄧㄢˋ」,
注音二填「ㄆㄧㄢˋ」。若注音不只一個,可續填在注音二。
六、欄位「倉頡碼」:「彳∞扁」字的倉頡碼「竹人竹尸月」,若倉頡碼不確定者,
可免填。
七、欄位「出處」:說明造字出現的經典、注、疏或是現代人的著作。如「彳∞扁」
字出處為「般若波羅蜜多心經(法月譯本)」。
八、欄位「經」:判斷造字是否出現在佛經的經文或標題(即非咒語)中?若是出現,
則填「ˇ」,否則免填。如「彳∞扁」字出現在「般若波羅蜜多心經(法月譯本)」
的標題及經文中,故填「ˇ」。
九、欄位「咒」:判斷造字是否為佛經中的咒語?若是咒語,則填「ˇ」,否則免填。
如「彳∞扁」字並不出現在「般若波羅蜜多心經(法月譯本)」的咒語中,故不填。
十、欄位「異體字」:「彳∞扁」字的異體字為「遍」。
在「佛典共用造字集的規畫(初稿)」一文中,將造字區分成公用造字區及專屬造字區。
若造字使用頻次較高者,應置於公用造字區;頻次較低者,則依個別的需要而置入專屬
造字區。然而目前並無造字的頻次資料,所以第一階段造字先以佛經中的經文為主,應
該較無爭議。
由於五大碼造字空間的限制,這次造字集的規畫或可稍緩電子佛典缺字之苦,同時也祈
求諸位法師、大德能提供更多的資料及意見,使工作進行的更順利,更圓滿!
末學 莊德明合十
一九九五年十月十一日