以CBETA為例 談大量文獻之建立——
漢文藏經電子化作業簡說 

杜正民 

中央研究院計算中心通訊
第15期第13卷 (1999.06.21)
頁117-122


中華電子佛典協會簡介 
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ 

  「中華電子佛典協會(CBETA)」自1998年2月15日成立以來,此次的EBTI會議可說是首次對國外團體發表其作業內容與成果,會中獲得頗多的回饋與迴響。因此,謹藉此文就「中華電子佛典協會」一年來,製作漢文電子佛典的作業流程、程式開發、缺字處理、看圖校對、標記訂定及解決困難等項目,就教於專家學者。並且,就新近發行的成果內容做一簡介,如電子檔的分類、採用SGML檔案的方法、以及未來展望等相關資訊,與關心佛典電子化的先進分享,期能因此獲得更多的指正與協助。 

  首先,簡單說明CBETA的工作目標與宗旨,CBETA是以學術界通行的《大正新脩大藏經》為底本,初期以完成第1-55冊及第85冊藏經電子化為標的。因此,CBETA與日本「大藏出版株式會社」,經雙方進行多次的交流與修改契約書之後,於1998年9月30日正式完成簽約。契約中,「大藏出版株式會社」除授與CBETA使用《大正新脩大藏經》的權限外,並同意CBETA發行《大正藏》電子版的網路版與光碟版等權益(註一)。 

  依此目標達成的成果,就如CBETA的網頁聲明,是「免費提供電子佛典資料庫,以供各界作非營利性使用」,則為CBETA的主要宗旨。

  有關CBETA的作業流程簡述如下: 

  CBETA的工作小組分為「輸入組」、「校對組」、「缺字組」、「資訊組」、「網路組」及「研發組」等。依小組功能,CBETA的作業程序則為:由「輸入組」準備先行工作及提供所需的素材,交由「校對組」進行資料比對等作業,「缺字組」發展缺字表達方式,「資訊組」提供必須的運作程式,「研發組」提供作業方針,最後則由「網路組」將成果與相關資料呈現於網頁上。有關CBETA的工作流程,試以圖一之流程圖表示之: 

CBETA作業流程說明 
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ 
今依上述流程圖,簡說CBETA的作業情形,藉以瞭解漢文佛典的製作狀況。茲將CBETA作業進行的方法與步驟簡述如下: 

資料輸入 
 ̄ ̄ ̄ ̄ 
  「輸入組」的工作,主要是以掃描及辨識的方式進行,如有必要則負責打字輸入或尋找其他資源,為不浪費資源,CBETA盡量不用人工鍵入的方式進行輸入工作,如能取得合作單位的認可,則可代為校對,並將所得結果做成校勘表送回原單位,以利雙方作業順利進行(註二)。 

  在工作過程中,由於丹青系統的「力新國際公司」研發部幾個月來的協助,終於研發出「丹青for CBETA版」的丹青OCR辨識軟體;此軟體純為CBETA的輸入作業而設計,旨在提昇漢文佛典的辨識效率,以加強工作速率,及解決《大正藏》特有的雙行小註的辨識等問題。 

  由於「力新國際公司」的鼎力支持,替CBETA的輸入工作解決很多困難,因而可以在第一年年底前完成《大正藏》55冊所有掃描工作、轉換辨識文字、提供比對圖檔等業務。 

缺字處理 
 ̄ ̄ ̄ ̄ 
  CBETA為解決缺字的問題,因而成立「缺字組」以求突破電腦缺字的困難。CBETA缺字的工作可分為幾個步驟:初步工作,以著重於現有缺字的「形、音、義」及「通用字」的資料查詢及整理等工作。呈現方面則又可分為「普及版」與「學術版」兩方面,本段先就「普及版」簡介之,CBETA為考量讓使用者能在純文字環境下閱讀,不需另外安裝造字檔或是圖檔,因而採用系統字(Big-5)的組字方式,亦即「一般組字式」(註三),作為「普及版」佛典缺字的表達方法。這種方式除了可以提供閱覽、散播上的便利性外,也不會佔用使用者對造字檔自行運用的空間等特性。此外,CBETA「普及版」中大部份的缺字是以通用字來取代,少部份沒有適當通用字的缺字亦附有圖檔,以補「組字式」之不足。 

  當然,不同的缺字表達方法各有其利弊,因此CBETA建立一缺字資料庫,來達成不同缺字格式的轉換,因此在光碟中HTMLHelp版本的缺字處理,便同時利用了組字式和圖檔來表示。 

  同時,在CBETA「學術版」以SGML/XML(Standard Generalized Markup Language/Extensible Markup Language)表達的主要檔案(Source File)中,則以「M碼」(註四)處理缺字的表達。CBETA採用「M碼」表示缺字的原因,一則利於國際化的使用,二則目前「M碼」已具有八萬多字的缺字資料,是國際間較完整的一個字集,三者利用「M碼」方便我們建立一個缺字的轉換資料庫。雖然國際間試圖解決缺字的方法有很多種,其他的缺字表達方式亦曾是我們考慮使用的,然而目前CBETA主要檔案(Source File)中的缺字表達,有些缺字圖檔是取自日本「今昔文字鏡」(註五)的字型,原因如上述:因其乃當今國際上最大的漢字庫;且網路上提供免費字型讓 使用者下載,不增加使用者的額外負擔;而該中心亦根據CBETA缺字資料庫與其字集比對,如有欠缺,則隨時補充其尚未造的佛典缺字。且使用者依CBETA建立的缺字資料庫,亦可以自行轉換成其他的缺字表達方式,甚或轉至將來擬採用的Unicode碼(註六)。 

格式整理 
 ̄ ̄ ̄ ̄ 
  因為CBETA擬以SGML/XML(Standard Generalized Markup Language / Extensible Markup Language)標記語言作業,並期能結合良好的界面以表達結果。依此目標,CBETA先制定規範,如版本格式、電腦缺字表達、組字式規範、通用字規範、電子佛典呈現方式,及大正藏內文格式與校勘輸入格式等重要的課題。 

  「校對組」依此規範,進行缺字處理、大正藏格式化、檔案比對、看圖校對等工作,做完基本校對之後,即將檔案交給「研發組」以進行後續的缺字處理、架構標記、學術研究、發行研發等工作,並完成SGML/XML作業流程,做成主要檔案(Master file)。 

  因此,「校對組」的首要工作,就是在經文產生之後,依大正藏格式加上必要的資料。通常是在每一行之前留上 <冊數> <經號> <頁碼> <欄> <行> 等資料。因為,這些資料在需要查對原書時,能夠讓很快的找到出處,且對於後序的作業提供很大的方便。因而針對此需求,以程式進行格式化的動作。其結果如表一。 

檔案比對 
 ̄ ̄ ̄ ̄ 
  漢文佛典電子化的作業流程中,「經文校對」通常是最耗時的一個環節。然而,經由中研院提供檔案比對的技巧與概念,改良成能處理相異格式的「佛教經文比對程式」。利用這程式來比對二分以上的文件,可以很輕鬆的找出文件之間的差異處(請參照表二),再利用一些工具,就可以迅速的協助工作者利用這個差異表,修改出一份極低錯率的資料。 

  根據表三的比對後結果,就可以很快發現可能有問題的差異。只要利用這個結果,再運用其它相關程式,如下文的「看圖校對程式」,即可快速的修正差異處,以完成一份高品質的經文檔。 

看圖校對 
 ̄ ̄ ̄ ̄ 
  在電腦比對之後,針對結果檔,傳統是以翻書訂正,但在CBETA「資訊組」的努力下,開展出一個快速的「看圖校對程式」(請參照圖二),可以一邊看大正藏掃瞄圖檔,一邊做文字訂正。由於它可以同時開啟一文字視窗及一圖形視窗,並且在文字視窗中快速移動到比對差異處,然後在圖形視窗中秀出相對應的圖形位置,再由校對人員選擇或載入正確的資訊,使得作業可以順暢的進行之外,對正確率與速率的提昇也有很大的助益。 

查書校正 
 ̄ ̄ ̄ ̄ 
  查書校正,可分為兩大步驟,一為在看圖校對後,發現問題,即查閱原典或查對其他不同版本作為校勘之用。二為將所有的電子檔印成文字檔,交由CBEAT幕後一群默默工作的義工處理。CBETA很榮幸能邀約到散佈於各國中、國小的教師群幫忙校對,因為職業上的訓練,他們對於錯字與錯誤的敏感度高於常人。是以,佛典經文經過嚴密的「電腦校對」後,有這群義工老師的把關,CBETA的電子檔經文得以以較好的品質及較高的正確率問世。 

標記處理 
 ̄ ̄ ̄ ̄ 
  除了精確與嚴謹的校對是CBETA最基本的要求外,如何保持原來版本的格式也是一重要的考量點,另外為了合乎電子化的特點,並不只是把書面變成電腦排版就是所謂的電子化,因此要考慮到標記(Markup)的處理,及採取TEI(Text Encoding Initiative)(註七)的準則,並且以SGML/XML的方式表現出來等作法。同時也考量人性化檢索的需求,而開始做結構與層級的索引典之考量。上述所有成果的呈現格式皆是以SGML作為主要檔案,故特於下段舉例說明CBETA如何以SGML處理藏經的內涵。 

  在CBETA處理《大正藏》經文的標記過程中常見的問題,皆一一將之列入《CBETA工作手冊》中,以便參考。譬如處理藏經時【遇到不分卷該如何處理】、【遇到一個Note中包含另一個Note的處理方式】、【遇到卷終的處理】、【遇到別的版本比大正藏多字的處理】、【遇到Note的內容有跨行的情形】、【Note為該語詞的梵文時之處理】、【遇到Note為”明註曰x南藏作y”的處理方式】、【遇到”*”的處理方式】、【遇到別的版本比大正藏少字的處理方式】、【遇到夾註的處理】、【遇到卷首的處理】、【遇到某個版本缺譯號的處理】等常遇到的問題與處理,皆詳明的列出SGML的作業方式,今舉列說明如下(註八): 

電子檔上網 
 ̄ ̄ ̄ ̄ ̄ 
  CBETA與大眾分享的成果,可分為三大類: 

一、將CBETA的作業系統與方法印製成冊與有興趣於佛經電子化的單位或工作者分享; 

二、將CBETA作業過程所研發的程式或工具與有志於佛典電子化的工作者分享; 

三、則為將CBETA藏經電子檔與大眾分享,這些電子檔又可分為網 路版與光碟版兩種呈現方式。 

  CBETA藏經電子版成果的主要呈現方式以發表於網路上為主,目前有《大正藏》第五至第八冊之《般若部》、第九冊的《法華部》及第九冊下半部與第十冊的《華嚴部》,共計三部六冊,並將依工作進度陸續發表於網上(註九)。目前網路版經文檔(http://ccbs.ntu.edu.tw/cbeta/result)有「普及版」與「HTML版」供讀者閱覽。除上述兩版外,並有依句點分段,以便檢索的「App版」等三個版本,供使用者FTP下載所需的經文資料。 

  除電子檔經文外,CBETA網頁並提供有[簡介]、[技術]、[規劃]、[進度]、[成果]、[檢索]、[下載]、[芳鄰]、[其它]及[導覽]等項目,以提供讀者更多的電子佛典資訊,及隨時查閱新增資料與最新訊息等網路功能,詳細內容請參閱CBETA網頁(http://ccbs.ntu.edu.tw/cbeta)。 

全文檢索 
 ̄ ̄ ̄ ̄ 
  目前CBETA網路版的檢索引擎,是採用中正大學GAIS團隊所開發的元件,再以perl程式改寫所需的部份。檢索功能可分為「整部經文」檢索與「單冊經文」檢索(檢索功能,請參閱圖三)。檢索結果可以「經號」呈現及「經名」呈現,並可閱覽符合(match)的部份或閱覽全文(fulltext)等功能。 

  除了網路版的檢索功能外,在光碟版中,CBETA亦提供三項檢索程式,以利讀者於單機環境使用。這些程式可從光碟的「使用說明」選項中,選取工具使用說明,直接選取安裝,或是將光碟上的程式複製到硬碟執行,這三項工具分別為: 

  1.CBGrep(Windows下的文字搜尋工具) 

  2.CTGrep(Dos下的文字搜尋工具) 

  3.Search and Replace for Windows 95/NT(Shareware)等三種檢索程式。 

  此外,於光碟的HTMLHelp版,亦有檢索與索引等功能。使用者可輸入欲搜尋的名相後按Enter鍵,或是選取列出主題,便會在目錄區出現該名相出現的位置。點選該經目之後,瀏覽器會出現該經文檔,並將所搜尋的名相反白(藍底)。另外,讀經器提供了再檢索及關係(布林)運算元(And/Or/Not/Near) 等的檢索模式。並附有「僅搜尋標題」提供使用者只對經目的搜尋(內容請參照圖四)。 

製作光碟 
 ̄ ̄ ̄ ̄ 
  除了網路版本外,CBETA同時也發行光碟版,以利不方便上網者使用,1998 CBETA電子佛典系列含有《般若部》、《法華部》、《華嚴部》,亦即《大正藏》第五冊至第十冊的普及版電子經文,並依其呈現功能分為Normal版、App版、HTML版及HTMLHelp版四種方式。此外還有全文檢索工具、丁福保《佛學大辭典》、CBETA網站光碟版、其他相關工具及線上使用說明文件等(註十)。其中HTMLHelp 瀏覽器,包含有工具列、內容、索引、搜尋、我的最愛、列印、選項設定、佛學辭典、彈出式清單、及其他多種項目(請參閱圖五)。 

  CBETA電子佛典是由同一套 SGML電子主檔所產生,光碟提供下列版本,以供讀者不同的使用需求,分為一般文字檔的「普及版」;行末以句點作為結束,以利一般檢索的「App 版」;具有目錄、索引、全文檢索多功能的「HTMLHelp版」及可以直接使用網路瀏覽器閱讀的「HTML版」等四種不同的呈現方式。茲再對各版本說明如下: 

  1.普及版 

  普及版為一般文字檔的格式,可利用任何支援中文Big-5碼的文書處理器或是瀏覽器閱讀編輯。為了達到閱讀以及流傳的方便,普及版對於電腦中無法處理的缺字,如果可以通用字代替,則以通用字代替。反之,若無可用的通用字,則以一般組字式來表示,不另設造字檔或其他的圖檔代碼。 

  普及版不包含《大正藏》的註釋,對於大正原版錯誤的地方,則在版本中直接更正,不另作註說明。全文依照《大正藏》的格式橫向排列,於每行行首註明冊數、經文號碼、頁碼、欄位及行數等訊息,方便讀者查閱。例如T08n0221_p0001a09則代表《大正藏》第八冊第221經第一頁第一欄(上欄或a欄)第九行,詳見行首資訊(註十一)。光碟中並含有「以卷為單位」及「以經為單位」的兩種版本,提供使用者選擇。 

  2.App版 

  App版的內容及格式與普及版相同,唯一的不同是為了方便部份檢索軟體能正確的檢索,因此每行行尾如果有不成句的字,則會移動到下一行的行首(亦即以句點作為行末切割處)。搬動的字數會在下一行的行首資訊後以括號顯示出,譬如T08n0221_p0001a09(02),其中的(02)代表由上面的行數搬動兩個字到本行行首。偈頌的部份因為沒有斷行的問題,故不處理。 

  3.HTMLHelp版 

  此版是以微軟公司的HTMLHelp瀏覽器為主(註十二)。本版本與上述的兩個版本內容相同,但是如遇有更正大正版本錯誤之處,則會以紅色顯示。本版並以《大正藏》的欄位作為顯示基準,譬如以《大正藏》0001頁的a欄單獨處理成一頁顯示。並且為了方便閱讀與檢索,因此每頁的最後二行會重現在下一頁的前面,並以藍色斜體的方式顯示。對於無通用字的缺字,除了使用一般組字式之外,本版提供了缺字圖檔,讀者點選組字式便可以看到該缺字圖型。 

  本版提供了經文目錄、索引、全文檢索、線上佛學辭典,並支援網路及多媒體等功能,預計在微軟公司發行新版的HTMLHelp格式之後,可提供使用者透過網路直接更新經文內容的功能。而目前HTMLHelp版只限於中文Windows使用者。 

  4.HTML版 

  HTML版與CBETA的網頁資料相同(http://ccbs.ntu.edu.tw/cbeta),也與HTMLHelp版的格式相似,但是目前尚無全文檢索,使用者可以直接使用網路瀏覽器閱讀。但是,由於HTML版本是由許多的小檔案組成,如果備份到硬碟上執行,可能造成硬碟資源的嚴重浪費。如果需要在硬碟裡工作,建議使用者可以利用HTMLHelp版本或其他版本。倘若需要利用其中的某部份經文進行教學或其他的運用,可於經文瀏覽區選擇檢視原始檔,再選擇另存新檔。或者直接利用剪貼薄的功能,如此較不浪費硬碟資源。 

  5.丁福保《佛學大辭典》電子檔 

  為方便使用,光碟中提供兩種格式的丁福保《佛學大辭典》的電子檔(註十三):純文字檔格式及HTMLHelp格式。且點選HTMLHelp版丁福保《佛學大辭典》,由於檔案較大,開啟時間較長。另外,目前這個HTMLHelp版本只能在中文Windows環境之下操作使用。 

結語 
 ̄ ̄ 
流程檢討 

  簡言之,CBETA依作業流程,分別由負責掃描辨識或輸入的「輸入組」、經文電腦比對及人工校對的「校對組」、提出前瞻性、國際性及學術性之整體規劃及進行標記工作的「研發組」、處理電腦上缺字問題的「缺字組」、技術程式以及網路、單機應用程式開發的「資訊組」、將各組工作近況及成果利用網路呈現的「網路組」、以及負責成品發行事宜及推廣活動的「發行組」等組,依工作性質分別負責各項業務(註十四)。 

  在整個的作業過程中,校對與研發是佛典電子化最耗時的部份,如何能快速又精確地達到要求,並且能研發出符合普及與學術的要求,一直是CBETA的重要課題。事實上,這也是撰寫此文的主要目的一希望學者專家能就上述「作業流程」與「成果內容」提出改進與改良的方案,期能製作出更精良的漢文佛典與界面,以服務大眾(註十五)。 

未來展望 
 ̄ ̄ ̄ ̄ 
  至目前為止,CBETA除了上述的成果之外,其他的藏經電子檔,也正陸續完成中,並將依進度隨時置於網頁上,並於每年年底前製作成光碟,與大眾結緣。未來,我們將朝向附有校勘資訊的「學術版」努力,CBETA擬於學術版內附有《大正藏》的註解欄等資料,藉此提供歷代各版本漢文大藏經的原貌。並將與佛教學者合作,以完成以單部經典為主的學術版等計畫。當然,最終則是期望能達到《CBETA電子大藏經》「普及化與學術化、本土化與國際化兼備」的目標。 

  同時,為了能讓佛典電子化的工作能永續經營,培養新生代參與佛典電子化的作業,也是CBETA的重點工作之一。因此,除了上述CBETA的工作群外,「研發組」亦延聘多位佛學研究所學生擔任「研究助理」,參與佛典電子檔的校勘與標記(Markup)工作。如此,不但能增進學生的佛學與電腦知識,亦期能藉此培訓俱佛學學識與電腦技能的新一代學者,以因應二十一世紀的需求。 


註釋: 
 ̄ ̄ 
註一:謹此感謝日本東京大學故江島惠教教授,及日本SAT多位教授熱心協助,始能順利完成「中日大正藏版權簽約」的重要任務。 

註二:CBETA並於各版本的經文資料中,均附有經文相關資訊,記載原始資料來源,提供使用者參考外,亦期望此經文資訊與經文提供者名稱,能隨經文電子檔一併流通。每件事業的完成,都是眾緣和合所成,CBETA於工作進行中同時與國內外很多單位團體聯絡合作,然因為協助與贊助者很多,恕無法一一詳列於此,
詳細名單請參閱CBETA網頁http://ccbs.ntu.edu.tw/cbeta/friend/gongde.htm。 

註三:「一般組字式」基本規則說明: 

註四:所謂「M碼」就是以M開頭後面接著一串數字的缺字表示法,是國際上廣為採用的缺字表達法之一。譬如CBETA以M00763代表[條-木+火],通用字為「倏」的這個電腦缺字。 

註五:特此致謝日本「今昔文字鏡」(Mojikyo Font Center, http://www.mojikyo.gr.jp)提供網上免費下載字型,以便使用者 處理缺字問題。 

註六:有關缺字的處理可參考謝清俊,《電子古籍中的缺字問題》等文,及莊德明,〈漢字缺字處理與梵巴藏字母的輸入〉與《佛典共用造字集的規畫》等文,以上有關缺字論文全文,可於 http://www.sinica.edu.tw/~cdp/下載。 

註七:Sperberg-McQueen, C. Michael and Burnard, Lou (Eds.) Guidelines for Electronic TextEncoding and Interchange [TEI P3 ], Chicago and Oxford: Text Encoding Initiative, 1994. 

註八:此二範例摘錄自《CBETA工作手冊》。 

註九:CBETA的工作進度與產量,依目前的財務能力,以平均十二位工作人員計算。依此人力估算,至1999年底的預計進度,期能完 成藏經1-55冊的一半數量,亦即完成《大正藏》28 
冊以上的校對。 

註十:譬如,有關梵文轉寫字可安裝CBDIA.TTF字型檔。如果安裝順利的話,將可看到類似如下的表達:Mahayana。 

註十一:普及版與App版行首資訊規則說明 

 Txxnyyyyopzzzzcll為每行經文之前的資訊,其意義如下: 

  T :表示大正藏(Taisho)經文。 

  xx:二位數,表示大正藏冊別。 

  n :固定不變,表示後面接經號。 

  yyyy:四位數,表示大正藏經號。 

  o :大寫之 A,B...表示大正藏有記載之同經號之別本,小寫之a,b...表示大正藏沒有記載之同經號之別本,完全沒有同經號資料者,用下底線符號填入’_’。 

  p :固定不變,表示後面接頁碼。 

  zzzz :四位數,表示大正藏頁碼。 

  c :表示第幾欄,a 表示上欄,b 表示中欄,c 表示下欄,d 表示校勘欄。 

  ll :二位數,表示在該欄的行數。 

 例如:T10n0279_p0001a01,即表示大正藏第十冊0279經第一頁上欄第一行。 

註十二:HTMLHelpR格式是微軟公司R開發的新一代線上輔助系統格式,為視窗98R系統中輔助說明的瀏覽器,並可連結微軟網際網路瀏覽器R(Internet Explorer),支援HTML, 
JavaScript及Vbscript語法和相關的圖檔格式(jpg和gif等)。HTMLHelp為附於視窗98中輔助說明的瀏覽器,視窗95亦以更新使用。 

註十三:光碟所附的丁福保《佛學大辭典》電子檔,為「佛教電腦資訊庫功德會」所提供,特此致謝。 

註十四:當然,每件事業的完成,都是眾緣和合所成,CBETA於工作進行中,得到國內外許多單位的協助,特此致謝。然因為協助與贊助者很多,恕無法一一詳列於此,詳細名單請參閱CBETA網頁http://ccbs.ntu.edu.tw/cbeta/friend/gongde.htm。 

註十五:「中華電子佛典協會」聯絡資訊: 
地址:台北市朱崙街36號(慧日講堂)303室 
 Tel:+886-2-8773-6469 Fax:+886-2-8773-6470 
 E-mail:cbeta@ccbs.ntu.edu.tw 
 Homepage: http://ccbs.ntu.edu.tw/cbeta