1999EBTI會議大會實錄 -- 從台北看國際電子佛典實況=Report of 1999 Electronic Buddhist Text Initiative
杜正民
現代佛教學會通訊
第2期(1999.04.15)
前言
由教育部電算中心及中研院計算中心主辦,法鼓山中華佛學研究所、菩提文教基金會暨台大佛學研究中心協辦的第五屆「國際電子佛典推進協議會」 (Electronic Buddhist Text Initiative, EBTI) 於今年元月15日至21日,假中央研究院學術活動中心與地球科學研究所會議廳盛大舉行,主題豐盛內容充實,可說是呈現本世紀末國際佛典電子化的實況縮影於台北1999的初春,因而僅對此會議稍作簡介。
電子佛典推進協議會 (以下簡稱EBTI),從1993年在美國柏克萊成立至今,即以各種語文的佛教藏經電子化為標的,藉以達成佛典保存、研究、傳播的作用;並以資料分享、跨語言平台為推展項目,以達合作、分享、標準化的宗旨。基於上述標的與宗旨,EBTI 開始進行國際間「學術單位」與「宗教團體」電子化的「推廣」與「協調」工作,不定期於世界各地舉辦研討會議與展示討論等活動,並根據不同的經典語言與工作項目分場次討論,於佛典電子化產生很大的推廣效益。
不同於往年的單獨舉辦,今年的EBTI會議擴大為一大型的聯合會議,與會的團體除了EBTI之外,還有文化地圖協會 (Electronic Cultural Atlas Initiative, ECAI),學者電子資源協會 (Scholars Engaged in Electronic Resources, SEER) 以及太平洋鄰里協會 (Pacific Neighborhood Consortium, PNC) 等團體參加。本次聯合會議與會的國內外學者多達三百多人,發表論文與展示研討者計有一百五十多位學者專家參加,而與會學者則分別來自十七個不同的國家,可說是一大型的國際會議。
此外,本次會議另一特色就是於元月15日至16日兩天,特別舉辦會前的講習會 (Tutorial),本次的「會前會」特別邀請澳洲、英國與美國等學有專長及實務經驗豐富的學者專家來台講習,提供很多務實的實際經驗。於研討課程中,講者就其工作經驗與專長,提供很好的實務方法與先進技術的解說,實為一難得的機會,而且也是提昇台灣佛典電子化工作的重要講習會。本次講習的主旨,誠如中研院簡章所言,主要是提供台灣「研習相關範疇技術的人員得以掌握其精隨」。
本次的會前會共計四場分兩天舉行,計有超資料製作 (Metadata)、文獻編碼 (TEI, Text Encoding Initiative)、地理資訊系統 (GIS, Geographical Information System)、圖像資料 (Image Database) 四種課程。因為這些講習不同於以往的會議,且這些技術也是台灣佛教電子化單位較少使用,因而特別記錄於下,與有興趣的工作者分享:
超資料製作 (Metadata)
第一場的Metadata講習會,分別是由澳洲的Dr. Helen Jarvis 與 Dr. Ian Johnson 主持,主要是介紹文化地圖協會 (ECAI ,http://www.ias.berkeley.edu/ecai/main.html) 所採取的Dublin Core標準。Dublin Core 是一套簡潔易學的標準,主要是以十五個元素來記錄所有電子化資料的屬性,作為先製資料。共分為DC.Title, DC.Creator, DC.Subject, DC.Description, DC.Publisher, DC.Contributor, DC.Date, DC.Type, DC.Format, DC.Identifier, DC.Source, DC.Language, DC.Relation, DC.Coverage 及 DC.Rights 等15項目,作業人員可以用這些項目來管理電子圖書館與電子博物館的文獻資料及文物項目,以作為檢索與交換的標準。
於講習會中,他們以文化地圖協會ECAI Metadata Clearinghouse 的「時空地圖計畫」(TimeMap Project, http://www.timemap.net) 作實例介紹,並就他們自己發展的編輯與檢索軟體 (Metadat Editor and Search) 作應用講解。進而,開始進行資料管理的實務介紹,譬如登錄、編輯、匯入或匯出新的項目等作業方式。最後,並介紹新開發的視窗型編輯器、檢索系統等應用工具。從這個講習會不但可以瞭解何謂Dublin Core標準的內容,同時也可以瞭解如何將其應用於實際的作業,及如何運用其新開發的軟體等。
[筆者註:Metadata 於佛學文獻資料的電子化是一重要的概念,尤其在佛學書目的管理,及佛教文物圖像的電子化,皆可採用Dublin Core 的十五個元素作為標準建立先製資料,以做檢索與交換之準則。]
文獻編碼 (TEI, Text Encoding Initiative)
第二場次TEI文獻編碼 (Text Encoding Initiative, http://www-tei.uic/orgs/tei/app/) 的講者,是來自英國牛津大學的Dr. Lou Burnard,他也是《TEI手冊》(Guidelines for Electronic Text Encoding and Interchange, TEI P3) 一書的作者與推廣者之一。由他親自來講解TEI 準則自是最恰當不過了,在他幽默的講習下,相信與會者的收穫應該是頗為豐盛的。本次講習主要是介紹基本的TEI 規則,首先他先定義說「TEI 是一種文法 (Grammar),也就是文獻電子化的規則」,進而介紹如何將這些規則應用於詩句、劇本、講稿、字典等文件。總之,TEI就是說明如何應用這些標準,以記錄及保存原來的文獻,完善的將之呈現於電子模式上。
講者並進一步對如何於電子文獻中呈現各種語言,如何指向其他的電子文獻、影像,如何標記出名相、時間、地點等資料,如何呈現文獻內的不同對話,如何連結其他的參照資料,及如何編輯論疏等參考文獻等方法作詳細解說。
接著,則說「TEI 的由來是因為人文檢索的需求」,也就是因為目前的全文檢索無法滿足學者與使用者的需求,因而需借助其他的方式來達成此需求。TEI的目標就是希望能支援各種類型的文件、各種不同的語言、及不同時代的文獻,幫助專家如何對任何有興趣的資料編碼,以作為檢索或交換之用。並且,TEI 可以用SGML (Standard Generalized Markup Language) 或XML (Extensible Markup Language) 自訂所需的屬性規範,可在WWW上使用的XML語言,因不必受限於HTML的格式,將有助於TEI 的開展。
對於很多繁瑣的條文與解說,Dr. Burnard則簡潔的說,這就像我們訂做Pizza一樣,可以用同樣的一張Pizza 餅,依個人的喜好而加上不同的配料,以做成適合自己口味的Pizza。 同樣的,TEI 也是這樣的一張餅,使用者可自行依文獻語文型態的不同而調配之;也就是以許多的元件 (element) 及屬性定義 (attribute definitions) 組織成數個tagsets (標誌符號),再依使用者的需求重新命名新的元件或移除不需要的元件,就可完成其特定的標的與需求。
[筆者註:中華電子佛典協會 (以下簡稱CBETA),目前正在進行的大正藏電子化作業,完全採用Dr. Brunard 的TEI 規則,以SGML/XML 的表達進行標記工作,相信對於將來電子佛典文獻的呈現與使用,較能達到使用者的需求。且針對佛典的特殊需求,目前正由Dr. Christian Wittern 及其指導的中華佛研所學生就TEI準則修編中,這項工作對漢文佛典電子化應會有相當的助益。]
地理資訊系統 (GIS, Geographical Information System)
本場次是由澳洲Dr. Lawrence Crissman 及美國Dr. Karl Longstreh 共同主持,主要是介紹如何運用GIS建立資料結構與地圖的對應等工作。會中並以實務經驗介紹GIS的技術、建立與應用GIS的程序、以GIS做研究及組織資源與資訊的方法等。
Dr. Longstrech 更以芝加哥大學有名的中國研究所建立的「中國資料中心」(China Data Center, http://www.umich.edu/~iinet/chinadata) 網站資料做展示與解說,使與會者對於GIS 的實際運用有更進一步的瞭解。譬如中國同一村落於歷代的地理變遷,以歷史地理資訊,架構一個多層次超越時空的資訊與資料,就可以很明確的顯示出來。
講者在講習會中,主要是就GIS 的重要性,時間、空間的參照,與GIS 專有名詞等課程做解說。並且認為GIS的使用與發展,對將來的資訊研究有很大的影響。
[筆者註:此GIS系統將來在佛學研究及應用上,將會有很大的幫助。因為,不但可以建立歷年來的佛教史料與地理資料外,更可以連結中華電子佛典協會處理過的標記 (Markup) 經文,建立完整的各種時空的佛教狀況,以作為進一步的佛學研究。譬如各寺院史料的研究,佛教歷史的發展,歷代高僧大德的研究等等,都可以用時間與空間加上語言文獻的研究,重新建立一新的架構作為研究資料。]
圖像資料庫 (Image Database)
最後這一場次則由美國Ohio State University 的Dr. Janice Glowski 主持,有別於前幾場的講習,本場次先以腦力激盪 (Brainstorming) 的方式,確立計畫目標與任務的方式進行。再依國際標準、所需設備、應用軟體等需求,以建立協定 (Establishing Protocols)、 攝影協定 (Photography Protocols)、數位化協定 (Digitization Protocols) 等方式,進行第二步驟的「計畫階段」(Planning Phase),作為建立電腦之間通信與資料傳送所遵守的規則 (Protocols),以達成圖像影像檔的方便交換與管理。
最後,則以Huntington Archive of Buddhist and Related Art 佛教圖像資料庫的實務經驗,做影像校正 (Image Correction) 的範例說明,並以實際經驗提出許多很好的建議,譬如說資料庫收錄超過5,000個圖檔,則可考慮採用具有自動功能的高速掃描器 (例如Nikon LS-2000),甚至建議以掃描器的最高解析度 (1,800dpi) 來掃描等實際的工作情形,以提高品質。講者並於會中,提出許多工作上常犯的錯誤與改進的方法等實際經驗,實為一場務實的講習。
[筆者註:Huntington Archive (http://kaladarshan.arts.ohio-state.edu/) 蒐集有相當豐富的佛教圖像,是一豐富的佛教圖像資料庫。台灣如果要建立一佛教圖像資料庫,任教於Ohio State University的Huntington夫妻的作法及其所提供的經驗與建議,是相當有用的資訊。]
EBTI 會議內容簡介
本次聯合會議的主題有圖書館資訊交流 (Library Information Sharing)、網際網路之策略、電子佛典製作、地理資訊系統、數位典藏/博物館 (Digital Library/Museum)、遠距教學、超資料文件 (Metadata Documentation)、語言學、智財權、數位資源開發 (Resource Development) 及以電腦多媒體展示各研究單位的成果。因範圍太大,今僅就佛學有關的EBTI 會議內容做簡介。此屆會議場次的安排,原則上還是承續歷屆的編排方式,稍有不同的是增加韓國電子佛典的場次及台灣佛典電子化的場次,由此可顯示韓國與台灣對佛典電子化的重視與發展。茲將各場次分述如下:
1. 佛教檔案資料庫 (Archives)
2. 漢文佛典 (Chinese Texts)
3. 梵文、巴利文、吐火羅文與4. 俗語佛典 (Sanskrit, Pali, Tocharian, Prakrit Texts 1)
5. 梵文、巴利文、吐火羅文與6. 俗語佛典 (Sanskrit, Pali, Cocharian, Prakrit Texts 2)
7. 藏文佛典 (Tibetan Text)
8. 韓文佛典 (Korean Text)
9. 電子字典 (Dictionaries)
10. 藏經計畫 (Tripitaka Project)
11. 台灣佛典計畫 (Taiwan Project 1)
12. 台灣佛典計畫 (Taiwan Project 2)
由上述的場次分配,可知大部分的資料與計畫都是歷屆計畫的延續,因篇幅有限,因此有關的研究與計畫,請參考筆者於《佛教圖書館館訊》第15期〈當代國際佛典電子化現況:電子佛典推進協議會 (EBTI) 簡介〉一文( http://s1.cy.edu.tw:81/~luminary/library/mag/m15/15-main3.htm)。文中對各計畫有簡單的描述,故不再重述,本文只以新加的計畫或不同與往屆的項目作解說。
首先要特別介紹的是,今年首度加入這次研討會的日本SAT組織,SAT是由日本全國各大學組成的佛典輸入團體,目前正建立一「大正新修大藏經原典資料庫」(http://www.l.u-tokyo.ac.jp/~sat/big-5/index.html)。三場以SAT為主導的演講分別為Dr. Kosei Ishii (石井公成) 的 "Using XML for Dunhuang Manuscripts Database" 及Mr. Shigeki Moro (師茂樹) 的 "On the Missing-Characters (GAIJI) of the Taisho Tripitak Text Database Published by SAT" 及 Mr. Tokio Furuya (古家時雄) 的 "The Activities of the Mojikyo Font Center (MFC)",會中對日本近年來藏經處理與缺字處理的進展作詳盡的解說,同時也說明他們已經採用XML處理文獻與缺字的技術,且「今昔文字鏡」 (Mojikyo) 所造的八萬多個漢字是可以自由使用,而其所造的漢字還在陸續的發展與擴大中。日本SAT雖然現在是使用 JIS code,但計畫將改用 Unicode,因為在他們目前鍵入大約 70 種電子出版品總字數超過六百萬字,而其中有15,000字無法以 JIS 輸入,有1,300字無法以Unicode 輸入。其缺字部份目前擬以「今昔文字鏡」(Mojikyo Font Center, http://www.mojikyo.gr.jp) 所提供八萬多字的網上免費下載的字型來處理缺字的問題。會中Dr. Ishii 與 Mr. Moro並多次表示日本SAT與台灣CBETA締結姊妹會的誠意,相信中日雙方電子佛典的計畫與工作,將會因此進入新紀元。
在韓國的佛典電子化方面,則可以看出他們的用心與進展,本次會議除了每屆都與會的高麗藏電子化的報告 "The Techincal Solution in the Computerization of Tripitaka Korean" 外,還有元曉法師著作的輸入與翻譯計畫 "The Input and Translation of the works of Wonhyo",本計畫是由美國與韓國合作的專案,目標是將元曉法師全部著作英譯,預計於2000年1月出版,並發行CD-ROM版本,而電子版的資料將包含中文、英譯及其他傳記資料。另外,韓國東國大學的 "The Korean Ancient Buddhist Corpus and the Korean Version of the Koryo Buddhist Canon on the WWW" ,他們計畫將韓國佛教全書 (Hankuk Bulgyojonso) 及韓國海印寺的高麗佛教藏翻譯本 (Korean Version of the Koryo Buddhist Canon),兩大部總計十五萬頁的資料電子化。本計畫並預計2006年於網路上公開 (http://cache.dongk.ac.kr/project1998/)。在高麗藏電子版的發展,則有另一種 KTCS碼 (Korean Tripitaka Code System) 的應用,其主要的發展是採用「4 Byte Code System」, 亦即將一個 4 Bytes Code 分成兩個 Word,一個Word 兩個Bytes,High part word 則根據Unicode作為基本 Code ,Low part word 則代表擴充Code,高麗藏擬採用這樣特殊的編碼以提昇檢索效率,並作為與其他編碼系統的轉換碼,然而會場上有些專家則有不同的看法,因為他們認為新造的碼等於又是多了一種新的環境,不見得可以方便交換。除了這場韓國藏經的介紹外,在ECAI 會議中亦有一場專門討論韓國寺院與文化的場次,分別為:GIS and Korean Monasteries 與 The Korean Cultural Database of Korea University。由此可知韓國多年來的藏經電子化工作,已經奠定了相當的基礎,也就是說,韓國佛典電子化的發展已經是不可同日而言。
不同於往年的EBTI會議,今年台灣佛典電子化的部份特別熱絡。每年都與會的台大佛學研究中心,今年特別引進並協辦本次EBTI會議,且在這次幾項的台灣計畫中可以看出其影響,可知其在台灣佛典電子化的先導地位與重要性。台灣參與此次EBTI的報告共有六項:
1. Bhikkhu Humin (釋惠敏) 的 "CBETA and Taisho Tripitaka Project"
惠敏法師的這場展示,是國內首次正式對國際發表中華電子佛典協會 (CBETA, http://ccbs.ntu.edu.tw/cbeta/) 的成果,對於CBETA 的成果與作業方式,得到很多與會專家學者的肯定與讚美,同時確認CBETA的作業方式與方針是正確的,可說本場的發表是台灣佛典電子化在國際上一重要的里程碑。
2. Houguan Shih (釋厚觀) 的 "The Searching Functions of Ven. Yin-shunhang CD"
除了藏經電子化的工作外,厚觀法師與廣淨法師的「印順法師佛學著作集」(http://www.yinshun.org.tw) 光碟展示,同時也讓國外的專家學者認識到我們佛典電子化的多面性,也可藉此機會讓國外學者對導師著作有進一步的瞭解,可說是一很好的示範。3. Jimmy Chang (張景全) 的 "The Demonstration of Vajracchedika-sutra CD"
張景全先生的金剛經光碟展示,讓大家明瞭藏經的電子化,不但是文字的處理,還可以有各種功能的連接與運用,譬如電子字典的查閱,梵唄等功能的運用,藉此展示讓國際間瞭解漢文藏經電子化的多面性。4. Chin-Tsung Yang (楊錦聰) 的 "Buddhist Music and Wind Records"
會中並特別安插了風潮有聲公司楊錦聰先生,就其所收集的各種佛教音樂做簡介,由於現場有音樂的展示,因此引起很多與會人士的興趣,並對佛教音樂的多種風貌有進一步的認識。此展示可謂是除了佛教文字、圖像電子化之外,另一種多媒體的呈現與展示。5. Christian Wittern (維習安) 的 "Knots in the Net: Steps to Standardization of Electronic Buddhist Texts"
維習安以CBETA 的實際作業經驗,解說「CBETA 電子佛典」如何運用TEI 標準,及CBETA 如何解決各種問題與困難,並介紹CBETA如何藉TEI以完成首期的工作,將來期能達到電子佛典標準化與國際化的各項準備。維博士的這場演說得到很多的回饋與迴響,並對台灣採取TEI 準則給予許多的讚賞與鼓勵。6. Aming Tu (杜正民) 的 "Buddhist Studies Information Network Project"
筆者除了介紹台灣佛典電子化的現況外,並對將來或即將進行的各項計畫作一簡介,讓國內外人士瞭解台灣電子化的近況與發展情形,譬如台灣大學佛學研究中心與中華佛研所大型「佛學資料庫」的建構、台灣大學楊惠南教授的「台灣佛教史料電子化」、台大佛學研究中心「網路資料庫」的擴建計畫、「CBETA電子佛典」學術版的研發,及如何培訓台灣新生代參與佛典電子化的工作,並就在台灣成立「佛學與資訊」系所的可能等種種願景,讓國外學者專家得知台灣佛典電子化的蓬勃狀況。
至於藏文、梵文、巴利文、吐火羅文與俗語等佛典電子化工作,也都與往年一樣持續平穩的發展中。於會中並得知有些團體已經解決不同經典語文跨平台的問題,將來查閱單種語言的經文,即可同時比對其他經典語文的時代,應該是指日可待了。其他電子工具書類如藏文佛教字典、藏文佛學電子工具書、東亞佛教名相辭典等計畫,也提供了很好的應用工具。同時,大英博物館的敦煌計畫、俄羅斯及布里雅特 (Buryatia) 的藏文及蒙古文手稿,聖彼得堡的藏文電子目錄 (ACIP) 等大量佛學書目的出現與檔案資料庫 (archives) 的建立,將提供佛學研究新的資料與文獻。關於EBTI各場次的大要僅介紹至此,其他有關資料請查閱EBTI 台灣網站 (http://ccbs.ntu.edu.tw/EBTI/),可藉此連結到國外其他各項計畫,以深入暸解世界佛典電子化的實際狀況。
最後,在EBTI的會務會議中,筆者被選為EBTI 的台灣地區代表,維習安則為EBTI編輯委員,但是由於恆清法師與惠敏法師的謙辭,EBTI 雙主席的席位,目前除了韓國海印寺宗林法師外,另一位置還是懸缺中。此外,中華佛學研究所創辦人聖嚴法師於一月19日於開幕致詞中,對台灣佛典電子化作了一簡介說明,讓國內外人士對台灣佛典電子化有較清晰的瞭解。並於當天中午以素食宴請所有與會的各國代表,得到很好的回應,法鼓山並支援近百位義工菩薩參與大會的服務工作,加上中央研究院計算中心事先的詳細規劃與現場作業,使得全場的會議可說是臻至完美。就如最後閉幕典禮中EBTI 創辦人Dr. Lewis Lancaster 所說的「如何使2000年在柏克萊舉行的聯合會議,超越這次在台灣舉辦的盛會,將會是他未來這一年最頭痛的問題。」