(註:此為較早期的文件,較新的文件可參考「CBETA 經文數位化工作流程」)
目次
一、資料輸入與經文收集
對於大量的佛典經文的輸入,我們針對不同的內容,選擇採用打字輸入或是掃瞄圖檔辨識的方法來產生文字檔。
OCR所使用的程式,感謝力新公司的鼎力協助,並針對我們特殊的需求,開發了丹青 for CBETA版本,特此誌謝。由於力新公司的幫忙,使得我們在面對大正藏經文能夠取得一較好的解決方案。OCR的流程簡述如下:
經文圖檔掃瞄-->去除雜點-->OCR-->學習詞庫及後處理-->線上校對-->經文
在經文收集上,主要是蕭鎮國大德陸續提供了CCCII碼人工鍵入的大正藏經文檔,對於蕭大德所提供的資料,由於是 CCCII碼,「25T小組」已經將之轉換為廣為世界華人所使用的 BIG-5碼。
另外,為便利「電腦檔案比對」,對於欲處理經文,我們必須至少有兩種由不同人所輸入的經文檔。因此我們努力收集各種現有的材料,主要包括:
- Christian Wittern 等所整理的高麗藏 BIG-5版
- 近年來網路上所收錄的佛教經典系列經文
除了這些,利用徐言輝大德所掃瞄的部份《佛教大藏經》圖檔,目前透過網路熱心朋友幫忙,正在進行OCR作業,也會有相當成果。
除利用原本網路上許多大德所輸入的經典之外,也感謝許多出版社及相關單位慷慨提供經文電子檔,讓我們能夠順利的作業。另外,我們也尋求各式各樣的合作機會,無論是針對國際佛典電子化的伙伴,或是學術研究機構、出版團體等等,均能在互利的情況下,相互支持。
針對各界提供我們的經文,如果有需要,我們會在校對完成之後,提供一份校對報告,讓出版團體能夠針對我們發現的問題進行檢查更正。
二、缺字處理
佛經中大量的缺字,是處理經文所面臨的第一個大難題,早期經由中研院資訊所、 OPEN98 小組及缺字小組討論出許多方案,本會為了顧及各方面的需求,嘗試建立相關的資料庫,能夠提供不同方案之間的轉換。如代碼取代,造字轉換等。
初期解決方案以方便日後轉換的「一般組合字」來表示電腦缺字,並建立好「缺字相關資訊」。而 XML 的標記中,早期以「今昔文字鏡」的 M碼來記錄缺字資訊,目前則以 CBETA 自訂的 CB 碼做為記錄的標準。
在呈現方面,組字式或圖檔是最基本的呈現方式。普及版的經文,則儘量以 Big5 的通用字取代 Big5 字集沒收錄文字,例如以「缽」取代 [金*本]。在支援 unicode 的環境,則可以使用 UTF8 版,此版儘量以 UTF8 所收錄的字集呈現,而查不到的文字依然以組字式呈現。
三、編輯格式
以蕭大德所提供資料,其原始稿件樣式如下:
****************************************
經數: 二七八
經名: 大方廣佛華嚴經卷第一
頁數: 三九五
上 欄
大方廣佛華嚴經卷第一
東[?0009]天竺三藏佛馱跋陀羅譯
世間淨眼口第一之一
如是我聞。一時佛在摩竭提國寂滅道場。始
成正覺。其地金剛具足嚴淨。眾寶雜華。以為
****************************************
為配合電腦檔案比對及全文檢索程式,最終完成稿件必須編排成類似以下格式:
*******************************************************
N0278P0395a01║ No.278[No.279]
N0278P0395a02║大方廣佛華嚴經卷第一
N0278P0395a03║ 東晉天竺三藏佛馱跋陀羅譯
N0278P0395a04║ 世間淨眼品第一之一
N0278P0395a05║如是我聞。一時佛在摩竭提國寂滅道場。始
N0278P0395a06║成正覺。其地金剛具足嚴淨。眾寶雜華。以為
*******************************************************
此中,明白記錄每一行文字在大正藏原書位置,包含經號、頁數、欄號、行數,尚考慮加入冊數。這樣的編排,不只便利於檔案比對後的查書訂正作業,亦可讓檢索程式精確指出查詢結果。
另外,利用所建立的「缺字相關資訊」(亦即「缺字表」),除依最後採用的缺字處理方式所製訂的版本外,同一份經文亦可以轉換為多種版本,比如「通用字版」、「一般組合字版」等,以便利各種應用。
四、檔案比對
傳統人工校對,即使四校或十校,總有無法避免的死角。如果利用電腦檔案比對,同一份經文內容,由兩個人予以輸入,然後利用周海文大德所撰寫的檔案比對程式來找出兩者差異,如下:
大方廣佛華嚴經卷第一
東{{[普-(恙-王-心)]||晉}}天竺三藏佛馱跋陀羅譯
世間淨眼品第一之一
如是我聞。一{{時||非}}佛在摩竭提國寂滅道場。始
成正覺。其地金剛具足嚴{{淨||&K2-E8C9;}}。眾寶雜華。以為
再加以查書訂正,如此即可產生一份超越一般人工校對水準的經文檔。為便利檔案比對的查書訂正,比對檔案中必須有一個要依大正藏格式編排,例如:
N0278P0395a01║ No.278[No.279]
N0278P0395a02║大方廣佛華嚴經卷第一
N0278P0395a03║ 東晉天竺三藏佛馱跋陀羅譯
N0278P0395a04║ 世間淨眼品第一之一
N0278P0395a05║如是我聞。一時佛在摩竭提國寂滅道場。始
N0278P0395a06║成正覺。其地金剛具足嚴淨。眾寶雜華。以為
清楚表示出每一行在大正藏原書位置,以利比對後來翻書訂正。此一步驟必須完成再予比對。很幸運的,我們至少會有一份按大正藏樣式輸入的1-55冊資料,只要我們稍加編排即可完成以上的格式需求。
電腦檔案比對並非沒有死角,當兩個檔案輸入者犯了相同錯誤,檔案比對是無法發現的。所以,應考慮事後再經一次人工校對;或是,將第一次檔案比對後結果,再與第三個經文檔進行一次比對。人工校對是很耗費人力的,如果有可資利用的第三、第四個經文檔,應該盡量採取電腦檔案比對。
五、看圖校對
利用先前掃瞄之圖檔和經文比對差異檔,及看圖校對程式,進行線上看圖校對。原則上採取兩組同時進行,再將結果交叉比對的方式。
看圖校對後,亦進行後處理做進一步的檢查,及原版藏經的查證工作。
六、人工校對
將看圖校對後決定的經文,列印提供義工進行書面校對。在此感謝所有參與書面校對的義工菩薩們。如果您對參與書面校對工作有興趣,歡迎和我們連絡。
書面校對後進行訂正,接著便進行標記的處理。
七、標記處理
標記處理分成兩部份,先進行簡單標記的處理,再利用程式轉換,進行細部的標記處理。
八、電子檔上網
利用標記完成之經文檔案,產生普及版之經文檔,上網提供大眾使用。
九、成品應用
當基本資料鍵入、校對、編輯完成後,必須賦與漢文全文檢索工具,才能夠發揮數位化資訊的妙用。
漢文檢索程式,目前網路上OPEN98網頁及台大佛研中心「經典系列」皆有實驗性展示。冀望來日,能有良好因緣可以促成資料與工具的結合,讓這幾千萬字的佛教智慧活起來。
除做網路應用外,亦須做成單機使用的 CD-ROM ,讓使用者免於網路之不便。
另外,所完成資料為一網路公共財產,不屬於任何單位所有。所以,透過網路陳列所有經文檔,提供給任何人下載做非商業性使用。
佛經出版,自從電腦排版興盛以來,相同經典前後已被各家佛教出版社輸入、校對過無數次,這些資源的浪費何止千萬。希望我們這些資料的完成,能夠從此減少不當的浪費,並促進佛教出版文化的品質。
十、使用者之建議與指導
接受來自世界各地使用者之指導與建議,並不定期針對使用者的意見,召開組際會議,進行討論。
十一、修正並更新
依使用者的建議和會議的決議,對經文內容或是相關工具,甚至是處理流程進行修正和更新。
十二、未來展望
大正藏深為學界所重視,但其錯漏難免,透過這次作業應可提出若干訂正。
目前我們主要是整理大正藏原經文,對於其重要的校勘部份,未來一定要設法予以鍵入。
於1-55冊及第85冊完成後,可以接著整理《卍續藏》等材料。這些材料必須考慮到是否適用於掃瞄辨識(OCR),若能做掃瞄辨識則可節省龐大作業成本。
另外,有系統的新式分段標點以及白話註解,亦是將來值得進行的現代化工作。但願我們的努力,不只是在維護古籍,而且能夠加上新的方法,以闡揚佛典精髓,令佛法常住人間。