漢文大藏經輸入流程簡介

標籤:

(註:此為較早期的文件,較新的文件可參考「CBETA 經文數位化工作流程」)


目次

  1. 資料輸入與經文收集
  2. 缺字處理
  3. 編輯格式
  4. 檔案比對
  5. 看圖校對
  6. 人工校對
  7. 標記處理
  8. 電子檔上網
  9. 成品應用
  10. 使用者之建議與指導
  11. 修正並更新
  12. 未來展望


一、資料輸入與經文收集

對於大量的佛典經文的輸入,我們針對不同的內容,選擇採用打字輸入或是掃瞄圖檔辨識的方法來產生文字檔。

OCR所使用的程式,感謝力新公司的鼎力協助,並針對我們特殊的需求,開發了丹青 for CBETA版本,特此誌謝。由於力新公司的幫忙,使得我們在面對大正藏經文能夠取得一較好的解決方案。OCR的流程簡述如下:

經文圖檔掃瞄-->去除雜點-->OCR-->學習詞庫及後處理-->線上校對-->經文

在經文收集上,主要是蕭鎮國大德陸續提供了CCCII碼人工鍵入的大正藏經文檔,對於蕭大德所提供的資料,由於是 CCCII碼,「25T小組」已經將之轉換為廣為世界華人所使用的 BIG-5碼。

另外,為便利「電腦檔案比對」,對於欲處理經文,我們必須至少有兩種由不同人所輸入的經文檔。因此我們努力收集各種現有的材料,主要包括:

  • Christian Wittern 等所整理的高麗藏 BIG-5版
  • 近年來網路上所收錄的佛教經典系列經文

除了這些,利用徐言輝大德所掃瞄的部份《佛教大藏經》圖檔,目前透過網路熱心朋友幫忙,正在進行OCR作業,也會有相當成果。

除利用原本網路上許多大德所輸入的經典之外,也感謝許多出版社及相關單位慷慨提供經文電子檔,讓我們能夠順利的作業。另外,我們也尋求各式各樣的合作機會,無論是針對國際佛典電子化的伙伴,或是學術研究機構、出版團體等等,均能在互利的情況下,相互支持。

針對各界提供我們的經文,如果有需要,我們會在校對完成之後,提供一份校對報告,讓出版團體能夠針對我們發現的問題進行檢查更正。


二、缺字處理

佛經中大量的缺字,是處理經文所面臨的第一個大難題,早期經由中研院資訊所、 OPEN98 小組及缺字小組討論出許多方案,本會為了顧及各方面的需求,嘗試建立相關的資料庫,能夠提供不同方案之間的轉換。如代碼取代,造字轉換等。

初期解決方案以方便日後轉換的「一般組合字」來表示電腦缺字,並建立好「缺字相關資訊」。而 XML 的標記中,早期以「今昔文字鏡」的 M碼來記錄缺字資訊,目前則以 CBETA 自訂的 CB 碼做為記錄的標準。

在呈現方面,組字式或圖檔是最基本的呈現方式。普及版的經文,則儘量以 Big5 的通用字取代 Big5 字集沒收錄文字,例如以「缽」取代 [金*本]。在支援 unicode 的環境,則可以使用 UTF8 版,此版儘量以 UTF8 所收錄的字集呈現,而查不到的文字依然以組字式呈現。


三、編輯格式

以蕭大德所提供資料,其原始稿件樣式如下:

****************************************
經數: 二七八
經名: 大方廣佛華嚴經卷第一
頁數: 三九五
上 欄
大方廣佛華嚴經卷第一
東[?0009]天竺三藏佛馱跋陀羅譯
世間淨眼口第一之一
如是我聞。一時佛在摩竭提國寂滅道場。始
成正覺。其地金剛具足嚴淨。眾寶雜華。以為
****************************************

為配合電腦檔案比對及全文檢索程式,最終完成稿件必須編排成類似以下格式:

*******************************************************
N0278P0395a01║ No.278[No.279]
N0278P0395a02║大方廣佛華嚴經卷第一
N0278P0395a03║ 東晉天竺三藏佛馱跋陀羅譯
N0278P0395a04║ 世間淨眼品第一之一
N0278P0395a05║如是我聞。一時佛在摩竭提國寂滅道場。始
N0278P0395a06║成正覺。其地金剛具足嚴淨。眾寶雜華。以為
*******************************************************

此中,明白記錄每一行文字在大正藏原書位置,包含經號、頁數、欄號、行數,尚考慮加入冊數。這樣的編排,不只便利於檔案比對後的查書訂正作業,亦可讓檢索程式精確指出查詢結果。

另外,利用所建立的「缺字相關資訊」(亦即「缺字表」),除依最後採用的缺字處理方式所製訂的版本外,同一份經文亦可以轉換為多種版本,比如「通用字版」、「一般組合字版」等,以便利各種應用。


四、檔案比對

傳統人工校對,即使四校或十校,總有無法避免的死角。如果利用電腦檔案比對,同一份經文內容,由兩個人予以輸入,然後利用周海文大德所撰寫的檔案比對程式來找出兩者差異,如下:

大方廣佛華嚴經卷第一
{{[普-(恙-王-心)]||晉}}天竺三藏佛馱跋陀羅譯
世間淨眼品第一之一
如是我聞。一{{時||非}}佛在摩竭提國寂滅道場。始
成正覺。其地金剛具足嚴{{淨||&K2-E8C9;}}。眾寶雜華。以為

再加以查書訂正,如此即可產生一份超越一般人工校對水準的經文檔。為便利檔案比對的查書訂正,比對檔案中必須有一個要依大正藏格式編排,例如:

N0278P0395a01║ No.278[No.279]
N0278P0395a02║大方廣佛華嚴經卷第一
N0278P0395a03║ 東晉天竺三藏佛馱跋陀羅譯
N0278P0395a04║ 世間淨眼品第一之一
N0278P0395a05║如是我聞。一時佛在摩竭提國寂滅道場。始
N0278P0395a06║成正覺。其地金剛具足嚴淨。眾寶雜華。以為

清楚表示出每一行在大正藏原書位置,以利比對後來翻書訂正。此一步驟必須完成再予比對。很幸運的,我們至少會有一份按大正藏樣式輸入的1-55冊資料,只要我們稍加編排即可完成以上的格式需求。

電腦檔案比對並非沒有死角,當兩個檔案輸入者犯了相同錯誤,檔案比對是無法發現的。所以,應考慮事後再經一次人工校對;或是,將第一次檔案比對後結果,再與第三個經文檔進行一次比對。人工校對是很耗費人力的,如果有可資利用的第三、第四個經文檔,應該盡量採取電腦檔案比對。


五、看圖校對

利用先前掃瞄之圖檔和經文比對差異檔,及看圖校對程式,進行線上看圖校對。原則上採取兩組同時進行,再將結果交叉比對的方式。

看圖校對後,亦進行後處理做進一步的檢查,及原版藏經的查證工作。


六、人工校對

將看圖校對後決定的經文,列印提供義工進行書面校對。在此感謝所有參與書面校對的義工菩薩們。如果您對參與書面校對工作有興趣,歡迎和我們連絡。

書面校對後進行訂正,接著便進行標記的處理。


七、標記處理

標記處理分成兩部份,先進行簡單標記的處理,再利用程式轉換,進行細部的標記處理。


八、電子檔上網

利用標記完成之經文檔案,產生普及版之經文檔,上網提供大眾使用。


九、成品應用

當基本資料鍵入、校對、編輯完成後,必須賦與漢文全文檢索工具,才能夠發揮數位化資訊的妙用。

漢文檢索程式,目前網路上OPEN98網頁及台大佛研中心「經典系列」皆有實驗性展示。冀望來日,能有良好因緣可以促成資料與工具的結合,讓這幾千萬字的佛教智慧活起來。

除做網路應用外,亦須做成單機使用的 CD-ROM ,讓使用者免於網路之不便。

另外,所完成資料為一網路公共財產,不屬於任何單位所有。所以,透過網路陳列所有經文檔,提供給任何人下載做非商業性使用。

佛經出版,自從電腦排版興盛以來,相同經典前後已被各家佛教出版社輸入、校對過無數次,這些資源的浪費何止千萬。希望我們這些資料的完成,能夠從此減少不當的浪費,並促進佛教出版文化的品質。


十、使用者之建議與指導

接受來自世界各地使用者之指導與建議,並不定期針對使用者的意見,召開組際會議,進行討論。


十一、修正並更新

依使用者的建議和會議的決議,對經文內容或是相關工具,甚至是處理流程進行修正和更新。


十二、未來展望

大正藏深為學界所重視,但其錯漏難免,透過這次作業應可提出若干訂正。

目前我們主要是整理大正藏原經文,對於其重要的校勘部份,未來一定要設法予以鍵入。

於1-55冊及第85冊完成後,可以接著整理《卍續藏》等材料。這些材料必須考慮到是否適用於掃瞄辨識(OCR),若能做掃瞄辨識則可節省龐大作業成本。

另外,有系統的新式分段標點以及白話註解,亦是將來值得進行的現代化工作。但願我們的努力,不只是在維護古籍,而且能夠加上新的方法,以闡揚佛典精髓,令佛法常住人間。