五、校對

CBETA 經文數位化工作流程

五、校對

校對程序包括「加行首資訊」、「網路人工校對」、「檔案比對」、「看圖校對」、「常錯字檢查」五項。前二項為第三項「檔案比對」之前置作業,須先妥善執行,後續之比對工作才能順利完成。

 

(一)加行首資訊

加行首資訊屬於格式化作業。行首資訊用於記錄每行電子經文在紙本經書上之相對位置,此舉不僅幫助後續之標記處理,也嘉惠學術引用之便。

將含有「頁欄資訊」之未格式化經文純文字檔匯入「加行首資訊程式」,執行後稍加編輯即可產生包括冊數、經號、頁、欄、行等資訊之新純文字檔。 內容格式如下:

例: T10n0279_p 0070a 04 ║ 菩薩在家  當願眾生  知家性空
   T10n0279_p 0070a 05 ║ 免其逼迫  孝事父母  當願眾生
   T10n0279_p 0070a 06 ║ 善事於佛  護養一切  妻子集會
 

   T:大正藏   10 :冊數           n0279 :經號
   p007:頁    a04 : a 欄(第一欄)第 4 行   ║ :分隔符號

經此步驟,所有純文字電子經文皆已格式化成 CBETA 所需格式,即可進行下階段之數位化工作。

 

(二) 網路人工校對  

OCR 產出之電子經文純文字檔經字串取代後,正確率僅達 90% 。若將之與另一電子檔(如人工輸入檔)比對,勢必差異數量龐大,需動用大量人力方能完成校對程序。

CBETA 有一「網路校對」機制,即於網路上徵集志工約九百人,投入線上一人一頁分工校對行列。線上校對程序為:

  1. 上 CBETA 網站(http://cbeta.org/index.htm)申請登記。
  2. 提領經文之純文字檔與圖檔。
  3. 利用看圖校對程式對純文字檔進行逐字校對。
  4. 回傳 CBETA 。

看圖校對程式係本協會之程式設計師開發設計,校對者可同時閱覽純文字檔與其相對之圖檔,達成看圖替代翻書之快速校閱。

網路校對後之 OCR 經文,正確率可提升為 98% 。

 

(三)檔案比對

傳統人工校對,即使四校或十校,總有無法避免的死角。 CBETA 利用電腦檔案比對,即同一份經文內容,由兩個版本予以輸入,然後以檔案比對程式找出兩者差異,再以看圖校對方式進行訂正,產生一份超越一般人工校對水準之經文檔。

首先,收集兩份同一經文但輸入來源不同之純文字電子檔。若有一頁一頁 的小檔,可利用「檔案合併程式」,將兩檔各自所含小檔之純文字檔案合併成大檔,以利文書編輯處理及後續比對作業的進行。

將合併成大檔之兩檔匯入「檔案比對程式」(圖十),執行第一次兩檔比對。比對後產生一個主要差異檔。以《大正藏》而言,平均每冊約產生兩萬個差異。

 

圖十、檔案比對程式

圖十、檔案比對程式

 

(四)看圖校對

比對後之差異檔,交由兩位熟識經文之經驗人員各自利用 SeeCheck「看圖校對程式」(圖十一),以差異檔比照原書掃描圖檔予以訂正。

 

圖十一、看圖校對程式介面

圖十一、看圖校對程式介面

 

此兩位人員訂正後交回的兩份校對完成檔,再以程式執行第二次檔案比對,比對後會產生一數量較小之差異檔。將此差異檔交由一位人員進行最後把關,方法也是以差異檔比照原書掃描圖檔看圖校對。

 

(五)常錯字檢查

校對最後 的工作重點是對於任何值得疑慮的字元,我們將之列入「常錯字參考表」 (圖十二),並透過程式對檔案進行取代, 形成差異以利用看圖方式來校對。這個概念是我們對看圖校對程式的充分應用,可以發揮事半功倍的效果。

 

圖十二、常錯字參考表

圖十二、常錯字參考表