CBETA 經文數位化工作流程
五、校對
校對程序包括「加行首資訊」、「網路人工校對」、「檔案比對」、「看圖校對」、「常錯字檢查」五項。前二項為第三項「檔案比對」之前置作業,須先妥善執行,後續之比對工作才能順利完成。
(一)加行首資訊
加行首資訊屬於格式化作業。行首資訊用於記錄每行電子經文在紙本經書上之相對位置,此舉不僅幫助後續之標記處理,也嘉惠學術引用之便。
將含有「頁欄資訊」之未格式化經文純文字檔匯入「加行首資訊程式」,執行後稍加編輯即可產生包括冊數、經號、頁、欄、行等資訊之新純文字檔。 內容格式如下:
例: T10n0279_p 0070a 04 ║ 菩薩在家 當願眾生 知家性空
T10n0279_p 0070a 05 ║ 免其逼迫 孝事父母 當願眾生
T10n0279_p 0070a 06 ║ 善事於佛 護養一切 妻子集會
T:大正藏 10 :冊數 n0279 :經號
p007:頁 a04 : a 欄(第一欄)第 4 行 ║ :分隔符號
經此步驟,所有純文字電子經文皆已格式化成 CBETA 所需格式,即可進行下階段之數位化工作。
(二) 網路人工校對
OCR 產出之電子經文純文字檔經字串取代後,正確率僅達 90% 。若將之與另一電子檔(如人工輸入檔)比對,勢必差異數量龐大,需動用大量人力方能完成校對程序。
CBETA 有一「網路校對」機制,即於網路上徵集志工約九百人,投入線上一人一頁分工校對行列。線上校對程序為:
- 上 CBETA 網站(http://cbeta.org/index.htm)申請登記。
- 提領經文之純文字檔與圖檔。
- 利用看圖校對程式對純文字檔進行逐字校對。
- 回傳 CBETA 。
看圖校對程式係本協會之程式設計師開發設計,校對者可同時閱覽純文字檔與其相對之圖檔,達成看圖替代翻書之快速校閱。
網路校對後之 OCR 經文,正確率可提升為 98% 。
(三)檔案比對
傳統人工校對,即使四校或十校,總有無法避免的死角。 CBETA 利用電腦檔案比對,即同一份經文內容,由兩個版本予以輸入,然後以檔案比對程式找出兩者差異,再以看圖校對方式進行訂正,產生一份超越一般人工校對水準之經文檔。
首先,收集兩份同一經文但輸入來源不同之純文字電子檔。若有一頁一頁 的小檔,可利用「檔案合併程式」,將兩檔各自所含小檔之純文字檔案合併成大檔,以利文書編輯處理及後續比對作業的進行。
將合併成大檔之兩檔匯入「檔案比對程式」(圖十),執行第一次兩檔比對。比對後產生一個主要差異檔。以《大正藏》而言,平均每冊約產生兩萬個差異。
圖十、檔案比對程式
(四)看圖校對
比對後之差異檔,交由兩位熟識經文之經驗人員各自利用 SeeCheck「看圖校對程式」(圖十一),以差異檔比照原書掃描圖檔予以訂正。
圖十一、看圖校對程式介面
此兩位人員訂正後交回的兩份校對完成檔,再以程式執行第二次檔案比對,比對後會產生一數量較小之差異檔。將此差異檔交由一位人員進行最後把關,方法也是以差異檔比照原書掃描圖檔看圖校對。
(五)常錯字檢查
校對最後 的工作重點是對於任何值得疑慮的字元,我們將之列入「常錯字參考表」 (圖十二),並透過程式對檔案進行取代, 形成差異以利用看圖方式來校對。這個概念是我們對看圖校對程式的充分應用,可以發揮事半功倍的效果。
圖十二、常錯字參考表