CBETA 經文數位化工作流程
四、輸入
對於大量佛典經文的輸入,應針對不同內容,選擇採用人工輸入或是掃描圖檔辨識的方法來產生文字檔。
輸入方法有三種,分別為收集現成電子檔、人工輸入,以及 OCR 圖檔辨識。決策方式為:如一佛典已有現成電子檔,則該電子檔可供日後檔案比對使用;無電子檔又難以透過 OCR 辨識之文字,如手抄本與刻版經文,則採用人工輸入。
不論使用何種輸入方式,一部經文至少需產生兩份電子檔。
(一)收集現成電子檔:
早在 CBETA 成立之前 ,網路上已流傳許多對佛典有興趣之志工團體的輸入電子檔,或是其他佛教機構、學術單位研發之電子佛經。
現成電子檔之收集大都以流通較廣的經文為主,這些電子佛經(圖五)通常不符合 CBETA 之規定格式(如需加註頁、欄資訊);故收集得來之檔案在檔案比對前,還需經過格式化之後續處理。
圖五、《大正藏》之現成電子經文
- 參考早期「漢文大藏經輸入流程簡介」的「資料輸入與經文收集」
(二)人工輸入:
無法使用 OCR 辨識軟體辨識之佛經,委外交由專業承包公司進行人工繕打。
委外之前,必須事先制定輸入規範,將之交與廠商人員比照辦理。人工輸入產生之純文字電子檔,需包含頁、欄資訊(圖六),以及依冊號順序命名之檔案名稱。人工輸入成本約每千字五十元。
圖六、委外人工輸入產出之電子檔
(三) OCR 圖檔辨識:
1. 去除雜點
經文書上常有異於文字之讀音符號與注釋標記(圖七),嚴重影響 OCR 辨識之判讀結果;故掃描後之經文圖檔,須先以程式去除雜點,產生一新 TIFF 圖檔。
圖七、含讀音符號與雜點之原始掃描圖檔
2. OCR 圖檔辨識
將去除雜點後之新圖檔,匯入丹青公司特別為本協會量身訂作之 OCR 程式進行辨識(圖八),產出一份經文之「純文字檔」。
圖八、丹青 OCR 操作介面
該程式與一般辨識程式不同處在於「丹青 for CBETA 」可判讀經文特有之雙排小字(圖八)。
3. 字串取代
使用「常錯字串取代程式」,以正確字串快速批次取代 OCR 後可能之常錯字串(圖九),免除逐字校對之不便,約可提升純文字檔文字精確度至 90% 。
圖九、 OCR 常錯字串取代表
進行至此,輸入步驟可能產生三種皆未格式化(未加行首資訊)之電子檔:
- 網路收集之現成電子檔。
- 委外人工繕打(包含頁欄資訊),正確率約為 97% 之電子檔。
- OCR 辨識後,正確率 90% 之電子檔。