CBETA 經文數位化工作流程


本文內容主要取材自:數位典藏國家型科技計畫/內容發展分項計畫/佛典數位典藏內容開發之研究與建構/數位化工作流程簡介 2005.11

〇、工作流程圖

一、選定材料

CBETA 經文數位化工作流程

一、選定材料

CBETA 以「佛典集成」為目標,故前期作業以「大藏出版株式會社」授與協會使用之《大正新脩大藏經》(以下簡稱《大正藏》)為底本(圖一),擇其中與漢傳佛教較為相關之第一冊至第五十五冊以及第八十五冊,主要內容有歷代漢譯之〈印度撰述部〉與中國祖師著述之〈中國撰述部〉,共五十六冊,進行藏經電子化工作。數位化工作長達三年,目前已全數完成。

 

圖一、《大正新脩大藏經》

圖一、《大正新脩大藏經》

 

現正進行數位化之藏經為《卍續藏》(圖二),預計 2006 年底全數完成上線。未來將持續搜尋其他漢文佛典之遺珍,納入數位化工作,以達「佛典集成」之效。

 

圖二、《卍續藏》

圖二、《卍續藏》

 

選定《大正藏》乃因其為國際上佛學研究之權威版本,現成電子檔與相關資源較多;《卍續藏》有極為豐富的中國祖師大德著述,深具價值;加以《大正》與《卍續》兩藏皆為鉛字排版,較適合輸入作業的進行;若集兩藏,重要的漢文佛典幾乎囊括大部份(圖三),此乃 CBETA 選定材料之優先原則。

 

圖三、《大正藏》與《卍續藏》之關係圖

圖三、《大正藏》與《卍續藏》之關係圖

二、制定規範

CBETA 經文數位化工作流程

二、制定規範

為確保數位化前後環節銜接順暢,各項流程需制定作業規範以利工作遵循。這些規範來自經驗累積,且以最終目標——「XML 標記」為考量。 CBETA 針對幾項數位化重要作業:輸入、校對、缺字、簡單標記、 XML 標記等,皆制定詳盡之作業規範。

(一)輸入

輸入規範包括對本文、本文以外之符號標誌,以及圖片、表格等等狀況提出規定,例如一般本文、夾注小字、段落,本文以外之頁碼、欄位、校勘符號,或是空白字元、空白行、表格、圖形、缺字……等。

(二)校對

採用「檔案比對」程式進行校驗,因此校對規範著重於比對前之格式化準備,以及程式之使用方式與程序。

(三)缺字

經文中常可見非現行使用之古漢字或異體字、符號等,為一般 BIG5(大 五碼)系統無法辨識,故需建立一套缺字處理辦法,例如組字式規範,及以缺字資料表記錄缺字。

(四)簡單標記

簡單標記規範經文之經號、經名、作者、標題、段落…等之文字屬性。以簡單符號記錄,較 XML 標記容易上手。

(五) XML 標記

使用 XML 做為佛典電子檔的標記語言,並採用國際規範 TEI(Text Encoding and Interchange)做為基礎標籤集,再依實務標記作業經驗,修訂或新增標籤,建立適用於漢文電子佛典的標籤集。

三、原書掃描

CBETA 經文數位化工作流程

三、原書掃描

掃描需將藏經原書或原書之影本拆卷,裁切騎縫邊,以散裝方式進行掃描。掃描要點如下:

  1. 掃描。
  2. 抽樣查看掃描品質—有無線條或歪斜不清者。
  3. 掃描完畢後,就奇數頁與偶數頁檢查有無漏頁。
  4. 編頁碼—先編奇數頁後編偶數頁,然後合併。
  5. 抽樣檢查頁數正確與否。
  6. 轉檔。
  7. 燒錄。
  8. 燒錄完成後,瀏覽檔案,若有缺漏或無法開啟的檔,加以修改或補齊。
  9. 歸檔。
  10. 清潔掃描器。

早期使用具備「自動送紙功能」與「自動編號存檔」之掃描器,可一次自動掃存五十頁,程式能依冊、號編名存檔。後再以圖形處理軟體快速瀏覽圖檔以檢查掃描狀況。現因人員及成本效益考量,委託外部廠商執行,成本約每頁1 . 5元。

掃描產生之圖檔(圖四)需先設為較高階影像:解析度 300dpi ,色彩模式灰階或黑白,以供日後依不同目的降階應用。圖檔除提供「 OCR 辨識」使用,並備為「看圖校對」查看,故再將圖檔由 300dpi 灰階轉成 TIFF-g4 黑白格式,檔案既小,畫質又清晰。

圖四、原書掃描之圖檔

圖四、原書掃描之圖檔

四、輸入

CBETA 經文數位化工作流程

四、輸入

對於大量佛典經文的輸入,應針對不同內容,選擇採用人工輸入或是掃描圖檔辨識的方法來產生文字檔。

輸入方法有三種,分別為收集現成電子檔、人工輸入,以及 OCR 圖檔辨識。決策方式為:如一佛典已有現成電子檔,則該電子檔可供日後檔案比對使用;無電子檔又難以透過 OCR 辨識之文字,如手抄本與刻版經文,則採用人工輸入。

不論使用何種輸入方式,一部經文至少需產生兩份電子檔。

(一)收集現成電子檔:

早在 CBETA 成立之前 ,網路上已流傳許多對佛典有興趣之志工團體的輸入電子檔,或是其他佛教機構、學術單位研發之電子佛經。

現成電子檔之收集大都以流通較廣的經文為主,這些電子佛經(圖五)通常不符合 CBETA 之規定格式(如需加註頁、欄資訊);故收集得來之檔案在檔案比對前,還需經過格式化之後續處理。

 

圖五、《大正藏》之現成電子經文

圖五、《大正藏》之現成電子經文

(二)人工輸入:

無法使用 OCR 辨識軟體辨識之佛經,委外交由專業承包公司進行人工繕打。

委外之前,必須事先制定輸入規範,將之交與廠商人員比照辦理。人工輸入產生之純文字電子檔,需包含頁、欄資訊(圖六),以及依冊號順序命名之檔案名稱。人工輸入成本約每千字五十元。

 

圖六、委外人工輸入產出之電子檔

圖六、委外人工輸入產出之電子檔

 

(三) OCR 圖檔辨識:

1. 去除雜點

經文書上常有異於文字之讀音符號與注釋標記(圖七),嚴重影響 OCR 辨識之判讀結果;故掃描後之經文圖檔,須先以程式去除雜點,產生一新 TIFF 圖檔。

 

圖七、含讀音符號與雜點之原始掃描圖檔

圖七、含讀音符號與雜點之原始掃描圖檔

2. OCR 圖檔辨識

將去除雜點後之新圖檔,匯入丹青公司特別為本協會量身訂作之 OCR 程式進行辨識(圖八),產出一份經文之「純文字檔」。

 

圖八、丹青 OCR 操作介面

圖八、丹青 OCR 操作介面

 

該程式與一般辨識程式不同處在於「丹青 for CBETA 」可判讀經文特有之雙排小字(圖八)。

3. 字串取代

使用「常錯字串取代程式」,以正確字串快速批次取代 OCR 後可能之常錯字串(圖九),免除逐字校對之不便,約可提升純文字檔文字精確度至 90% 。

 

圖九、 OCR 常錯字串取代表

圖九、 OCR 常錯字串取代表

 

進行至此,輸入步驟可能產生三種皆未格式化(未加行首資訊)之電子檔:

  1. 網路收集之現成電子檔。
  2. 委外人工繕打(包含頁欄資訊),正確率約為 97% 之電子檔。
  3. OCR 辨識後,正確率 90% 之電子檔。

 

五、校對

CBETA 經文數位化工作流程

五、校對

校對程序包括「加行首資訊」、「網路人工校對」、「檔案比對」、「看圖校對」、「常錯字檢查」五項。前二項為第三項「檔案比對」之前置作業,須先妥善執行,後續之比對工作才能順利完成。

 

(一)加行首資訊

加行首資訊屬於格式化作業。行首資訊用於記錄每行電子經文在紙本經書上之相對位置,此舉不僅幫助後續之標記處理,也嘉惠學術引用之便。

將含有「頁欄資訊」之未格式化經文純文字檔匯入「加行首資訊程式」,執行後稍加編輯即可產生包括冊數、經號、頁、欄、行等資訊之新純文字檔。 內容格式如下:

例: T10n0279_p 0070a 04 ║ 菩薩在家  當願眾生  知家性空
   T10n0279_p 0070a 05 ║ 免其逼迫  孝事父母  當願眾生
   T10n0279_p 0070a 06 ║ 善事於佛  護養一切  妻子集會
 

   T:大正藏   10 :冊數           n0279 :經號
   p007:頁    a04 : a 欄(第一欄)第 4 行   ║ :分隔符號

經此步驟,所有純文字電子經文皆已格式化成 CBETA 所需格式,即可進行下階段之數位化工作。

 

(二) 網路人工校對  

OCR 產出之電子經文純文字檔經字串取代後,正確率僅達 90% 。若將之與另一電子檔(如人工輸入檔)比對,勢必差異數量龐大,需動用大量人力方能完成校對程序。

CBETA 有一「網路校對」機制,即於網路上徵集志工約九百人,投入線上一人一頁分工校對行列。線上校對程序為:

  1. 上 CBETA 網站(http://cbeta.org/index.htm)申請登記。
  2. 提領經文之純文字檔與圖檔。
  3. 利用看圖校對程式對純文字檔進行逐字校對。
  4. 回傳 CBETA 。

看圖校對程式係本協會之程式設計師開發設計,校對者可同時閱覽純文字檔與其相對之圖檔,達成看圖替代翻書之快速校閱。

網路校對後之 OCR 經文,正確率可提升為 98% 。

 

(三)檔案比對

傳統人工校對,即使四校或十校,總有無法避免的死角。 CBETA 利用電腦檔案比對,即同一份經文內容,由兩個版本予以輸入,然後以檔案比對程式找出兩者差異,再以看圖校對方式進行訂正,產生一份超越一般人工校對水準之經文檔。

首先,收集兩份同一經文但輸入來源不同之純文字電子檔。若有一頁一頁 的小檔,可利用「檔案合併程式」,將兩檔各自所含小檔之純文字檔案合併成大檔,以利文書編輯處理及後續比對作業的進行。

將合併成大檔之兩檔匯入「檔案比對程式」(圖十),執行第一次兩檔比對。比對後產生一個主要差異檔。以《大正藏》而言,平均每冊約產生兩萬個差異。

 

圖十、檔案比對程式

圖十、檔案比對程式

 

(四)看圖校對

比對後之差異檔,交由兩位熟識經文之經驗人員各自利用 SeeCheck「看圖校對程式」(圖十一),以差異檔比照原書掃描圖檔予以訂正。

 

圖十一、看圖校對程式介面

圖十一、看圖校對程式介面

 

此兩位人員訂正後交回的兩份校對完成檔,再以程式執行第二次檔案比對,比對後會產生一數量較小之差異檔。將此差異檔交由一位人員進行最後把關,方法也是以差異檔比照原書掃描圖檔看圖校對。

 

(五)常錯字檢查

校對最後 的工作重點是對於任何值得疑慮的字元,我們將之列入「常錯字參考表」 (圖十二),並透過程式對檔案進行取代, 形成差異以利用看圖方式來校對。這個概念是我們對看圖校對程式的充分應用,可以發揮事半功倍的效果。

 

圖十二、常錯字參考表

圖十二、常錯字參考表

 

六、簡單標記

CBETA 經文數位化工作流程

六、 簡單標記

(一)簡單標記 I

標記,是針對已完成校對文件之進一步編輯作業。在進入正式 XML 標記之前,輸校組需對經文段落加上適當標記,成為「簡單標記版」的經文電子檔。

這一套簡單標記,目的是把經文當中「經號 N」、「經卷 Jj」、「品 D」、「著者 A」、「譯者 Y」、「序 X」、「偈頌 Ss」、「咒語 Z」、「附文 W」、「段落 P」、「其它標題 Q」、「行中小段落 P」…等,以簡單符號標示區分出來,方便電腦認識經文各段落之不同屬性,並能加以進一步運用。簡單標記主要是在行首資訊後的三欄「_##」標記欄位置中標示出來(圖十三),或標記於經文中的「行首」、「行中」、「行尾」。

 

圖十三、第一 階段簡單標記產出之純文字檔

圖十三、第一 階段簡單標記產出之純文字檔

 

(二)簡單標記 II

第二階段簡單標記之重點工作為「架構經文標題層次」(圖十四)。此自訂標記可讓電腦認識整篇經文之章節架構,如:

 

圖十四、經文之標題層次架構

圖十四、經文之標題層次架構

七、缺字處理

CBETA 經文數位化工作流程

七、缺字處理

CBETA 以「BIG5(大 五碼)」加上「組字式」作為記錄缺字的基礎。

使用一般組字式來表達佛典缺字的方法,是考量使用者能在純文字環境下閱讀,不需另外安裝造字檔或圖檔而設計的,這種方式提供了閱覽、散播上的便利性,也不會佔用使用者對造字檔自行運用的空間。

該組字法含「*」、「/」、「@」、「-」、「+」、「?」六個半形基本符號,及「()」、「[]」兩組半形分隔符號。

舉例說明如下:

符號

說明

範例

*

表橫向連接

明=日*月

/

表縱向連接

音=立/日

@

表包含

因=囗@大 或 閒=門@月

-

表去掉某部分

青=請-言

-+

若前後配合,表示去掉某部分,
而改以另一部分代替

閒=間-日+月

?

表字根特別,尚未找到足以表示者

背=(?* 匕)/月

( )

為運算分隔符號

繞=組-且+((土/(土*土))/兀)

[ ]

為文字分隔符號

羅[目*侯]羅母耶輸陀羅比丘尼

 

記錄缺字後,並將缺字相關資訊,包括注音、筆畫、部首、通用字、Unicode…等建構成漢文佛典缺字資料庫(圖十五)。

 

圖十五、缺字資料庫畫面

圖十五、缺字資料庫畫面

八、XML 標記

CBETA 經文數位化工作流程

八、XML 標記

經簡單標記、缺字處理後之經文,以程式將簡單標記經文轉為 XML TEI 標記經文(圖十六至圖十八)。

 

圖十六、簡單標記轉換為 XML 標記之程式流程圖

圖十六、簡單標記轉換為 XML 標記之程式流程圖

 

圖十七、簡單標記經文

圖十七、簡單標記經文

 

圖十八、 XML TEI 標記經文

圖十八、 XML TEI 標記經文

 

之後仍需做語法檢查及人工編輯,最後以程式將 XML 版輸出與簡單標記版相互比對。

九、應用服務

CBETA 經文數位化工作流程

九、應用服務

(一)成品光碟與網路服務

利用標記完成之經文,轉換成普及網路版放置網路上供大眾免費瀏覽、檢索與下載(圖十九);此外, CBETA 每年發行一萬份電子佛典光碟(圖二十),光碟含有優異檢索及閱覽功能的 CBReader(圖二十一),提供免費索取,與大眾結緣。

 

圖十九、 CBETA 網站

圖十九、 CBETA 網站

 

圖二十、 CBETA 每年發行之光碟

圖二十、 CBETA 每年發行之光碟

 

圖二十一、優異檢索及閱覽功能的 CBReader

圖二十一、優異檢索及閱覽功能的 CBReader

 

(二)經文修訂

儘管經文已上線、壓光碟,仍需不斷查證相關資料以確認讀者及內部作業發現之經文用字問題,並執行經文資料庫之修訂,包括簡單標記版(圖二十二)及 XML 版(圖二十三),兩者必須同步修訂;期望透過修訂,提升經文資料庫之品質。

 

圖二十二、簡單標記版修訂

圖二十二、簡單標記版修訂

 

圖二十三、 XML 版修訂

圖二十三、 XML 版修訂

 

(三)應用發展

除生產預定經文典籍外, CBETA 也亟欲推廣與經文資料庫相關之應用及技術,例如漢字工具(圖二十四)、新式標點、通用詞庫、相關字(辭)典、藏經目錄資料庫、各版藏經經文對照資料庫…等。

 

圖二十四、漢字工具

圖二十四、漢字工具