本文內容主要取材自:數位典藏國家型科技計畫/內容發展分項計畫/佛典數位典藏內容開發之研究與建構/數位化工作流程簡介 2005.11
CBETA 以「佛典集成」為目標,故前期作業以「大藏出版株式會社」授與協會使用之《大正新脩大藏經》(以下簡稱《大正藏》)為底本(圖一),擇其中與漢傳佛教較為相關之第一冊至第五十五冊以及第八十五冊,主要內容有歷代漢譯之〈印度撰述部〉與中國祖師著述之〈中國撰述部〉,共五十六冊,進行藏經電子化工作。數位化工作長達三年,目前已全數完成。
圖一、《大正新脩大藏經》
現正進行數位化之藏經為《卍續藏》(圖二),預計 2006 年底全數完成上線。未來將持續搜尋其他漢文佛典之遺珍,納入數位化工作,以達「佛典集成」之效。
圖二、《卍續藏》
選定《大正藏》乃因其為國際上佛學研究之權威版本,現成電子檔與相關資源較多;《卍續藏》有極為豐富的中國祖師大德著述,深具價值;加以《大正》與《卍續》兩藏皆為鉛字排版,較適合輸入作業的進行;若集兩藏,重要的漢文佛典幾乎囊括大部份(圖三),此乃 CBETA 選定材料之優先原則。
圖三、《大正藏》與《卍續藏》之關係圖
為確保數位化前後環節銜接順暢,各項流程需制定作業規範以利工作遵循。這些規範來自經驗累積,且以最終目標——「XML 標記」為考量。 CBETA 針對幾項數位化重要作業:輸入、校對、缺字、簡單標記、 XML 標記等,皆制定詳盡之作業規範。
(一)輸入
輸入規範包括對本文、本文以外之符號標誌,以及圖片、表格等等狀況提出規定,例如一般本文、夾注小字、段落,本文以外之頁碼、欄位、校勘符號,或是空白字元、空白行、表格、圖形、缺字……等。
(二)校對
採用「檔案比對」程式進行校驗,因此校對規範著重於比對前之格式化準備,以及程式之使用方式與程序。
(三)缺字
經文中常可見非現行使用之古漢字或異體字、符號等,為一般 BIG5(大 五碼)系統無法辨識,故需建立一套缺字處理辦法,例如組字式規範,及以缺字資料表記錄缺字。
(四)簡單標記
簡單標記規範經文之經號、經名、作者、標題、段落…等之文字屬性。以簡單符號記錄,較 XML 標記容易上手。
(五) XML 標記
使用 XML 做為佛典電子檔的標記語言,並採用國際規範 TEI(Text Encoding and Interchange)做為基礎標籤集,再依實務標記作業經驗,修訂或新增標籤,建立適用於漢文電子佛典的標籤集。
掃描需將藏經原書或原書之影本拆卷,裁切騎縫邊,以散裝方式進行掃描。掃描要點如下:
早期使用具備「自動送紙功能」與「自動編號存檔」之掃描器,可一次自動掃存五十頁,程式能依冊、號編名存檔。後再以圖形處理軟體快速瀏覽圖檔以檢查掃描狀況。現因人員及成本效益考量,委託外部廠商執行,成本約每頁1 . 5元。
掃描產生之圖檔(圖四)需先設為較高階影像:解析度 300dpi ,色彩模式灰階或黑白,以供日後依不同目的降階應用。圖檔除提供「 OCR 辨識」使用,並備為「看圖校對」查看,故再將圖檔由 300dpi 灰階轉成 TIFF-g4 黑白格式,檔案既小,畫質又清晰。
圖四、原書掃描之圖檔
對於大量佛典經文的輸入,應針對不同內容,選擇採用人工輸入或是掃描圖檔辨識的方法來產生文字檔。
輸入方法有三種,分別為收集現成電子檔、人工輸入,以及 OCR 圖檔辨識。決策方式為:如一佛典已有現成電子檔,則該電子檔可供日後檔案比對使用;無電子檔又難以透過 OCR 辨識之文字,如手抄本與刻版經文,則採用人工輸入。
不論使用何種輸入方式,一部經文至少需產生兩份電子檔。
(一)收集現成電子檔:
早在 CBETA 成立之前 ,網路上已流傳許多對佛典有興趣之志工團體的輸入電子檔,或是其他佛教機構、學術單位研發之電子佛經。
現成電子檔之收集大都以流通較廣的經文為主,這些電子佛經(圖五)通常不符合 CBETA 之規定格式(如需加註頁、欄資訊);故收集得來之檔案在檔案比對前,還需經過格式化之後續處理。
圖五、《大正藏》之現成電子經文
(二)人工輸入:
無法使用 OCR 辨識軟體辨識之佛經,委外交由專業承包公司進行人工繕打。
委外之前,必須事先制定輸入規範,將之交與廠商人員比照辦理。人工輸入產生之純文字電子檔,需包含頁、欄資訊(圖六),以及依冊號順序命名之檔案名稱。人工輸入成本約每千字五十元。
圖六、委外人工輸入產出之電子檔
(三) OCR 圖檔辨識:
1. 去除雜點
經文書上常有異於文字之讀音符號與注釋標記(圖七),嚴重影響 OCR 辨識之判讀結果;故掃描後之經文圖檔,須先以程式去除雜點,產生一新 TIFF 圖檔。
圖七、含讀音符號與雜點之原始掃描圖檔
2. OCR 圖檔辨識
將去除雜點後之新圖檔,匯入丹青公司特別為本協會量身訂作之 OCR 程式進行辨識(圖八),產出一份經文之「純文字檔」。
圖八、丹青 OCR 操作介面
該程式與一般辨識程式不同處在於「丹青 for CBETA 」可判讀經文特有之雙排小字(圖八)。
3. 字串取代
使用「常錯字串取代程式」,以正確字串快速批次取代 OCR 後可能之常錯字串(圖九),免除逐字校對之不便,約可提升純文字檔文字精確度至 90% 。
圖九、 OCR 常錯字串取代表
進行至此,輸入步驟可能產生三種皆未格式化(未加行首資訊)之電子檔:
校對程序包括「加行首資訊」、「網路人工校對」、「檔案比對」、「看圖校對」、「常錯字檢查」五項。前二項為第三項「檔案比對」之前置作業,須先妥善執行,後續之比對工作才能順利完成。
(一)加行首資訊
加行首資訊屬於格式化作業。行首資訊用於記錄每行電子經文在紙本經書上之相對位置,此舉不僅幫助後續之標記處理,也嘉惠學術引用之便。
將含有「頁欄資訊」之未格式化經文純文字檔匯入「加行首資訊程式」,執行後稍加編輯即可產生包括冊數、經號、頁、欄、行等資訊之新純文字檔。 內容格式如下:
例: T10n0279_p 0070a 04 ║ 菩薩在家 當願眾生 知家性空
T10n0279_p 0070a 05 ║ 免其逼迫 孝事父母 當願眾生
T10n0279_p 0070a 06 ║ 善事於佛 護養一切 妻子集會
T:大正藏 10 :冊數 n0279 :經號
p007:頁 a04 : a 欄(第一欄)第 4 行 ║ :分隔符號
經此步驟,所有純文字電子經文皆已格式化成 CBETA 所需格式,即可進行下階段之數位化工作。
(二) 網路人工校對
OCR 產出之電子經文純文字檔經字串取代後,正確率僅達 90% 。若將之與另一電子檔(如人工輸入檔)比對,勢必差異數量龐大,需動用大量人力方能完成校對程序。
CBETA 有一「網路校對」機制,即於網路上徵集志工約九百人,投入線上一人一頁分工校對行列。線上校對程序為:
看圖校對程式係本協會之程式設計師開發設計,校對者可同時閱覽純文字檔與其相對之圖檔,達成看圖替代翻書之快速校閱。
網路校對後之 OCR 經文,正確率可提升為 98% 。
(三)檔案比對
傳統人工校對,即使四校或十校,總有無法避免的死角。 CBETA 利用電腦檔案比對,即同一份經文內容,由兩個版本予以輸入,然後以檔案比對程式找出兩者差異,再以看圖校對方式進行訂正,產生一份超越一般人工校對水準之經文檔。
首先,收集兩份同一經文但輸入來源不同之純文字電子檔。若有一頁一頁 的小檔,可利用「檔案合併程式」,將兩檔各自所含小檔之純文字檔案合併成大檔,以利文書編輯處理及後續比對作業的進行。
將合併成大檔之兩檔匯入「檔案比對程式」(圖十),執行第一次兩檔比對。比對後產生一個主要差異檔。以《大正藏》而言,平均每冊約產生兩萬個差異。
圖十、檔案比對程式
(四)看圖校對
比對後之差異檔,交由兩位熟識經文之經驗人員各自利用 SeeCheck「看圖校對程式」(圖十一),以差異檔比照原書掃描圖檔予以訂正。
圖十一、看圖校對程式介面
此兩位人員訂正後交回的兩份校對完成檔,再以程式執行第二次檔案比對,比對後會產生一數量較小之差異檔。將此差異檔交由一位人員進行最後把關,方法也是以差異檔比照原書掃描圖檔看圖校對。
(五)常錯字檢查
校對最後 的工作重點是對於任何值得疑慮的字元,我們將之列入「常錯字參考表」 (圖十二),並透過程式對檔案進行取代, 形成差異以利用看圖方式來校對。這個概念是我們對看圖校對程式的充分應用,可以發揮事半功倍的效果。
圖十二、常錯字參考表
(一)簡單標記 I
標記,是針對已完成校對文件之進一步編輯作業。在進入正式 XML 標記之前,輸校組需對經文段落加上適當標記,成為「簡單標記版」的經文電子檔。
這一套簡單標記,目的是把經文當中「經號 N」、「經卷 Jj」、「品 D」、「著者 A」、「譯者 Y」、「序 X」、「偈頌 Ss」、「咒語 Z」、「附文 W」、「段落 P」、「其它標題 Q」、「行中小段落 P」…等,以簡單符號標示區分出來,方便電腦認識經文各段落之不同屬性,並能加以進一步運用。簡單標記主要是在行首資訊後的三欄「_##」標記欄位置中標示出來(圖十三),或標記於經文中的「行首」、「行中」、「行尾」。
圖十三、第一 階段簡單標記產出之純文字檔
(二)簡單標記 II
第二階段簡單標記之重點工作為「架構經文標題層次」(圖十四)。此自訂標記可讓電腦認識整篇經文之章節架構,如:
圖十四、經文之標題層次架構
CBETA 以「BIG5(大 五碼)」加上「組字式」作為記錄缺字的基礎。
使用一般組字式來表達佛典缺字的方法,是考量使用者能在純文字環境下閱讀,不需另外安裝造字檔或圖檔而設計的,這種方式提供了閱覽、散播上的便利性,也不會佔用使用者對造字檔自行運用的空間。
該組字法含「*」、「/」、「@」、「-」、「+」、「?」六個半形基本符號,及「(…)」、「[…]」兩組半形分隔符號。
舉例說明如下:
符號 |
說明 |
範例 |
* |
表橫向連接 |
明=日*月 |
/ |
表縱向連接 |
音=立/日 |
@ |
表包含 |
因=囗@大 或 閒=門@月 |
- |
表去掉某部分 |
青=請-言 |
-+ |
若前後配合,表示去掉某部分, |
閒=間-日+月 |
? |
表字根特別,尚未找到足以表示者 |
背=(?* 匕)/月 |
( ) |
為運算分隔符號 |
繞=組-且+((土/(土*土))/兀) |
[ ] |
為文字分隔符號 |
羅[目*侯]羅母耶輸陀羅比丘尼 |
記錄缺字後,並將缺字相關資訊,包括注音、筆畫、部首、通用字、Unicode…等建構成漢文佛典缺字資料庫(圖十五)。
圖十五、缺字資料庫畫面
經簡單標記、缺字處理後之經文,以程式將簡單標記經文轉為 XML TEI 標記經文(圖十六至圖十八)。
圖十六、簡單標記轉換為 XML 標記之程式流程圖
圖十七、簡單標記經文
圖十八、 XML TEI 標記經文
之後仍需做語法檢查及人工編輯,最後以程式將 XML 版輸出與簡單標記版相互比對。
(一)成品光碟與網路服務
利用標記完成之經文,轉換成普及網路版放置網路上供大眾免費瀏覽、檢索與下載(圖十九);此外, CBETA 每年發行一萬份電子佛典光碟(圖二十),光碟含有優異檢索及閱覽功能的 CBReader(圖二十一),提供免費索取,與大眾結緣。
圖十九、 CBETA 網站
圖二十、 CBETA 每年發行之光碟
圖二十一、優異檢索及閱覽功能的 CBReader
(二)經文修訂
儘管經文已上線、壓光碟,仍需不斷查證相關資料以確認讀者及內部作業發現之經文用字問題,並執行經文資料庫之修訂,包括簡單標記版(圖二十二)及 XML 版(圖二十三),兩者必須同步修訂;期望透過修訂,提升經文資料庫之品質。
圖二十二、簡單標記版修訂
圖二十三、 XML 版修訂
(三)應用發展
除生產預定經文典籍外, CBETA 也亟欲推廣與經文資料庫相關之應用及技術,例如漢字工具(圖二十四)、新式標點、通用詞庫、相關字(辭)典、藏經目錄資料庫、各版藏經經文對照資料庫…等。
圖二十四、漢字工具