CBETA 在 AI 時代的 OCR 應用

早期在進行佛典數位化時,因為當時的 OCR 辨識不夠準確,CBETA 必須人工逐字輸入,再和 OCR 結果進行比對。這項工作非常花時間,也需要大量的人力與耐心。

近年由於 AI 技術的進步,OCR 的準確度也大幅提升。因此 CBETA 在《演培法師全集》的處理上,採用了三種不同模型的 OCR,相同的影像會同時被三個模型辨識,再由自行開發的比對程式找出三個版本的文字差異,最後再由輸校組人工確認。不僅讓數位化的速度快很多,文字品質也相當穩定。

而各家 AI OCR 模型也各有傾向,因此選用時必須盡量「異質化」,才能產生真正有價值的參考差異。像是不同世代的同款 OCR 模組,對相似字形會有不同判讀基準(例如 ABBYY 11 與 ABBYY 16)。有些模型是忠實依照原始圖檔辨識,如:Google Document AI。有些則會在辨識時透過大型語言模型自動「潤稿」,像 Gemini Vision 便是如此。透過異質的多元模型組合,才能把差異比對做得更扎實。

AI 的協助,除了提升速度與準確度之外,有時也能指出一些原書本身的印刷問題,例如漏字、錯字或語意不順的地方,這些是在過去純人工作業較難達成的。

不過,即便 AI 能大幅提升佛典數位化的效率,但要做到更好、更精準,有許多細節仍需要人工判定,例如:用字標準化、專有名詞、是否忠於原書等。以《演培法師全集》為例,有些 AI 會因為語料習慣而過度修改,例如把原書的「印順論師」改成現代常見的「印順導師」。這些情況都需要人工校對才能維持文本的正確性。也就是說,AI 與人工的協作,是目前最穩定、最可靠的方式。

在這樣的協作下,CBETA 已將《演培法師全集》專案共 34 冊的 OCR 工作全數完成,並已完成 4 冊的文本校對,預計將於年底前 CBETA 資料更新時上架。

 ➡ 更多專案進度,請參見專案網頁 https://pages.cbeta.org/yenpei

CBETA 會持續在 AI 時代精進數位化流程,讓更多重要典籍能更快、更準確地與讀者見面。歡迎持續關注!🙏

Donate