緣起
在大正藏的經文中,除了常見的文字與句點之外,尚有許多其他的符號,其中主要的有校勘數字(有數字的黑圈)、校勘星號(星號)、斷詞小黑點,而較不重要的符號則有一些日本使用的讀音符號,這些符號請參考圖一。
在 CBETA 處理佛典電子化的過程中,有一部分的經文來源是網路上所流傳或十方大德主動提供的,然而這一類的經文,普遍的情況就是上述一些重要的符號沒有輸入,只有部分經文在輸入時有注意到這一點(例如早期蕭鎮國大德所提的經文)。
這一類的符號,現有的 OCR 軟體都無法完全有效的辨識成功,所以當 CBETA 輸入組的同仁在處理這一類尚未輸入符號的經文時,早期都是採取人工輸入,但由於在時間與人力上都有極大的耗費,於是開始與資訊組同仁討論,看看能否找出更為簡便的方式來完成這個工作。 |